論文の概要: Distilled Large Language Model-Driven Dynamic Sparse Expert Activation Mechanism
- arxiv url: http://arxiv.org/abs/2603.26735v1
- Date: Sat, 21 Mar 2026 08:46:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:44.550097
- Title: Distilled Large Language Model-Driven Dynamic Sparse Expert Activation Mechanism
- Title(参考訳): 拡張型大言語モデル駆動動的スパースエキスパート活性化機構
- Authors: Qinghui Chen, Zekai Zhang, Zaigui Zhang, Kai Zhang, Dagang Li, Wenmin Wang, Jinglin Zhang, Cong Liu,
- Abstract要約: Distilled Large Language Model (LLM)-Driven Sparse Mixture-of-Experts (DS-MoE) フレームワークはテキスト誘導動的ルーティングと軽量なマルチスケール理解を統合している。
textbfDS-MoEは、BBMP、アルミニウム、PCBで+13.9、+1.4、+2.0 pp mAP@ 0.5:0.95でYOLOv8/YOLOXを上回っている。
- 参考スコア(独自算出の注目度): 28.84340005858496
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: High inter-class similarity, extreme scale variation, and limited computational budgets hinder reliable visual recognition across diverse real-world data. Existing vision-centric and cross-modal approaches often rely on rigid fusion mechanisms and heavy annotation pipelines, leading to sub-optimal generalization. We propose the Distilled Large Language Model (LLM)-Driven Sparse Mixture-of-Experts (DS-MoE) framework, which integrates text-guided dynamic routing and lightweight multi-scale comprehension. The DS-MoE framework dynamically aligns textual semantics with defect-specific visual patterns through a sparse MoE architecture, where task-relevant experts are adaptively activated based on semantic relevance, resolving inter-class ambiguity. A lightweight MobileSAM encoder enables real-time inference while preserving multi-scale defect details. Extensive experiments on PCB, aluminum foil, and mold defect datasets demonstrate that our framework achieves superior performance compared to existing pure vision models. \textbf{DS-MoE} surpasses YOLOv8/YOLOX with gains of +13.9, +1.4, and +2.0 pp mAP@ 0.5:0.95 on BBMP, aluminum, and PCB, respectively, while also improving precision and recall.
- Abstract(参考訳): クラス間の高い類似性、極端なスケールの変動、限られた計算予算は、様々な現実世界のデータにわたる信頼性の高い視覚的認識を妨げる。
既存のビジョン中心およびクロスモーダルアプローチは、しばしば厳密な融合機構と重いアノテーションパイプラインに依存し、準最適一般化をもたらす。
テキスト誘導動的ルーティングと軽量なマルチスケール理解を統合した拡張型大規模言語モデル (LLM) 駆動スパース・ミックス・オブ・エクササイズ (DS-MoE) フレームワークを提案する。
DS-MoEフレームワークは、意味的関連性に基づいてタスク関連の専門家が適応的に活性化され、クラス間のあいまいさを解消するスパースMoEアーキテクチャを通じて、テキストセマンティクスと欠陥固有の視覚パターンを動的に調整する。
軽量なMobileSAMエンコーダは、マルチスケールの欠陥の詳細を保存しながらリアルタイムの推論を可能にする。
PCB,アルミホイル,金型欠陥データセットの大規模な実験により,本フレームワークは既存の純視覚モデルと比較して優れた性能を発揮することが示された。
\textbf{DS-MoE} は +13.9, +1.4, +2.0 pp mAP@ 0.5:0.95 で YOLOv8/YOLOX を上回り、精度とリコールも向上した。
関連論文リスト
- Beyond Language Modeling: An Exploration of Multimodal Pretraining [125.34714978184638]
我々は、制御されたオフスクラッチ事前学習実験を通して経験的明瞭度を提供する。
我々はトランスフュージョン・フレームワークを採用し、言語と視覚の拡散を次々に予測する。
我々は、MoEアーキテクチャが、言語によって要求される高いモデル容量を提供することにより、このスケーリング非対称性を調和させることを実証する。
論文 参考訳(メタデータ) (2026-03-03T18:58:00Z) - Mixture-of-Experts Models in Vision: Routing, Optimization, and Generalization [0.0]
画像分類設定におけるMoEの挙動について検討し、予測性能、専門家の活用、一般化に着目した。
我々は、CIFAR10データセット上の密度、SoftMoE、SparseMoE分類器を、同等のモデルキャパシティで比較する。
どちらのMoE変種も、正規化によるバランスの取れた専門家の利用を維持しながら、密度の高いベースラインよりもわずかに高い検証精度を達成する。
DenseとSparseMoEは、全てのモデルが同等の一般化性能を達成しているにもかかわらず、同様の曲率状態にあるのに対して、SoftMoEはこれらの指標によってよりシャープさを示す。
論文 参考訳(メタデータ) (2026-01-21T14:22:25Z) - Multi-Modal Interpretability for Enhanced Localization in Vision-Language Models [2.984679075401059]
本稿では,視覚言語モデルの解釈性向上を目的としたマルチモーダル説明型学習フレームワークを提案する。
我々のアプローチは、複数の意味レベルで特徴を処理し、異なる粒度における画像領域間の関係をキャプチャする。
意味関係情報を勾配に基づく属性マップに組み込むことで、MMELはより焦点を絞った、文脈を意識した視覚化を実現できることを示す。
論文 参考訳(メタデータ) (2025-09-17T18:18:59Z) - OneCAT: Decoder-Only Auto-Regressive Model for Unified Understanding and Generation [91.45421429922506]
OneCATは、理解、生成、編集をシームレスに統合する統合マルチモーダルモデルである。
我々のフレームワークは、推論中に視覚変換器(ViT)や視覚トークン化器などの外部コンポーネントを不要にする。
論文 参考訳(メタデータ) (2025-09-03T17:29:50Z) - EMMA: Efficient Visual Alignment in Multi-Modal LLMs [56.03417732498859]
EMMAは、視覚的およびテキスト的エンコーディングを効率的に融合するために設計された軽量なクロスプラットフォームモジュールである。
EMMAは複数のタスクのパフォーマンスを最大9.3%向上させ、幻覚に対する堅牢性を大幅に向上させる。
論文 参考訳(メタデータ) (2024-10-02T23:00:31Z) - DualKanbaFormer: An Efficient Selective Sparse Framework for Multimodal Aspect-based Sentiment Analysis [0.6187939267100836]
マルチモーダル解析のための並列テキストおよびVisual KanbaFormerモジュールを利用する新しいフレームワークであるDual KanbaFormerを紹介する。
当社のアプローチでは、アスペクト指向スパース注意(ADSA)を導入して、粗粒度の凝集とアスペクト指向の精度のためのきめ細かい選択のバランスを取る。
従来のフィードフォワードネットワークと正規化をKAN(Kolmogorov-Arnold Networks)とDyT(Dynamic Tanh)に置き換え、非線形表現性と推論安定性を向上させる。
論文 参考訳(メタデータ) (2024-08-27T19:33:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。