論文の概要: AsyMoE: Leveraging Modal Asymmetry for Enhanced Expert Specialization in Large Vision-Language Models
- arxiv url: http://arxiv.org/abs/2509.12715v1
- Date: Tue, 16 Sep 2025 06:16:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-17 17:50:52.916581
- Title: AsyMoE: Leveraging Modal Asymmetry for Enhanced Expert Specialization in Large Vision-Language Models
- Title(参考訳): AsyMoE:大規模視覚言語モデルにおける高度スペシャライゼーションのためのモーダル非対称性の活用
- Authors: Heng Zhang, Haichuan Hu, Yaomin Shen, Weihao Yu, Yilei Yuan, Haochen You, Guo Cheng, Zijian Zhang, Lubin Gan, Huihui Wei, Hao Zhang, Jin Huang,
- Abstract要約: この非対称性を3つの専門的専門家群を用いてモデル化する新しいアーキテクチャであるAsyMoEを提案する。
我々は、モダリティ固有の処理のためのモダリティ内エキスパート、階層的相互モーダル相互作用のためのモダリティ間エキスパート、およびパラメトリックバイアスを抑えるためのエビデンス-プライオリティ言語エキスパートを設計し、文脈的基盤を維持する。
AsyMoEは26.58%、精度は15.45%で、バニラMoEとモダリティ比のMoEは25.45%、高密度モデルは25.45%である。
- 参考スコア(独自算出の注目度): 15.495054753492584
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Vision-Language Models (LVLMs) have demonstrated impressive performance on multimodal tasks through scaled architectures and extensive training. However, existing Mixture of Experts (MoE) approaches face challenges due to the asymmetry between visual and linguistic processing. Visual information is spatially complete, while language requires maintaining sequential context. As a result, MoE models struggle to balance modality-specific features and cross-modal interactions. Through systematic analysis, we observe that language experts in deeper layers progressively lose contextual grounding and rely more on parametric knowledge rather than utilizing the provided visual and linguistic information. To address this, we propose AsyMoE, a novel architecture that models this asymmetry using three specialized expert groups. We design intra-modality experts for modality-specific processing, hyperbolic inter-modality experts for hierarchical cross-modal interactions, and evidence-priority language experts to suppress parametric biases and maintain contextual grounding. Extensive experiments demonstrate that AsyMoE achieves 26.58% and 15.45% accuracy improvements over vanilla MoE and modality-specific MoE respectively, with 25.45% fewer activated parameters than dense models.
- Abstract(参考訳): LVLM(Large Vision-Language Models)は、大規模アーキテクチャと広範囲なトレーニングを通じて、マルチモーダルタスクにおける印象的なパフォーマンスを実証している。
しかし、既存のMixture of Experts (MoE) アプローチは、視覚処理と言語処理の非対称性のために課題に直面している。
視覚情報は空間的に完全であり、言語は逐次的コンテキストを維持する必要がある。
結果として、MoEモデルはモダリティ固有の特徴と相互モーダル相互作用のバランスをとるのに苦労する。
体系的な分析により,より深い階層の言語専門家は,提供された視覚情報や言語情報を活用するよりも,文脈的基盤を徐々に失い,パラメトリックな知識に頼っていることが明らかとなった。
そこで我々は,この非対称性を3つの専門的グループを用いてモデル化する新しいアーキテクチャAsyMoEを提案する。
我々は、モダリティ固有の処理のためのモダリティ内エキスパート、階層的相互モーダル相互作用のためのモダリティ間エキスパート、およびパラメトリックバイアスを抑えるためのエビデンス-プライオリティ言語エキスパートを設計し、文脈的基盤を維持する。
AsyMoEは26.58%と15.45%の精度でバニラMoEとモダリティ比のMoEをそれぞれ改善し、高密度モデルよりも25.45%の活性パラメータが減少した。
関連論文リスト
- MoIIE: Mixture of Intra- and Inter-Modality Experts for Large Vision Language Models [52.876185634349575]
我々は、モダリティ内およびモダリティ間エキスパート(MoIIE)の混合をLVLM(Large Vision-Language Models)に組み込むことを提案する。
それぞれのトークンに対して、専門家のルーティングはそのモダリティによってガイドされ、それぞれのモダリティの専門家と、モダリティ間のエキスパートの共有プールにトークンを指示する。
5.5B と 11.3B の活性化パラメータを持つ MoIIE モデルは,既存のオープンソース MoE-LLM ベースのマルチモーダルモデルの性能に適合するか,さらに上回っている。
論文 参考訳(メタデータ) (2025-08-13T13:00:05Z) - SMAR: Soft Modality-Aware Routing Strategy for MoE-based Multimodal Large Language Models Preserving Language Capabilities [13.808550562570275]
既存のマルチモーダルMOEモデル構築方法は、トレーニングコストが高いか、事前訓練されたモデルを適用する際に言語能力の劣化に悩まされる。
そこで我々は,Kullback Leibler の発散を利用してルーティング確率分布を制御する新しい正規化手法である Soft Modality Aware Routing (SMAR) を提案する。
ビジュアル・インストラクション・チューニングの実験では、SMARは86.6%の保持率を維持し、純粋なテキストはわずか2.5%であり、高いマルチモーダル性能を維持しながらベースラインを上回っている。
論文 参考訳(メタデータ) (2025-06-06T12:47:29Z) - MoLAE: Mixture of Latent Experts for Parameter-Efficient Language Models [10.623996218106564]
Mixture of Experts (MoE)は、Large Language Models (LLM)を効率的にスケーリングするための重要なアーキテクチャパラダイムとなっている。
我々は、共有射影を通して専門家の操作を低次元の潜在空間に変換する新しいパラメータ化であるMoLAEを導入し、それに続いて専門家固有の変換を行う。
モデル性能を保ちながら,MoLAEは複数の次元にわたる効率を著しく向上することを示す。
論文 参考訳(メタデータ) (2025-03-29T14:35:34Z) - Diversifying the Expert Knowledge for Task-Agnostic Pruning in Sparse Mixture-of-Experts [75.85448576746373]
本稿では,モデルのパラメータ効率を向上させるために,類似の専門家をグループ化し,グループ化する方法を提案する。
提案手法の有効性を3つの最先端MoEアーキテクチャを用いて検証する。
評価の結果,本手法は自然言語タスクにおいて,他のモデルプルーニング手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-07-12T17:25:02Z) - Multi-Head Mixture-of-Experts [100.60556163597946]
MH-MoE(Multi-Head Mixture-of-Experts)を提案する。
MH-MoEは、他のSMoE最適化手法の実装と分離が容易であり、性能向上のために他のSMoEモデルとの統合が容易である。
論文 参考訳(メタデータ) (2024-04-23T13:47:09Z) - Diversifying the Mixture-of-Experts Representation for Language Models with Orthogonal Optimizer [59.43462055143123]
The Mixture of Experts (MoE)は、ディープラーニングにおいて非常に成功したテクニックとして登場した。
本研究では,MoEの専門家が多様性の専門化や欠如に失敗した同質表現問題に光を当てた。
我々は,各専門家が他の専門家に分散された部分空間への方向を更新するように促す訓練戦略を交互に提案する。
論文 参考訳(メタデータ) (2023-10-15T07:20:28Z) - Scaling Vision-Language Models with Sparse Mixture of Experts [128.0882767889029]
提案手法は, 等価計算コストの高密度モデルに対して, 様々なベンチマークにおいて, 最先端性能を実現することができることを示す。
我々の研究は、MoEモデルのトレーニングの安定化、モデル解釈可能性に対するMoEの影響の理解、ビジョン言語モデルをスケールする際の計算性能間のトレードオフのバランスに関する貴重な洞察を提供する。
論文 参考訳(メタデータ) (2023-03-13T16:00:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。