論文の概要: Guiding Mixture-of-Experts with Temporal Multimodal Interactions
- arxiv url: http://arxiv.org/abs/2509.25678v2
- Date: Wed, 08 Oct 2025 04:21:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-09 14:21:18.174376
- Title: Guiding Mixture-of-Experts with Temporal Multimodal Interactions
- Title(参考訳): 時間的マルチモーダル相互作用を用いた混合実験の導出
- Authors: Xing Han, Hsing-Huan Chung, Joydeep Ghosh, Paul Pu Liang, Suchi Saria,
- Abstract要約: 本稿では,時間的相互作用を定量化してMoEルーティングをガイドする新しいフレームワークを提案する。
マルチモーダルなインタラクション対応ルータは、インタラクションの性質に基づいて、トークンを専門家にディスパッチする方法を学ぶ。
- 参考スコア(独自算出の注目度): 30.728093182390364
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mixture-of-Experts (MoE) architectures have become pivotal for large-scale multimodal models. However, their routing mechanisms typically overlook the informative, time-varying interaction dynamics between modalities. This limitation hinders expert specialization, as the model cannot explicitly leverage intrinsic modality relationships for effective reasoning. To address this, we propose a novel framework that guides MoE routing using quantified temporal interaction. A multimodal interaction-aware router learns to dispatch tokens to experts based on the nature of their interactions. This dynamic routing encourages experts to acquire generalizable interaction-processing skills rather than merely learning task-specific features. Our framework builds on a new formulation of temporal multimodal interaction dynamics, which are used to guide expert routing. We first demonstrate that these temporal multimodal interactions reveal meaningful patterns across applications, and then show how they can be leveraged to improve both the design and performance of MoE-based models. Comprehensive experiments on challenging multimodal benchmarks validate our approach, demonstrating both enhanced performance and improved interpretability.
- Abstract(参考訳): Mixture-of-Experts (MoE)アーキテクチャは、大規模なマルチモーダルモデルにおいて重要なものとなっている。
しかしながら、それらのルーティング機構は典型的には、モダリティ間の情報的、時間的変化の相互作用のダイナミクスを見落としている。
この制限は、モデルが効果的な推論のために本質的なモダリティ関係を明示的に活用できないため、専門家の特殊化を妨げる。
そこで本稿では,時間的相互作用を定量化してMoEルーティングをガイドする新しいフレームワークを提案する。
マルチモーダルなインタラクション対応ルータは、インタラクションの性質に基づいて、トークンを専門家にディスパッチする方法を学ぶ。
この動的ルーティングは、単にタスク固有の特徴を学習するのではなく、専門家に汎用的なインタラクション処理スキルの習得を促す。
本フレームワークは,時間的多モーダル相互作用のダイナミクスの新たな定式化を基盤として,エキスパートルーティングのガイドに使用される。
まず、これらの時間的マルチモーダル相互作用がアプリケーション間で有意義なパターンを明らかにすることを実証し、MoEモデルの設計と性能を改善するためにどのように活用できるかを示す。
課題のあるマルチモーダルベンチマークに関する総合的な実験は、我々のアプローチを検証し、性能の向上と解釈可能性の向上の両方を実証した。
関連論文リスト
- MoIIE: Mixture of Intra- and Inter-Modality Experts for Large Vision Language Models [52.876185634349575]
我々は、モダリティ内およびモダリティ間エキスパート(MoIIE)の混合をLVLM(Large Vision-Language Models)に組み込むことを提案する。
それぞれのトークンに対して、専門家のルーティングはそのモダリティによってガイドされ、それぞれのモダリティの専門家と、モダリティ間のエキスパートの共有プールにトークンを指示する。
5.5B と 11.3B の活性化パラメータを持つ MoIIE モデルは,既存のオープンソース MoE-LLM ベースのマルチモーダルモデルの性能に適合するか,さらに上回っている。
論文 参考訳(メタデータ) (2025-08-13T13:00:05Z) - DeepInteraction++: Multi-Modality Interaction for Autonomous Driving [80.8837864849534]
我々は,モダリティごとの個別表現を学習し,維持することのできる,新しいモダリティインタラクション戦略を導入する。
DeepInteraction++はマルチモーダルなインタラクション・フレームワークであり、マルチモーダルな表現型インタラクション・エンコーダとマルチモーダルな予測型インタラクション・デコーダを特徴とする。
実験では,3次元物体検出とエンドツーエンドの自律走行の両方において,提案手法の優れた性能を示す。
論文 参考訳(メタデータ) (2024-08-09T14:04:21Z) - Uni-MoE: Scaling Unified Multimodal LLMs with Mixture of Experts [54.529880848937104]
そこで我々は,MoEアーキテクチャをUni-MoEと呼ぶ一貫したMLLMを開発し,様々なモダリティを扱えるようにした。
具体的には、統一マルチモーダル表現のためのコネクタを持つモダリティ特化エンコーダを特徴とする。
マルチモーダルデータセットの包括的集合を用いた命令調整Uni-MoEの評価を行った。
論文 参考訳(メタデータ) (2024-05-18T12:16:01Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - Switch-BERT: Learning to Model Multimodal Interactions by Switching
Attention and Input [27.102030262319197]
共用視覚と言語表現学習のためのtextbfSwitch-BERT を提案し,モダリティミスマッチの問題に対処する。
Switch-BERTは、学習可能な層と層間相互作用を導入することでBERTアーキテクチャを拡張している。
結果は、ViLBERT や UNITER といった代替アーキテクチャが特定のタスクに優れているのに対して、Switch-BERT は一貫して優れたパフォーマンスや同等のパフォーマンスを達成できることを示している。
論文 参考訳(メタデータ) (2023-06-25T09:28:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。