論文の概要: Seeing but Not Thinking: Routing Distraction in Multimodal Mixture-of-Experts
- arxiv url: http://arxiv.org/abs/2604.08541v1
- Date: Thu, 09 Apr 2026 17:59:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-10 18:34:06.078079
- Title: Seeing but Not Thinking: Routing Distraction in Multimodal Mixture-of-Experts
- Title(参考訳): 目に見えるが考えない:マルチモーダル・ミックス・オブ・エクササイズにおけるゆらぎ
- Authors: Haolei Xu, Haiwen Hong, Hongxing Li, Rui Zhou, Yang Zhang, Longtao Huang, Hui Xue, Yongliang Shen, Weiming Lu, Yueting Zhuang,
- Abstract要約: MoE(Multimodal Mixture-of-Experts)モデルは視覚言語タスクにおいて顕著なパフォーマンスを実現している。
モデルは画像の内容が正確に知覚されるが、その後の推論では失敗する。
本稿では,視覚的な入力を処理する際に,タスク関連推論の専門家を適切に活性化できないという,ルーティング・ディトラクションの仮説を提案する。
- 参考スコア(独自算出の注目度): 58.86896791968143
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal Mixture-of-Experts (MoE) models have achieved remarkable performance on vision-language tasks. However, we identify a puzzling phenomenon termed Seeing but Not Thinking: models accurately perceive image content yet fail in subsequent reasoning, while correctly solving identical problems presented as pure text. Through systematic analysis, we first verify that cross-modal semantic sharing exists in MoE architectures, ruling out semantic alignment failure as the sole explanation. We then reveal that visual experts and domain experts exhibit layer-wise separation, with image inputs inducing significant routing divergence from text inputs in middle layers where domain experts concentrate. Based on these findings, we propose the Routing Distraction hypothesis: when processing visual inputs, the routing mechanism fails to adequately activate task-relevant reasoning experts. To validate this hypothesis, we design a routing-guided intervention method that enhances domain expert activation. Experiments on three multimodal MoE models across six benchmarks demonstrate consistent improvements, with gains of up to 3.17% on complex visual reasoning tasks. Our analysis further reveals that domain expert identification locates cognitive functions rather than sample-specific solutions, enabling effective transfer across tasks with different information structures.
- Abstract(参考訳): MoE(Multimodal Mixture-of-Experts)モデルは視覚言語タスクにおいて顕著なパフォーマンスを実現している。
モデルは画像の内容が正確に知覚されるが、その後の推論では失敗するが、純粋なテキストとして提示されるのと同じ問題を正しく解決する。
体系的な分析により,MoEアーキテクチャには相互の意味的共有が存在することが確認され,意味的アライメントの失敗を唯一の説明として除外する。
次に、視覚の専門家とドメインの専門家は、画像入力が、ドメインの専門家が集中する中層において、テキスト入力からかなりのルーティング分岐を引き起こすことによって、レイヤワイドな分離を示すことを明らかにした。
これらの結果に基づき,視覚的な入力を処理する場合,ルーティング機構がタスク関連推論の専門家を適切に活性化できないという,ルーティング・ディストラクション仮説を提案する。
この仮説を検証するために、我々は、ドメインエキスパートの活性化を高めるルーティング誘導介入法を設計する。
6つのベンチマークにわたる3つのマルチモーダルMOEモデルの実験では、複雑な視覚的推論タスクで最大3.17%向上した一貫した改善が示されている。
さらに,本分析により,ドメインエキスパートの識別が,サンプル固有解ではなく認知機能を特定することが明らかとなり,異なる情報構造を持つタスクを効果的に移動することが可能となった。
関連論文リスト
- Walk the Talk: Bridging the Reasoning-Action Gap for Thinking with Images via Multimodal Agentic Policy Optimization [89.68681087743876]
MLLM(Multimodal Large Language Models)は,マルチターン推論において視覚ツールを積極的に呼び出すことによって,イメージで考えるモデルにインセンティブを与えている。
結果に基づく報酬を頼りにする一般的な強化学習の実践は、テキストの妥当性が経営幹部の失敗を隠蔽するという事実を無視します。
マルチモーダルエージェントポリシー最適化(MAPO)を導入し、テキスト推論とモデルが生成する視覚行動のギャップを埋める。
論文 参考訳(メタデータ) (2026-04-08T07:48:07Z) - M$^3$-ACE: Rectifying Visual Perception in Multimodal Math Reasoning via Multi-Agentic Context Engineering [10.491266031106774]
M3-ACE(M3-ACE)は、数学の推論において視覚的知覚を正すために設計された多言語コンテキストエンジニアリングフレームワークである。
提案手法は,MathVisionベンチマークで89.1の新たな結果を確立し,他の関連するデータセットに対して一貫した改善を実現する。
論文 参考訳(メタデータ) (2026-03-09T13:32:25Z) - Analyzing Reasoning Consistency in Large Multimodal Models under Cross-Modal Conflicts [74.47786985522762]
テキスト慣性(textual inertia)と呼ばれる重要な障害モードを特定し、矛盾する視覚的証拠を無視しながら、モデルは間違ったテキストに盲目的に固執する傾向がある。
本稿では,多種多様なLMMの推論連鎖に摂動を構造的に注入するLogicGraph摂動プロトコルを提案する。
その結果,10%未満の症例で自己修正が成功し,主に視覚的テキスト誤りの伝播に寄与することが判明した。
論文 参考訳(メタデータ) (2026-01-07T16:39:34Z) - CrossCheck-Bench: Diagnosing Compositional Failures in Multimodal Conflict Resolution [20.823419395675412]
CrossCheck-Benchは、マルチモーダル入力における矛盾検出を評価するための診断ベンチマークである。
タスクが知覚的マッチングから論理的矛盾検出に移行するにつれて、13の最先端の視覚言語モデルを評価し、一貫した性能低下を観察する。
論文 参考訳(メタデータ) (2025-11-19T12:17:15Z) - Compose and Fuse: Revisiting the Foundational Bottlenecks in Multimodal Reasoning [49.17801010041155]
MLLM(Multimodal large language model)は、テキスト、ビジョン、オーディオなどの多様な入力を統合することで推論を強化することを約束する。
しかし、追加のモダリティがパフォーマンスを損なうかどうかについての報告は相反する。
我々は、多モーダル推論を6つの相互作用パターンに分類し、事実がどのようにモダリティに分散され、論理的に組み合わせられるかを決定する。
論文 参考訳(メタデータ) (2025-09-28T08:46:11Z) - DeFacto: Counterfactual Thinking with Images for Enforcing Evidence-Grounded and Faithful Reasoning [11.952788515297913]
DeFactoは、正確な回答と忠実な推論を共同で実施する、反ファクト的推論フレームワークである。
本研究では,疑問関連証拠を自動的に局所化し,肯定的,反実的,ランダムな変種を構成するパイプラインを開発する。
多様なベンチマークの実験では、DeFactoは回答の正確さと忠実性の推論の両方を大幅に改善している。
論文 参考訳(メタデータ) (2025-09-25T08:58:10Z) - CorrMoE: Mixture of Experts with De-stylization Learning for Cross-Scene and Cross-Domain Correspondence Pruning [30.111296778234124]
CorrMoEは、クロスドメインとクロスシーンのバリエーションの下で堅牢性を高める通信プルーニングフレームワークである。
シーンの多様性のために,多視点機能を適応的に統合するBi-Fusion Mixture of Expertsモジュールを設計する。
ベンチマークデータセットの実験では、CorrMoEは最先端の手法に比べて精度と一般化が優れていることが示されている。
論文 参考訳(メタデータ) (2025-07-16T01:44:01Z) - ImageScope: Unifying Language-Guided Image Retrieval via Large Multimodal Model Collective Reasoning [62.61187785810336]
ImageScopeは、トレーニング不要で3段階のフレームワークで、言語誘導の画像検索タスクを統合する。
最初の段階では,様々な意味的粒度のレベルにまたがって探索意図を合成することにより,フレームワークの堅牢性を向上させる。
第2段階と第3段階において、述語命題を局所的に検証し、一括評価を行うことにより、検索結果を反映する。
論文 参考訳(メタデータ) (2025-03-13T08:43:24Z) - Cantor: Inspiring Multimodal Chain-of-Thought of MLLM [83.6663322930814]
視覚的コンテキスト獲得と論理的推論の集約は、視覚的推論タスクに取り組む上で重要であると我々は主張する。
我々はCantorと呼ばれる革新的なマルチモーダルCoTフレームワークを提案し、その特徴は知覚決定アーキテクチャである。
提案手法の有効性を実証し,マルチモーダルCoT性能の大幅な向上を示した。
論文 参考訳(メタデータ) (2024-04-24T17:59:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。