論文の概要: When One Modality Sabotages the Others: A Diagnostic Lens on Multimodal Reasoning
- arxiv url: http://arxiv.org/abs/2511.02794v1
- Date: Tue, 04 Nov 2025 18:20:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 18:47:06.142557
- Title: When One Modality Sabotages the Others: A Diagnostic Lens on Multimodal Reasoning
- Title(参考訳): 1つのモダリティが他のものを破壊するとき:マルチモーダル推論のための診断レンズ
- Authors: Chenyu Zhang, Minsol Kim, Shohreh Ghorbani, Jingyao Wu, Rosalind Picard, Patricia Maes, Paul Pu Liang,
- Abstract要約: 本報告では,高信頼な一元誤差が他の証拠をオーバーライドし,融合結果を誤認する診断障害モードであるモダリティ・サボタージュを導入する。
モデル非依存評価層は、各モダリティをエージェントとして扱い、候補ラベルと監査に用いる簡単な自己評価を生成する。
単純な融合機構はこれらの出力を集約し、コントリビュータ(正しい結果を支持するモダリティ)とサボツール(誤解を招くモダリティ)を露呈する。
- 参考スコア(独自算出の注目度): 22.39245479538899
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite rapid growth in multimodal large language models (MLLMs), their reasoning traces remain opaque: it is often unclear which modality drives a prediction, how conflicts are resolved, or when one stream dominates. In this paper, we introduce modality sabotage, a diagnostic failure mode in which a high-confidence unimodal error overrides other evidence and misleads the fused result. To analyze such dynamics, we propose a lightweight, model-agnostic evaluation layer that treats each modality as an agent, producing candidate labels and a brief self-assessment used for auditing. A simple fusion mechanism aggregates these outputs, exposing contributors (modalities supporting correct outcomes) and saboteurs (modalities that mislead). Applying our diagnostic layer in a case study on multimodal emotion recognition benchmarks with foundation models revealed systematic reliability profiles, providing insight into whether failures may arise from dataset artifacts or model limitations. More broadly, our framework offers a diagnostic scaffold for multimodal reasoning, supporting principled auditing of fusion dynamics and informing possible interventions.
- Abstract(参考訳): マルチモーダルな大言語モデル(MLLM)の急速な成長にもかかわらず、それらの推論の痕跡は不透明であり、どのモダリティが予測を駆動するか、どのように競合が解決されるのか、いつストリームが支配されるのかはよく分かっていない。
本稿では,高信頼な単調なエラーが他の証拠をオーバーライドし,融合結果を誤認する診断障害モードであるモダリティ・サボタージュを導入する。
このようなダイナミクスを解析するために、各モードをエージェントとして扱い、候補ラベルを作成し、監査に使用する簡単な自己評価を行う軽量なモデルに依存しない評価層を提案する。
単純な融合機構はこれらの出力を集約し、コントリビュータ(正しい結果を支持するモダリティ)とサボツール(誤解を招くモダリティ)を露出する。
基礎モデルを用いたマルチモーダル感情認識ベンチマークのケーススタディにおいて、診断層の適用により、体系的な信頼性プロファイルが明らかになり、データセットのアーティファクトやモデル制限から障害が発生するかどうかの洞察が得られました。
より広範に、我々のフレームワークはマルチモーダル推論のための診断足場を提供し、融合力学の原則監査をサポートし、可能な介入を通知する。
関連論文リスト
- Compose and Fuse: Revisiting the Foundational Bottlenecks in Multimodal Reasoning [49.17801010041155]
MLLM(Multimodal large language model)は、テキスト、ビジョン、オーディオなどの多様な入力を統合することで推論を強化することを約束する。
しかし、追加のモダリティがパフォーマンスを損なうかどうかについての報告は相反する。
我々は、多モーダル推論を6つの相互作用パターンに分類し、事実がどのようにモダリティに分散され、論理的に組み合わせられるかを決定する。
論文 参考訳(メタデータ) (2025-09-28T08:46:11Z) - A Closer Look at Multimodal Representation Collapse [12.399005128036746]
モーダリティの崩壊は、あるモーダリティからのノイズが、融合ヘッド内のニューロンの共有セットを介して、他のモーダリティからの予測的特徴によって絡み合っているときに起こることを示す。
本稿では,モダリティの欠如に対処する手法として,モダリティの崩壊を防止するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-05-28T15:31:53Z) - Mixed Signals: Understanding Model Disagreement in Multimodal Empathy Detection [4.87341465958982]
単調・多モーダル予測が分岐する症例について検討した。
我々の分析は、一つのモードにおける支配的なシグナルが、他人がサポートしていないときに融合を誤解させる可能性があることを示唆している。
これらの洞察的位置不一致は、困難な事例を特定し、共感システムの堅牢性を改善するのに有用な診断信号である。
論文 参考訳(メタデータ) (2025-05-20T06:25:02Z) - Causality can systematically address the monsters under the bench(marks) [64.36592889550431]
ベンチマークはさまざまなバイアス、アーティファクト、リークに悩まされている。
モデルは、調査の不十分な障害モードのため、信頼できない振る舞いをする可能性がある。
因果関係はこれらの課題を体系的に解決するための 理想的な枠組みを提供します
論文 参考訳(メタデータ) (2025-02-07T17:01:37Z) - Multimodal Learning with Uncertainty Quantification based on Discounted Belief Fusion [3.66486428341988]
医療、金融、自動運転といった分野では、マルチモーダルAIモデルがますます使われています。
騒音、不十分な証拠、モダリティ間の紛争に起因する不確実性は、信頼できる意思決定に不可欠である。
本稿では,命令不変なエビデンス融合を用いた新しいマルチモーダル学習手法を提案する。
論文 参考訳(メタデータ) (2024-12-23T22:37:18Z) - Confidence-aware multi-modality learning for eye disease screening [58.861421804458395]
眼疾患スクリーニングのための新しい多モード顕在核融合パイプラインを提案する。
モダリティごとに信頼度を測り、マルチモダリティ情報をエレガントに統合する。
パブリックデータセットと内部データセットの両方の実験結果は、我々のモデルが堅牢性に優れていることを示している。
論文 参考訳(メタデータ) (2024-05-28T13:27:30Z) - Cross-Attention is Not Enough: Incongruity-Aware Dynamic Hierarchical
Fusion for Multimodal Affect Recognition [69.32305810128994]
モダリティ間の同調性は、特に認知に影響を及ぼすマルチモーダル融合の課題となる。
本稿では,動的モダリティゲーティング(HCT-DMG)を用いた階層型クロスモーダルトランスを提案する。
HCT-DMG: 1) 従来のマルチモーダルモデルを約0.8Mパラメータで上回り、2) 不整合が認識に影響を及ぼすハードサンプルを認識し、3) 潜在レベルの非整合性をクロスモーダルアテンションで緩和する。
論文 参考訳(メタデータ) (2023-05-23T01:24:15Z) - Reliable Multimodality Eye Disease Screening via Mixture of Student's t
Distributions [49.4545260500952]
眼疾患スクリーニングのための新しい多モード顕在核融合パイプラインEyeMoStについて紹介する。
本モデルでは,一様性に対する局所的不確実性と融合モードに対する大域的不確実性の両方を推定し,信頼性の高い分類結果を生成する。
パブリックデータセットと社内データセットの両方に関する実験結果から、我々のモデルは現在の手法よりも信頼性が高いことが判明した。
論文 参考訳(メタデータ) (2023-03-17T06:18:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。