論文の概要: When Modalities Conflict: How Unimodal Reasoning Uncertainty Governs Preference Dynamics in MLLMs
- arxiv url: http://arxiv.org/abs/2511.02243v1
- Date: Tue, 04 Nov 2025 04:11:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 18:47:05.805069
- Title: When Modalities Conflict: How Unimodal Reasoning Uncertainty Governs Preference Dynamics in MLLMs
- Title(参考訳): モダリティが対立する時:MLLMにおける不確実性ゴブリンの選好ダイナミクスのユニモーダル推論
- Authors: Zhuoran Zhang, Tengyue Wang, Xilin Gong, Yang Shi, Haotian Wang, Di Wang, Lijie Hu,
- Abstract要約: マルチモーダル大言語モデル(MLLM)は、異なるモーダルが矛盾する情報を提供する場合、競合を解決する必要がある。
本稿では,モダリティを,相対的推論の不確かさと本質的なモダリティ選好の2つの基本的要因に分解する新しい枠組みを導入する。
- 参考スコア(独自算出の注目度): 15.617378124319472
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal large language models (MLLMs) must resolve conflicts when different modalities provide contradictory information, a process we term modality following. Prior work measured this behavior only with coarse dataset-level statistics, overlooking the influence of model's confidence in unimodal reasoning. In this paper, we introduce a new framework that decomposes modality following into two fundamental factors: relative reasoning uncertainty (the case-specific confidence gap between unimodal predictions) and inherent modality preference( a model's stable bias when uncertainties are balanced). To validate this framework, we construct a controllable dataset that systematically varies the reasoning difficulty of visual and textual inputs. Using entropy as a fine-grained uncertainty metric, we uncover a universal law: the probability of following a modality decreases monotonically as its relative uncertainty increases. At the relative difficulty level where the model tends to follow both modalities with comparable probability what we call the balance point, a practical indicator of the model's inherent preference. Unlike traditional macro-level ratios, this measure offers a more principled and less confounded way to characterize modality bias, disentangling it from unimodal capabilities and dataset artifacts. Further, by probing layer-wise predictions, we reveal the internal mechanism of oscillation: in ambiguous regions near the balance point, models vacillate between modalities across layers, explaining externally observed indecision. Together, these findings establish relative uncertainty and inherent preference as the two governing principles of modality following, offering both a quantitative framework and mechanistic insight into how MLLMs resolve conflicting information.
- Abstract(参考訳): マルチモーダル大言語モデル(MLLM)は、異なるモーダルが矛盾する情報を提供する場合の競合を解決する必要がある。
以前の研究は、この振る舞いを粗いデータセットレベルの統計でのみ測定し、モデルが一助的推論に自信を持っていることを見落としていた。
本稿では,不確実性に対する相対的推論の不確実性(不斉予測のケース固有の信頼ギャップ)と,不確実性のバランスが保たれた場合のモデルの安定バイアス)という2つの基本的要因に追従するモダリティを分解する新たな枠組みを提案する。
この枠組みを検証するために,視覚的およびテキスト的入力の推論困難度を体系的に変化させる制御可能なデータセットを構築した。
エントロピーを微細な不確実性計量として用いると、普遍的な法則が明らかになる: モダリティに従う確率は、相対的な不確実性が増加するにつれて単調に減少する。
モデルの相対的難易度では、モデル固有の嗜好の実践的な指標であるバランスポイント(英語版)と呼ばれるものと同等の確率で、モデルが両方のモダリティに従う傾向にある。
従来のマクロレベル比とは異なり、この尺度は、モダリティバイアスを特徴づけるより原則的で、より包括的でない方法を提供し、非モダリティ能力やデータセットアーティファクトとは無関係である。
さらに, 境界点近傍の曖昧な領域では, モデルが層間のモダリティ間を空洞化し, 外部から観測された不確定性を説明できる。
これらとともに、これらの発見はモダリティの2つの支配原則として相対的不確実性と固有の嗜好を確立し、MLLMが競合する情報の解決方法に関する定量的な枠組みと機械的な洞察を提供する。
関連論文リスト
- Drift No More? Context Equilibria in Multi-Turn LLM Interactions [58.69551510148673]
コンテキストドリフト(Contexts drift)とは、ターン間のゴール一貫性のある振る舞いからモデルが出力する出力の段階的なばらつきである。
シングルターンエラーとは異なり、ドリフトは時間的に展開し、静的な評価指標では捉えにくい。
マルチターンドリフトは、避けられない崩壊というよりも、制御可能な平衡現象として理解できることを示す。
論文 参考訳(メタデータ) (2025-10-09T04:48:49Z) - Quantification of model error for inverse problems in the Weak Neural Variational Inference framework [0.0]
Weak Neural Variational Inference (WNVI) フレームワークを拡張し,確率的特性推定を行う。
本フレームワークはPDEに基づく逆問題におけるモデル誤差を明示的に定量化する。
提案手法により, 材料特性推定の精度と信頼性が向上することが示唆された。
論文 参考訳(メタデータ) (2025-02-11T09:52:06Z) - Multimodal Learning with Uncertainty Quantification based on Discounted Belief Fusion [3.66486428341988]
医療、金融、自動運転といった分野では、マルチモーダルAIモデルがますます使われています。
騒音、不十分な証拠、モダリティ間の紛争に起因する不確実性は、信頼できる意思決定に不可欠である。
本稿では,命令不変なエビデンス融合を用いた新しいマルチモーダル学習手法を提案する。
論文 参考訳(メタデータ) (2024-12-23T22:37:18Z) - Decomposing Uncertainty for Large Language Models through Input Clarification Ensembling [69.83976050879318]
大規模言語モデル(LLM)では、不確実性の原因を特定することが、信頼性、信頼性、解釈可能性を改善するための重要なステップである。
本稿では,LLMのための不確実性分解フレームワークについて述べる。
提案手法は,入力に対する一連の明確化を生成し,それらをLLMに入力し,対応する予測をアンサンブルする。
論文 参考訳(メタデータ) (2023-11-15T05:58:35Z) - Does Misclassifying Non-confounding Covariates as Confounders Affect the
Causal Inference within the Potential Outcomes Framework? [4.074237603319893]
潜在的なアウトカム・フレームワーク(POF)は因果推論の分野で重要な役割を果たしている。
我々はCIMs-POFのための統一的なグラフィカル・フレームワークを提案し、これらのモデルの基本原理の理解を大幅に強化する。
論文 参考訳(メタデータ) (2023-08-22T13:18:13Z) - Measuring and Modeling Uncertainty Degree for Monocular Depth Estimation [50.920911532133154]
単分子深度推定モデル(MDE)の本質的な不適切さと順序感性は、不確かさの程度を推定する上で大きな課題となる。
本稿では,MDEモデルの不確かさを固有確率分布の観点からモデル化する。
新たなトレーニング正規化用語を導入することで、驚くほど単純な構成で、余分なモジュールや複数の推論を必要とせずに、最先端の信頼性で不確実性を推定できる。
論文 参考訳(メタデータ) (2023-07-19T12:11:15Z) - Trustworthy Multimodal Regression with Mixture of Normal-inverse Gamma
Distributions [91.63716984911278]
このアルゴリズムは、異なるモードの適応的統合の原理における不確かさを効率的に推定し、信頼できる回帰結果を生成する。
実世界のデータと実世界のデータの両方に対する実験結果から,多モード回帰タスクにおける本手法の有効性と信頼性が示された。
論文 参考訳(メタデータ) (2021-11-11T14:28:12Z) - Disentangling Observed Causal Effects from Latent Confounders using
Method of Moments [67.27068846108047]
我々は、軽度の仮定の下で、識別性と学習可能性に関する保証を提供する。
我々は,線形制約付き結合テンソル分解に基づく効率的なアルゴリズムを開発し,スケーラブルで保証可能な解を得る。
論文 参考訳(メタデータ) (2021-01-17T07:48:45Z) - Modal Uncertainty Estimation via Discrete Latent Representation [4.246061945756033]
本稿では,インプットとアウトプットの1対1マッピングを,忠実な不確実性対策とともに学習するディープラーニングフレームワークを提案する。
我々のフレームワークは、現在の最先端手法よりもはるかに正確な不確実性推定を実証している。
論文 参考訳(メタデータ) (2020-07-25T05:29:34Z) - Accounting for Unobserved Confounding in Domain Generalization [107.0464488046289]
本稿では,データセットの組み合わせから頑健で一般化可能な予測モデルを学習する際の問題点について検討する。
堅牢なモデルを学ぶことの課題の一部は、保存されていない共同設立者の影響にある。
異なるモダリティの医療データに対するアプローチの実証的性能を実証する。
論文 参考訳(メタデータ) (2020-07-21T08:18:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。