論文の概要: Beyond Spurious Signals: Debiasing Multimodal Large Language Models via Counterfactual Inference and Adaptive Expert Routing
- arxiv url: http://arxiv.org/abs/2509.15361v1
- Date: Thu, 18 Sep 2025 19:01:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-22 18:18:10.874567
- Title: Beyond Spurious Signals: Debiasing Multimodal Large Language Models via Counterfactual Inference and Adaptive Expert Routing
- Title(参考訳): Spurious Signalsを超えて: 対実的推論と適応的エキスパートルーティングによるマルチモーダルな大規模言語モデルの曖昧化
- Authors: Zichen Wu, Hsiu-Yuan Huang, Yunfang Wu,
- Abstract要約: MLLM(Multimodal Large Language Models)は、視覚情報とテキスト情報を統合する能力を示すが、しばしば素早い相関に頼っている。
本稿では,MLLMの表層相関バイアスに対する批判的課題を,新たな因果媒介に基づく脱バイアスフレームワークを通じて解決する。
- 参考スコア(独自算出の注目度): 10.66971486730557
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal Large Language Models (MLLMs) have shown substantial capabilities in integrating visual and textual information, yet frequently rely on spurious correlations, undermining their robustness and generalization in complex multimodal reasoning tasks. This paper addresses the critical challenge of superficial correlation bias in MLLMs through a novel causal mediation-based debiasing framework. Specially, we distinguishing core semantics from spurious textual and visual contexts via counterfactual examples to activate training-stage debiasing and employ a Mixture-of-Experts (MoE) architecture with dynamic routing to selectively engages modality-specific debiasing experts. Empirical evaluation on multimodal sarcasm detection and sentiment analysis tasks demonstrates that our framework significantly surpasses unimodal debiasing strategies and existing state-of-the-art models.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、視覚情報とテキスト情報の統合において重要な機能を示しているが、複雑なマルチモーダル推論タスクにおいて、その頑健さと一般化を損なう突発的な相関にしばしば依存している。
本稿では,MLLMの表層相関バイアスに対する批判的課題を,新たな因果媒介に基づく脱バイアスフレームワークを通じて解決する。
特に,本研究では,学習段階のデバイアスを活性化するために,動的ルーティングを備えたMixture-of-Experts(MoE)アーキテクチャを採用し,モダリティ固有のデバイアスの専門家を選択的に関与させる。
マルチモーダル・サルカズムの検出と感情分析タスクに関する実証的な評価は、我々のフレームワークが一過性脱バイアス戦略や既存の最先端モデルを大幅に上回っていることを示している。
関連論文リスト
- Disentangling Bias by Modeling Intra- and Inter-modal Causal Attention for Multimodal Sentiment Analysis [25.791796193062012]
マルチモーダル感情分析(MSA)は、テキスト、音声、視覚データなどの複数のモーダルからの情報を統合することで、人間の感情を理解することを目的としている。
既存の手法は、しばしばモダリティ内およびモダリティ間の急激な相関に悩まされ、モデルが真の因果関係ではなく統計的ショートカットに依存するようになる。
本稿では,マルチリレーショナルマルチモーダル因果干渉(MMCI)モデルを提案する。
論文 参考訳(メタデータ) (2025-08-07T03:24:04Z) - Decoding the Multimodal Maze: A Systematic Review on the Adoption of Explainability in Multimodal Attention-based Models [0.0]
この体系的な文献レビューは、マルチモーダルモデルの説明可能性に焦点を当てた2020年1月から2024年初頭に発表された研究を分析している。
マルチモーダル環境におけるXAIの評価手法は, ほぼ非体系的であり, 一貫性, 堅牢性, モダリティ特有の認知的・文脈的要因の考慮が欠如していることが判明した。
論文 参考訳(メタデータ) (2025-08-06T13:14:20Z) - MEXA: Towards General Multimodal Reasoning with Dynamic Multi-Expert Aggregation [64.85885900375483]
MEXAは、エキスパートモデルのモダリティおよびタスク対応アグリゲーションを実行する、トレーニング不要のフレームワークである。
我々は,ビデオ推論,オーディオ推論,3D理解,医用QAなど,多様なマルチモーダルベンチマークに対するアプローチを評価した。
論文 参考訳(メタデータ) (2025-06-20T16:14:13Z) - MLLMs are Deeply Affected by Modality Bias [158.64371871084478]
MLLM(Multimodal Large Language Models)の最近の進歩は、テキストや画像などの多様なモダリティを統合する上で、有望な成果を示している。
MLLMはモダリティバイアスに強く影響され、しばしば言語に依存し、視覚入力のような他のモダリティを過小評価する。
本稿では,MLLMはモダリティバイアスの影響を強く受けており,様々なタスクにまたがってその発現を明らかにする。
論文 参考訳(メタデータ) (2025-05-24T11:49:31Z) - Why Reasoning Matters? A Survey of Advancements in Multimodal Reasoning (v1) [66.51642638034822]
推論は人間の知性の中心であり、多様なタスクにまたがる構造化された問題解決を可能にする。
大規模言語モデル(LLM)の最近の進歩は、算術、常識、記号領域における推論能力を大幅に向上させてきた。
本稿では,テキストおよびマルチモーダルLLMにおける推論手法の簡潔かつ洞察に富んだ概要について述べる。
論文 参考訳(メタデータ) (2025-04-04T04:04:56Z) - A Survey on Mechanistic Interpretability for Multi-Modal Foundation Models [74.48084001058672]
基礎モデルの台頭は機械学習の研究に変化をもたらした。
マルチモーダル・ファンデーション・モデル(MMFM)は、ユニモーダル・フレームワークを超えて、ユニークな解釈可能性の課題を提起する。
本研究は,(1)多モーダルモデルへのLLM解釈可能性法の適応,(2)単モーダル言語モデルとクロスモーダルシステムとの機械的差異の理解の2つの重要な側面について考察する。
論文 参考訳(メタデータ) (2025-02-22T20:55:26Z) - Multimodal Inconsistency Reasoning (MMIR): A New Benchmark for Multimodal Reasoning Models [26.17300490736624]
MLLM(Multimodal Large Language Models)は、一貫した視覚・テキスト入力で主に訓練され、テストされる。
本稿では,MLLMの意味的ミスマッチの検出と推論能力を評価するためのマルチモーダル不整合推論ベンチマークを提案する。
我々は6つの最先端MLLMを評価し、o1のような専用マルチモーダル推論能力を持つモデルは、その性能を大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2025-02-22T01:52:37Z) - Progressive Multimodal Reasoning via Active Retrieval [64.74746997923967]
多段階多モーダル推論タスクは、大規模言語モデル(MLLM)に重大な課題をもたらす
本稿では,MLLMの推論能力の向上を目的とした汎用フレームワークAR-MCTSを提案する。
我々は,AR-MCTSがサンプリングの多様性と精度を最適化し,信頼性の高いマルチモーダル推論を実現することを示す。
論文 参考訳(メタデータ) (2024-12-19T13:25:39Z) - Assessing Modality Bias in Video Question Answering Benchmarks with Multimodal Large Language Models [12.841405829775852]
我々は、VidQAベンチマークとデータセットのバイアスを特定するために、MIS(Modality importance score)を導入する。
また,最新のMLLMを用いてモダリティの重要度を推定する手法を提案する。
以上の結果から,既存のデータセットでは,モダリティの不均衡による情報統合が効果的に行われていないことが示唆された。
論文 参考訳(メタデータ) (2024-08-22T23:32:42Z) - Cantor: Inspiring Multimodal Chain-of-Thought of MLLM [83.6663322930814]
視覚的コンテキスト獲得と論理的推論の集約は、視覚的推論タスクに取り組む上で重要であると我々は主張する。
我々はCantorと呼ばれる革新的なマルチモーダルCoTフレームワークを提案し、その特徴は知覚決定アーキテクチャである。
提案手法の有効性を実証し,マルチモーダルCoT性能の大幅な向上を示した。
論文 参考訳(メタデータ) (2024-04-24T17:59:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。