論文の概要: Disentangling Bias by Modeling Intra- and Inter-modal Causal Attention for Multimodal Sentiment Analysis
- arxiv url: http://arxiv.org/abs/2508.04999v1
- Date: Thu, 07 Aug 2025 03:24:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-08 18:59:39.695079
- Title: Disentangling Bias by Modeling Intra- and Inter-modal Causal Attention for Multimodal Sentiment Analysis
- Title(参考訳): マルチモーダル感性分析のためのモーダル内およびモーダル間因果注意のモデル化によるディエンタングリングバイアス
- Authors: Menghua Jiang, Yuxia Lin, Baoliang Chen, Haifeng Hu, Yuncheng Jiang, Sijie Mai,
- Abstract要約: マルチモーダル感情分析(MSA)は、テキスト、音声、視覚データなどの複数のモーダルからの情報を統合することで、人間の感情を理解することを目的としている。
既存の手法は、しばしばモダリティ内およびモダリティ間の急激な相関に悩まされ、モデルが真の因果関係ではなく統計的ショートカットに依存するようになる。
本稿では,マルチリレーショナルマルチモーダル因果干渉(MMCI)モデルを提案する。
- 参考スコア(独自算出の注目度): 25.791796193062012
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal sentiment analysis (MSA) aims to understand human emotions by integrating information from multiple modalities, such as text, audio, and visual data. However, existing methods often suffer from spurious correlations both within and across modalities, leading models to rely on statistical shortcuts rather than true causal relationships, thereby undermining generalization. To mitigate this issue, we propose a Multi-relational Multimodal Causal Intervention (MMCI) model, which leverages the backdoor adjustment from causal theory to address the confounding effects of such shortcuts. Specifically, we first model the multimodal inputs as a multi-relational graph to explicitly capture intra- and inter-modal dependencies. Then, we apply an attention mechanism to separately estimate and disentangle the causal features and shortcut features corresponding to these intra- and inter-modal relations. Finally, by applying the backdoor adjustment, we stratify the shortcut features and dynamically combine them with the causal features to encourage MMCI to produce stable predictions under distribution shifts. Extensive experiments on several standard MSA datasets and out-of-distribution (OOD) test sets demonstrate that our method effectively suppresses biases and improves performance.
- Abstract(参考訳): マルチモーダル感情分析(MSA)は、テキスト、音声、視覚データなどの複数のモーダルからの情報を統合することで、人間の感情を理解することを目的としている。
しかし、既存の手法はしばしばモダリティ内およびモダリティ間の急激な相関に悩まされ、モデルが真の因果関係ではなく統計的ショートカットに依存するようになり、一般化を損なう。
この問題を軽減するために,因果理論からのバックドア調整を利用して,そのようなショートカットの欠点に対処するマルチリレーショナルマルチモーダル因果干渉(MMCI)モデルを提案する。
具体的には、まずマルチモーダル入力をマルチリレーショナルグラフとしてモデル化し、モーダル内およびモーダル間依存関係を明示的にキャプチャする。
そこで我々は,これらのモーダル内およびモーダル間関係に対応する因果的特徴とショートカット的特徴を別々に推定・解離するために,注意機構を適用した。
最後に、バックドア調整を適用して、ショートカット特徴を階層化し、因果特徴と動的に組み合わせることで、MMCIが分布シフトの下で安定な予測を生成することを奨励する。
いくつかの標準MSAデータセットとアウト・オブ・ディストリビューション(OOD)テストセットに対する大規模な実験により,本手法がバイアスを効果的に抑制し,性能を向上させることを示す。
関連論文リスト
- The Devil Is in the Details: Tackling Unimodal Spurious Correlations for Generalizable Multimodal Reward Models [31.81567038783558]
マルチモーダル・リワードモデル(MM-RM)は,大規模言語モデル(LLM)と人間の嗜好の整合に不可欠である。
MM-RMは、不動の突発的相関に依存するため、アウト・オブ・ディストリビューションデータへの一般化に苦慮することが多い。
本稿では,この問題を動的にトレーニングサンプルを再重み付けすることで軽減する,ショートカット対応MM-RM学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-03-05T02:37:41Z) - Online Multi-modal Root Cause Analysis [61.94987309148539]
ルート原因分析(RCA)は、マイクロサービスシステムにおける障害の根本原因の特定に不可欠である。
既存のオンラインRCAメソッドは、マルチモーダルシステムにおける複雑な相互作用を見渡す単一モーダルデータのみを処理する。
OCEANは、根本原因の局在化のための新しいオンラインマルチモーダル因果構造学習手法である。
論文 参考訳(メタデータ) (2024-10-13T21:47:36Z) - CorMulT: A Semi-supervised Modality Correlation-aware Multimodal Transformer for Sentiment Analysis [2.3522423517057143]
相関対応マルチモーダルトランス(CorMulT)と呼ばれる2段階半教師付きモデルを提案する。
事前学習段階では、モーダリティ相関比較学習モジュールは、異なるモーダリティ間のモーダリティ相関係数を効率的に学習するように設計されている。
予測段階では、学習された相関係数にモダリティ表現を融合させて感情予測を行う。
論文 参考訳(メタデータ) (2024-07-09T17:07:29Z) - Optimal Transport Guided Correlation Assignment for Multimodal Entity Linking [20.60198596317328]
マルチモーダルエンティティリンクは、マルチモーダルなコンテキストにおける曖昧な言及をマルチモーダルな知識グラフ内のエンティティにリンクすることを目的としている。
既存の手法は、自動的に学習された注意重みに大きく依存して、いくつかの局所的な相関機構を試行する。
本稿では,OT-MELを用いた新しいMELフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-04T03:35:25Z) - Mitigating Shortcut Learning with Diffusion Counterfactuals and Diverse Ensembles [104.60508550106618]
拡散確率モデル(DPM)を利用したアンサンブル多様化フレームワークDiffDivを提案する。
DPMは、相関した入力特徴を示すサンプルを用いて訓練しても、新しい特徴の組み合わせで画像を生成することができることを示す。
そこで本研究では,DPM誘導の多様化は,教師付き信号の追加を必要とせず,ショートカットキューへの依存を取り除くのに十分であることを示す。
論文 参考訳(メタデータ) (2023-11-23T15:47:33Z) - Leveraging Diffusion Disentangled Representations to Mitigate Shortcuts
in Underspecified Visual Tasks [92.32670915472099]
拡散確率モデル(DPM)を用いた合成カウンターファクトの生成を利用したアンサンブルの多様化フレームワークを提案する。
拡散誘導型分散化は,データ収集を必要とする従来の手法に匹敵するアンサンブル多様性を達成し,ショートカットからの注意を回避できることを示す。
論文 参考訳(メタデータ) (2023-10-03T17:37:52Z) - Adaptive Contrastive Learning on Multimodal Transformer for Review
Helpfulness Predictions [40.70793282367128]
本稿では,MRHP(Multimodal Review Helpfulness Prediction)問題に対するマルチモーダルコントラスト学習を提案する。
さらに,コントラスト学習における適応重み付け方式を提案する。
最後に,マルチモーダルデータの不整合性に対処するマルチモーダルインタラクションモジュールを提案する。
論文 参考訳(メタデータ) (2022-11-07T13:05:56Z) - Correlation Information Bottleneck: Towards Adapting Pretrained
Multimodal Models for Robust Visual Question Answering [63.87200781247364]
相関情報ボトルネック (CIB) は圧縮と表現の冗長性のトレードオフを求める。
マルチモーダル入力と表現の相互情報に対して,理論上界を厳密に導出する。
論文 参考訳(メタデータ) (2022-09-14T22:04:10Z) - Counterfactual Reasoning for Out-of-distribution Multimodal Sentiment
Analysis [56.84237932819403]
本稿では,OODの高次一般化に対するテキストモダリティの悪影響を推定・緩和することを目的とする。
そこで本研究では,マルチモーダル感情分析のためのモデルに依存しない反現実的フレームワークを考案した。
論文 参考訳(メタデータ) (2022-07-24T03:57:40Z) - Learning Multimodal VAEs through Mutual Supervision [72.77685889312889]
MEMEは、相互監督を通じて暗黙的にモダリティ間の情報を結合する。
我々は、MEMEが、部分的および完全観察スキームの双方で標準メトリクスのベースラインを上回ることを実証する。
論文 参考訳(メタデータ) (2021-06-23T17:54:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。