論文の概要: Mitigating Modality Bias in Multi-modal Entity Alignment from a Causal Perspective
- arxiv url: http://arxiv.org/abs/2504.19458v2
- Date: Tue, 29 Apr 2025 13:58:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:54.306574
- Title: Mitigating Modality Bias in Multi-modal Entity Alignment from a Causal Perspective
- Title(参考訳): 因果的視点から見たマルチモーダルエンティティアライメントにおけるモダリティバイアスの緩和
- Authors: Taoyu Su, Jiawei Sheng, Duohe Ma, Xiaodong Li, Juwei Yue, Mengxiao Song, Yingkai Tang, Tingwen Liu,
- Abstract要約: 本稿では,因果的視点から視覚的モダリティバイアスを研究するMMEAの非現実的脱バイアスフレームワークCDMEAを提案する。
本研究の目的は,モデル予測に対する視覚的モダリティの直接的な因果効果を抑えつつ,視覚的モダリティとグラフ的モダリティを両立させることである。
- 参考スコア(独自算出の注目度): 15.239882327601016
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-Modal Entity Alignment (MMEA) aims to retrieve equivalent entities from different Multi-Modal Knowledge Graphs (MMKGs), a critical information retrieval task. Existing studies have explored various fusion paradigms and consistency constraints to improve the alignment of equivalent entities, while overlooking that the visual modality may not always contribute positively. Empirically, entities with low-similarity images usually generate unsatisfactory performance, highlighting the limitation of overly relying on visual features. We believe the model can be biased toward the visual modality, leading to a shortcut image-matching task. To address this, we propose a counterfactual debiasing framework for MMEA, termed CDMEA, which investigates visual modality bias from a causal perspective. Our approach aims to leverage both visual and graph modalities to enhance MMEA while suppressing the direct causal effect of the visual modality on model predictions. By estimating the Total Effect (TE) of both modalities and excluding the Natural Direct Effect (NDE) of the visual modality, we ensure that the model predicts based on the Total Indirect Effect (TIE), effectively utilizing both modalities and reducing visual modality bias. Extensive experiments on 9 benchmark datasets show that CDMEA outperforms 14 state-of-the-art methods, especially in low-similarity, high-noise, and low-resource data scenarios.
- Abstract(参考訳): Multi-Modal Entity Alignment (MMEA) は、重要な情報検索タスクであるMulti-Modal Knowledge Graphs (MMKG) から等価なエンティティを検索することを目的としている。
既存の研究では、等価な実体の整合性を改善するために様々な融合パラダイムや一貫性の制約を探求しているが、視覚的モダリティは必ずしも正に寄与するとは限らない。
経験的に、低相似画像を持つエンティティは通常、満足のいくパフォーマンスを生成し、視覚的特徴に過度に依存する制限を強調します。
我々は、このモデルは視覚的モダリティに偏りがあり、ショートカット画像マッチングタスクにつながると信じている。
そこで本研究では,視覚的モダリティバイアスを因果的視点から検討する,MMEAの非現実的脱バイアスフレームワークCDMEAを提案する。
本研究の目的は,モデル予測に対する視覚的モダリティの直接的な因果効果を抑えつつ,視覚的モダリティとグラフ的モダリティを両立させることである。
両モードのトータルエフェクト (TE) を推定し, 視覚的モーダルの自然な直接効果 (NDE) を除外することにより, モデルがトータル間接効果 (TIE) に基づいて予測し, 両モードの有効利用と視覚的モーダルバイアスの低減を図る。
9つのベンチマークデータセットの大規模な実験により、CDMEAは、特に低相似性、高ノイズ、低リソースのデータシナリオにおいて、14の最先端メソッドを上回ります。
関連論文リスト
- See-Saw Modality Balance: See Gradient, and Sew Impaired Vision-Language Balance to Mitigate Dominant Modality Bias [7.769664248755815]
視覚言語(VL)モデルは、しばしば予測に特定のモダリティに依存し、「支配的なモダリティバイアス」をもたらす。
支配的モダリティバイアスを軽減するための新しいフレームワークであるBalGradを提案する。
UPMC Food-101、Hateful Memes、MM-IMDbデータセットの実験により、BalGradは予測を行う際に特定のモダリティに対する過度な信頼を効果的に緩和することを確認した。
論文 参考訳(メタデータ) (2025-03-18T02:17:41Z) - Enhancing Multiview Synergy: Robust Learning by Exploiting the Wave Loss Function with Consensus and Complementarity Principles [0.0]
本稿では、ウェーブロス(W-loss)関数を利用した新しいマルチビューサポートベクターマシンであるWave-MvSVMを紹介する。
Wave-MvSVMは、コンセンサスと相補性の両方の原則を統合することで、より包括的でレジリエントな学習プロセスを保証する。
多様なデータセットにわたる大規模な経験的評価は、Wave-MvSVMの優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-08-13T11:25:22Z) - Images Speak Louder than Words: Understanding and Mitigating Bias in Vision-Language Model from a Causal Mediation Perspective [13.486497323758226]
広範囲なデータセットで事前訓練された視覚言語モデルは、性情報とオブジェクトやシナリオを関連付けることによって、必然的にバイアスを学習することができる。
本稿では,因果媒介分析を取り入れた枠組みを提案し,バイアス発生と伝播の経路を計測・マッピングする。
論文 参考訳(メタデータ) (2024-07-03T05:19:45Z) - Debiasing Multimodal Large Language Models [61.6896704217147]
LVLM(Large Vision-Language Models)は、コンピュータビジョンや自然言語処理において欠かせないツールとなっている。
本研究は,入力画像に先行するLarge Language Models (LLM) の影響を主に受け,生成したコンテンツに有意なバイアスが生じることを示す。
これらのバイアスを是正し、視覚情報に対するモデルの焦点をリダイレクトするために、我々は2つの単純で訓練のない戦略を導入する。
論文 参考訳(メタデータ) (2024-03-08T12:35:07Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - Ensemble Modeling for Multimodal Visual Action Recognition [50.38638300332429]
マルチモーダル動作認識のためのアンサンブルモデリング手法を提案する。
我々は,MECCANO[21]データセットの長期分布を処理するために,焦点損失の変種を用いて,個別のモダリティモデルを個別に訓練する。
論文 参考訳(メタデータ) (2023-08-10T08:43:20Z) - Rethinking Uncertainly Missing and Ambiguous Visual Modality in
Multi-Modal Entity Alignment [38.574204922793626]
提案するデータセットMMEA-UMVM上で,最新のMMEAモデルをベンチマークすることで,視覚的モダリティの不完全性のさらなる解析を行う。
我々の研究は、モダリティの不完全性に直面して、モデルがモダリティノイズを過度に適合させ、モダリティを欠く高い速度で性能の振動や低下を示すことを示唆している。
UMAEAは、不確実で曖昧な視覚的モダリティに対処するために設計された、堅牢なマルチモーダルエンティティアライメントアプローチである。
論文 参考訳(メタデータ) (2023-07-30T12:16:49Z) - Cross-Attention is Not Enough: Incongruity-Aware Dynamic Hierarchical
Fusion for Multimodal Affect Recognition [69.32305810128994]
モダリティ間の同調性は、特に認知に影響を及ぼすマルチモーダル融合の課題となる。
本稿では,動的モダリティゲーティング(HCT-DMG)を用いた階層型クロスモーダルトランスを提案する。
HCT-DMG: 1) 従来のマルチモーダルモデルを約0.8Mパラメータで上回り、2) 不整合が認識に影響を及ぼすハードサンプルを認識し、3) 潜在レベルの非整合性をクロスモーダルアテンションで緩和する。
論文 参考訳(メタデータ) (2023-05-23T01:24:15Z) - Context De-confounded Emotion Recognition [12.037240778629346]
コンテキストアウェア感情認識(CAER)は、対象者の感情状態を文脈情報で知覚することを目的としている。
長年見過ごされてきた問題は、既存のデータセットのコンテキストバイアスが感情状態のかなり不均衡な分布をもたらすことである。
本稿では、そのようなバイアスの影響からモデルを切り離し、CAERタスクにおける変数間の因果関係を定式化する因果関係に基づく視点を提供する。
論文 参考訳(メタデータ) (2023-03-21T15:12:20Z) - Delving into Identify-Emphasize Paradigm for Combating Unknown Bias [52.76758938921129]
同定精度を高めるため,有効バイアス強調スコアリング法(ECS)を提案する。
また, マイニングされたバイアスアライメントとバイアスコンプリケート試料のコントリビューションのバランスをとるために, 勾配アライメント(GA)を提案する。
様々な環境で複数のデータセットで実験を行い、提案されたソリューションが未知のバイアスの影響を軽減することを実証した。
論文 参考訳(メタデータ) (2023-02-22T14:50:24Z) - Learning Multimodal VAEs through Mutual Supervision [72.77685889312889]
MEMEは、相互監督を通じて暗黙的にモダリティ間の情報を結合する。
我々は、MEMEが、部分的および完全観察スキームの双方で標準メトリクスのベースラインを上回ることを実証する。
論文 参考訳(メタデータ) (2021-06-23T17:54:35Z) - A Variational Information Bottleneck Approach to Multi-Omics Data
Integration [98.6475134630792]
本稿では,不完全な多視点観測のための深い変動情報ボトルネック (IB) 手法を提案する。
本手法は,対象物に関連のある視点内および視点間相互作用に焦点をあてるために,観測された視点の辺縁および結合表現にISBフレームワークを適用した。
実世界のデータセットの実験から、我々の手法はデータ統合から常に利益を得て、最先端のベンチマークより優れています。
論文 参考訳(メタデータ) (2021-02-05T06:05:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。