Fugu-MT 論文翻訳(概要): Learning Invariant Modality Representation for Robust Multimodal Learning from a Causal Inference Perspective

論文の概要: Learning Invariant Modality Representation for Robust Multimodal Learning from a Causal Inference Perspective

arxiv url: http://arxiv.org/abs/2604.18460v1
Date: Mon, 20 Apr 2026 16:16:36 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-21 21:52:52.98677
Title: Learning Invariant Modality Representation for Robust Multimodal Learning from a Causal Inference Perspective
Title（参考訳）: 因果推論から見たロバストなマルチモーダル学習のための不変モダリティ表現の学習
Authors: Sijie Mai, Shiqin Han,
Abstract要約: 頑健なマルチモーダル学習のための因果的モダリティ不変表現(CmIR)学習フレームワークを提案する。 CmIRは学習した不変表現が、異なる環境におけるラベルとの安定した予測関係を維持することを保証している。 CmIRはアウト・オブ・ディストリビューションデータとノイズデータに優れ、その堅牢性と一般化性を確認する。
参考スコア（独自算出の注目度）: 6.3310165899037045
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Multimodal affective computing aims to predict humans' sentiment, emotion, intention, and opinion using language, acoustic, and visual modalities. However, current models often learn spurious correlations that harm generalization under distribution shifts or noisy modalities. To address this, we propose a causal modality-invariant representation (CmIR) learning framework for robust multimodal learning. At its core, we introduce a theoretically grounded disentanglement method that separates each modality into `causal invariant representation' and `environment-specific spurious representation' from a causal inference perspective. CmIR ensures that the learned invariant representations retain stable predictive relationships with labels across different environments while preserving sufficient information from the raw inputs via invariance constraint, mutual information constraint, and reconstruction constraint. Experiments across multiple multimodal benchmarks demonstrate that CmIR achieves state-of-the-art performance. CmIR particularly excels on out-of-distribution data and noisy data, confirming its robustness and generalizability.
Abstract（参考訳）: マルチモーダル感情コンピューティングは、人間の感情、感情、意図、意見を予測することを目的としており、言語、音響、視覚的モダリティを用いている。しかし、現在のモデルは、分布シフトやノイズモードの下での一般化を損なうような急激な相関をしばしば学習する。そこで本稿では,頑健なマルチモーダル学習のための因果モダリティ不変表現(CmIR)学習フレームワークを提案する。その中核として,各モーダルを因果推論の観点から「因果不変表現」と「環境特異的な素因的表現」に分離する理論的基盤的非絡み合い法を導入する。 CmIRは、学習した不変表現が、不変制約、相互情報制約、再構成制約を通じて生の入力から十分な情報を保持しながら、異なる環境におけるラベルとの安定した予測関係を維持することを保証している。複数のマルチモーダルベンチマークの実験は、CmIRが最先端のパフォーマンスを達成することを示した。 CmIRは特にアウト・オブ・ディストリビューションデータとノイズデータに優れており、その堅牢性と一般化性を確認している。

関連論文リスト

From Sparse Decisions to Dense Reasoning: A Multi-attribute Trajectory Paradigm for Multimodal Moderation [59.27094165576015]
疎度な意思決定から高密度な推論トレースへ移行する新しい学習パラダイム(UniMod)を提案する。モノリシックな意思決定タスクを多次元境界学習プロセスに再構成し,エビデンス,モダリティ評価,リスクマッピング,政策決定,応答生成を含む構造化軌道を構築する。タスク固有のパラメータを分離し、トレーニングダイナミクスを再バランスさせ、マルチタスク学習における多様な目的間の干渉を効果的に解消する、特別な最適化戦略を導入する。
論文参考訳（メタデータ） (2026-01-28T09:29:40Z)
Dual-Stream Cross-Modal Representation Learning via Residual Semantic Decorrelation [5.272868130772015]
クロスモーダル表現は、しばしばモダリティ支配、冗長な情報結合、急激なクロスモーダル相関に悩まされる。本稿では,Dual-Stream Residual Semantic Deorrelation Network (DSRSD-Net)を提案する。
論文参考訳（メタデータ） (2025-12-08T14:01:16Z)
Explaining multimodal LLMs via intra-modal token interactions [55.27436637894534]
MLLM(Multimodal Large Language Models)は、様々な視覚言語タスクにおいて顕著な成功を収めているが、その内部決定機構は十分に理解されていない。モーダル内相互作用を利用した解釈可能性の向上を提案する。
論文参考訳（メタデータ） (2025-09-26T14:39:13Z)
Deceptive Risk Minimization: Out-of-Distribution Generalization by Deceiving Distribution Shift Detectors [13.676316138121395]
本稿では,分布外一般化のメカニズムとしての偽造を提案する。トレーニングデータを独立して、観測者に同一に配布するデータ表現を学習することにより、突発的な相関を排除した安定した特徴を識別できる。
論文参考訳（メタデータ） (2025-09-15T16:11:55Z)
Robust Multimodal Learning via Representation Decoupling [6.7678581401558295]
マルチモーダル学習はその実用性から注目を集めている。既存の手法は、異なるモダリティの組み合わせに対して共通の部分空間表現を学習することで、この問題に対処する傾向がある。本稿では,頑健なマルチモーダル学習を支援するために,DMRNet(Decoupled Multimodal Representation Network)を提案する。
論文参考訳（メタデータ） (2024-07-05T12:09:33Z)
Beyond DAGs: A Latent Partial Causal Model for Multimodal Learning [80.44084021062105]
本稿では,非方向エッジで連結された2つの潜在結合変数を特徴とする,多モーダルデータに対する新しい潜在部分因果モデルを提案する。特定の統計的仮定の下では、多モーダル・コントラッシブ・ラーニングによって学習された表現が、自明な変換までの潜在結合変数に対応することを示す。事前トレーニングされたCLIPモデルの実験は、非絡み合った表現を具現化し、数ショットの学習を可能にし、さまざまな現実世界のデータセットにわたるドメインの一般化を改善する。
論文参考訳（メタデータ） (2024-02-09T07:18:06Z)
Causal Flow-based Variational Auto-Encoder for Disentangled Causal Representation Learning [1.4875602190483512]
遠方表現学習は、各次元が基礎となる生成因子に対応する表現を学習することを目的としている。因果フローを表現学習プロセスに統合する新しい教師付きVAEフレームワークであるDisentangled Causal Variational Auto-Encoder (DCVAE)を提案する。我々は,合成データセットと実世界のデータセットの両方でDCVAEを評価し,因果解離と介入実験における優れた能力を示した。
論文参考訳（メタデータ） (2023-04-18T14:26:02Z)
Variational Distillation for Multi-View Learning [104.17551354374821]
我々は,多視点表現学習における2つの重要な特徴を利用するために,様々な情報ボトルネックを設計する。厳密な理論的保証の下で,本手法は,観察とセマンティックラベルの内在的相関の把握を可能にする。
論文参考訳（メタデータ） (2022-06-20T03:09:46Z)
Invariant Causal Prediction for Block MDPs [106.63346115341862]
環境全体にわたる一般化は、実世界の課題への強化学習アルゴリズムの適用の成功に不可欠である。本稿では,多環境環境における新しい観測を一般化するモデル不適合状態抽象化(MISA)を学習するための不変予測法を提案する。
論文参考訳（メタデータ） (2020-03-12T21:03:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。