論文の概要: Interventional Imbalanced Multi-Modal Representation Learning via $β$-Generalization Front-Door Criterion
- arxiv url: http://arxiv.org/abs/2406.11490v1
- Date: Mon, 17 Jun 2024 12:55:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-18 14:51:50.291099
- Title: Interventional Imbalanced Multi-Modal Representation Learning via $β$-Generalization Front-Door Criterion
- Title(参考訳): β$-Generalization Front-Door Criterionによるインターベンショナル不均衡多モード表現学習
- Authors: Yi Li, Jiangmeng Li, Fei Song, Qingmeng Zhu, Changwen Zheng, Wenwen Qiang,
- Abstract要約: マルチモーダル法はユニモーダル法よりも包括的な優越性を確立する。
タスク依存予測に対する異なるモダリティの不均衡な寄与は、正準多モード法の識別性能を常に低下させる。
ベンチマークメソッドは、トレーニング中にわずかな貢献で補助的なモダリティを増大させるという、トラクタブルなソリューションを提起する。
- 参考スコア(独自算出の注目度): 17.702549833449435
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-modal methods establish comprehensive superiority over uni-modal methods. However, the imbalanced contributions of different modalities to task-dependent predictions constantly degrade the discriminative performance of canonical multi-modal methods. Based on the contribution to task-dependent predictions, modalities can be identified as predominant and auxiliary modalities. Benchmark methods raise a tractable solution: augmenting the auxiliary modality with a minor contribution during training. However, our empirical explorations challenge the fundamental idea behind such behavior, and we further conclude that benchmark approaches suffer from certain defects: insufficient theoretical interpretability and limited exploration capability of discriminative knowledge. To this end, we revisit multi-modal representation learning from a causal perspective and build the Structural Causal Model. Following the empirical explorations, we determine to capture the true causality between the discriminative knowledge of predominant modality and predictive label while considering the auxiliary modality. Thus, we introduce the $\beta$-generalization front-door criterion. Furthermore, we propose a novel network for sufficiently exploring multi-modal discriminative knowledge. Rigorous theoretical analyses and various empirical evaluations are provided to support the effectiveness of the innate mechanism behind our proposed method.
- Abstract(参考訳): マルチモーダル法はユニモーダル法よりも包括的な優越性を確立する。
しかし、タスク依存予測に対する異なるモダリティの不均衡な寄与は、標準マルチモーダル法の識別性能を常に低下させる。
タスク依存予測への貢献に基づいて、モダリティは支配的かつ補助的なモダリティとして特定することができる。
ベンチマークメソッドは、トレーニング中にわずかな貢献で補助的なモダリティを増大させるという、トラクタブルなソリューションを提起する。
しかしながら、我々の経験的探索は、そのような行動の背後にある基本的な考え方に挑戦し、さらに、ベンチマークアプローチは、理論的解釈可能性の不足と差別的知識の探索能力の制限という、ある種の欠陥に悩まされていると結論付けている。
この目的のために、我々は因果的観点からのマルチモーダル表現学習を再考し、構造因果モデルを構築する。
経験的探索の結果,主観的モダリティの識別的知識と予測的ラベルの真の因果関係を,補助的モダリティを考慮しつつ捉えることが決定された。
したがって、$\beta$- generalization front-door criterionを導入する。
さらに,マルチモーダルな識別知識を十分に探索する新しいネットワークを提案する。
提案手法の背後にある自然メカニズムの有効性を実証するために, 厳密な理論的解析と様々な実験的評価を行った。
関連論文リスト
- Chain-of-Thought Prompting for Demographic Inference with Large Multimodal Models [58.58594658683919]
大規模マルチモーダルモデル (LMM) は、様々な研究課題において変換可能性を示している。
以上の結果から,LMMはゼロショット学習,解釈可能性,未修正入力の処理に長所があることが示唆された。
本稿では,目標外予測問題を効果的に緩和するChain-of-Thought拡張プロンプト手法を提案する。
論文 参考訳(メタデータ) (2024-05-24T16:26:56Z) - Towards a Unified Framework for Evaluating Explanations [0.6138671548064356]
我々は、モデルと利害関係者の間の仲介者として、本質的に解釈可能なモデルであれ、不透明なブラックボックスモデルであれ、説明が役立ちます。
本稿では,学習者の行動を予測するための解釈可能なニューラルネットワークの例を用いて,これらの基準と具体的な評価手法について述べる。
論文 参考訳(メタデータ) (2024-05-22T21:49:28Z) - Diversity-Aware Agnostic Ensemble of Sharpness Minimizers [24.160975100349376]
深層アンサンブルにおける多様性と平坦性を促進する学習アルゴリズムであるDASHを提案する。
我々は,本手法の理論的バックボーンと,アンサンブルの一般化性の向上を示す広範な実証的証拠を提供する。
論文 参考訳(メタデータ) (2024-03-19T23:50:11Z) - A Theory of Multimodal Learning [3.4991031406102238]
マルチモーダリティの研究は、マシンラーニングの分野において、比較的過小評価されている。
興味深い発見は、複数のモダリティで訓練されたモデルが、非モダリティタスクでも、微調整された非モダリティモデルより優れていることである。
本稿では,マルチモーダル学習アルゴリズムの一般化特性を研究することによって,この現象を説明する理論的枠組みを提供する。
論文 参考訳(メタデータ) (2023-09-21T20:05:49Z) - SHARCS: Shared Concept Space for Explainable Multimodal Learning [3.899855581265356]
SHARCS - 説明可能なマルチモーダル学習のための新しい概念ベースのアプローチを紹介する。
SHARCSは、異なる異質なモジュラリティから解釈可能な概念を単一の統一概念多様体に学習し、マッピングする。
本稿では,SHARCSが他の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-07-01T12:05:20Z) - Advancing Counterfactual Inference through Nonlinear Quantile Regression [77.28323341329461]
ニューラルネットワークで実装された効率的かつ効果的な対実的推論のためのフレームワークを提案する。
提案手法は、推定された反事実結果から見つからないデータまでを一般化する能力を高める。
複数のデータセットで実施した実証実験の結果は、我々の理論的な主張に対する説得力のある支持を提供する。
論文 参考訳(メタデータ) (2023-06-09T08:30:51Z) - Synergies between Disentanglement and Sparsity: Generalization and
Identifiability in Multi-Task Learning [79.83792914684985]
我々は,最大スパース基底予測器が不整合表現をもたらす条件を提供する新しい識別可能性の結果を証明した。
この理論的な結果から,両レベル最適化問題に基づくアンタングル表現学習の実践的アプローチを提案する。
論文 参考訳(メタデータ) (2022-11-26T21:02:09Z) - On Modality Bias Recognition and Reduction [70.69194431713825]
マルチモーダル分類の文脈におけるモダリティバイアス問題について検討する。
本稿では,各ラベルの特徴空間を適応的に学習するプラグアンドプレイ損失関数法を提案する。
本手法は, ベースラインに比べ, 顕著な性能向上を実現している。
論文 参考訳(メタデータ) (2022-02-25T13:47:09Z) - Adversarial Robustness with Semi-Infinite Constrained Learning [177.42714838799924]
入力に対する深い学習は、安全クリティカルなドメインでの使用に関して深刻な疑問を提起している。
本稿では,この問題を緩和するために,Langevin Monte Carlo のハイブリッドトレーニング手法を提案する。
当社のアプローチは、最先端のパフォーマンスと堅牢性の間のトレードオフを軽減することができることを示す。
論文 参考訳(メタデータ) (2021-10-29T13:30:42Z) - Towards Robust Fine-grained Recognition by Maximal Separation of
Discriminative Features [72.72840552588134]
本研究は, 粒度認識ネットワークにおけるクラス間の潜伏表現の近接性を, 敵攻撃の成功の鍵となる要因として同定する。
注意に基づく正規化機構を導入し、異なるクラスの識別潜在特徴を最大限に分離する。
論文 参考訳(メタデータ) (2020-06-10T18:34:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。