論文の概要: Interventional Imbalanced Multi-Modal Representation Learning via $β$-Generalization Front-Door Criterion
- arxiv url: http://arxiv.org/abs/2406.11490v1
- Date: Mon, 17 Jun 2024 12:55:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-18 14:51:50.291099
- Title: Interventional Imbalanced Multi-Modal Representation Learning via $β$-Generalization Front-Door Criterion
- Title(参考訳): β$-Generalization Front-Door Criterionによるインターベンショナル不均衡多モード表現学習
- Authors: Yi Li, Jiangmeng Li, Fei Song, Qingmeng Zhu, Changwen Zheng, Wenwen Qiang,
- Abstract要約: マルチモーダル法はユニモーダル法よりも包括的な優越性を確立する。
タスク依存予測に対する異なるモダリティの不均衡な寄与は、正準多モード法の識別性能を常に低下させる。
ベンチマークメソッドは、トレーニング中にわずかな貢献で補助的なモダリティを増大させるという、トラクタブルなソリューションを提起する。
- 参考スコア(独自算出の注目度): 17.702549833449435
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-modal methods establish comprehensive superiority over uni-modal methods. However, the imbalanced contributions of different modalities to task-dependent predictions constantly degrade the discriminative performance of canonical multi-modal methods. Based on the contribution to task-dependent predictions, modalities can be identified as predominant and auxiliary modalities. Benchmark methods raise a tractable solution: augmenting the auxiliary modality with a minor contribution during training. However, our empirical explorations challenge the fundamental idea behind such behavior, and we further conclude that benchmark approaches suffer from certain defects: insufficient theoretical interpretability and limited exploration capability of discriminative knowledge. To this end, we revisit multi-modal representation learning from a causal perspective and build the Structural Causal Model. Following the empirical explorations, we determine to capture the true causality between the discriminative knowledge of predominant modality and predictive label while considering the auxiliary modality. Thus, we introduce the $\beta$-generalization front-door criterion. Furthermore, we propose a novel network for sufficiently exploring multi-modal discriminative knowledge. Rigorous theoretical analyses and various empirical evaluations are provided to support the effectiveness of the innate mechanism behind our proposed method.
- Abstract(参考訳): マルチモーダル法はユニモーダル法よりも包括的な優越性を確立する。
しかし、タスク依存予測に対する異なるモダリティの不均衡な寄与は、標準マルチモーダル法の識別性能を常に低下させる。
タスク依存予測への貢献に基づいて、モダリティは支配的かつ補助的なモダリティとして特定することができる。
ベンチマークメソッドは、トレーニング中にわずかな貢献で補助的なモダリティを増大させるという、トラクタブルなソリューションを提起する。
しかしながら、我々の経験的探索は、そのような行動の背後にある基本的な考え方に挑戦し、さらに、ベンチマークアプローチは、理論的解釈可能性の不足と差別的知識の探索能力の制限という、ある種の欠陥に悩まされていると結論付けている。
この目的のために、我々は因果的観点からのマルチモーダル表現学習を再考し、構造因果モデルを構築する。
経験的探索の結果,主観的モダリティの識別的知識と予測的ラベルの真の因果関係を,補助的モダリティを考慮しつつ捉えることが決定された。
したがって、$\beta$- generalization front-door criterionを導入する。
さらに,マルチモーダルな識別知識を十分に探索する新しいネットワークを提案する。
提案手法の背後にある自然メカニズムの有効性を実証するために, 厳密な理論的解析と様々な実験的評価を行った。
関連論文リスト
- Investigating Inference-time Scaling for Chain of Multi-modal Thought: A Preliminary Study [44.35454088618666]
様々な領域にまたがる10の課題に対して,一般的なサンプリングベースと木探索ベースの推論時間スケーリング手法について検討した。
結果から,マルチモーダル思考は従来のテキストのみの思考よりも性能が向上することが示された。
これらの利点にもかかわらず、マルチモーダル思考はよりリッチな視覚入力を処理するためにより高いトークン消費を必要とする。
論文 参考訳(メタデータ) (2025-02-17T07:29:01Z) - Causality can systematically address the monsters under the bench(marks) [64.36592889550431]
ベンチマークはさまざまなバイアス、アーティファクト、リークに悩まされている。
モデルは、調査の不十分な障害モードのため、信頼できない振る舞いをする可能性がある。
因果関係はこれらの課題を体系的に解決するための 理想的な枠組みを提供します
論文 参考訳(メタデータ) (2025-02-07T17:01:37Z) - Asymmetric Reinforcing against Multi-modal Representation Bias [59.685072206359855]
マルチモーダル表現バイアス(ARM)に対する非対称強化法を提案する。
我々のARMは、条件付き相互情報を通じて支配的なモダリティを表現する能力を維持しながら、弱いモダリティを動的に強化する。
我々はマルチモーダル学習の性能を著しく改善し、不均衡なマルチモーダル学習の軽減に顕著な進展をもたらした。
論文 参考訳(メタデータ) (2025-01-02T13:00:06Z) - Multimodal Learning with Uncertainty Quantification based on Discounted Belief Fusion [3.66486428341988]
医療、金融、自動運転といった分野では、マルチモーダルAIモデルがますます使われています。
騒音、不十分な証拠、モダリティ間の紛争に起因する不確実性は、信頼できる意思決定に不可欠である。
本稿では,命令不変なエビデンス融合を用いた新しいマルチモーダル学習手法を提案する。
論文 参考訳(メタデータ) (2024-12-23T22:37:18Z) - Chain-of-Thought Prompting for Demographic Inference with Large Multimodal Models [58.58594658683919]
大規模マルチモーダルモデル (LMM) は、様々な研究課題において変換可能性を示している。
以上の結果から,LMMはゼロショット学習,解釈可能性,未修正入力の処理に長所があることが示唆された。
本稿では,目標外予測問題を効果的に緩和するChain-of-Thought拡張プロンプト手法を提案する。
論文 参考訳(メタデータ) (2024-05-24T16:26:56Z) - A Theory of Multimodal Learning [3.4991031406102238]
マルチモーダリティの研究は、マシンラーニングの分野において、比較的過小評価されている。
興味深い発見は、複数のモダリティで訓練されたモデルが、非モダリティタスクでも、微調整された非モダリティモデルより優れていることである。
本稿では,マルチモーダル学習アルゴリズムの一般化特性を研究することによって,この現象を説明する理論的枠組みを提供する。
論文 参考訳(メタデータ) (2023-09-21T20:05:49Z) - Synergies between Disentanglement and Sparsity: Generalization and
Identifiability in Multi-Task Learning [79.83792914684985]
我々は,最大スパース基底予測器が不整合表現をもたらす条件を提供する新しい識別可能性の結果を証明した。
この理論的な結果から,両レベル最適化問題に基づくアンタングル表現学習の実践的アプローチを提案する。
論文 参考訳(メタデータ) (2022-11-26T21:02:09Z) - On Modality Bias Recognition and Reduction [70.69194431713825]
マルチモーダル分類の文脈におけるモダリティバイアス問題について検討する。
本稿では,各ラベルの特徴空間を適応的に学習するプラグアンドプレイ損失関数法を提案する。
本手法は, ベースラインに比べ, 顕著な性能向上を実現している。
論文 参考訳(メタデータ) (2022-02-25T13:47:09Z) - Adversarial Robustness with Semi-Infinite Constrained Learning [177.42714838799924]
入力に対する深い学習は、安全クリティカルなドメインでの使用に関して深刻な疑問を提起している。
本稿では,この問題を緩和するために,Langevin Monte Carlo のハイブリッドトレーニング手法を提案する。
当社のアプローチは、最先端のパフォーマンスと堅牢性の間のトレードオフを軽減することができることを示す。
論文 参考訳(メタデータ) (2021-10-29T13:30:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。