Fugu-MT 論文翻訳(概要): Interventional Imbalanced Multi-Modal Representation Learning via $β$-Generalization Front-Door Criterion

論文の概要: Interventional Imbalanced Multi-Modal Representation Learning via $β$-Generalization Front-Door Criterion

arxiv url: http://arxiv.org/abs/2406.11490v1
Date: Mon, 17 Jun 2024 12:55:56 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-18 14:51:50.291099
Title: Interventional Imbalanced Multi-Modal Representation Learning via $β$-Generalization Front-Door Criterion
Title（参考訳）: β$-Generalization Front-Door Criterionによるインターベンショナル不均衡多モード表現学習
Authors: Yi Li, Jiangmeng Li, Fei Song, Qingmeng Zhu, Changwen Zheng, Wenwen Qiang,
Abstract要約: マルチモーダル法はユニモーダル法よりも包括的な優越性を確立する。タスク依存予測に対する異なるモダリティの不均衡な寄与は、正準多モード法の識別性能を常に低下させる。ベンチマークメソッドは、トレーニング中にわずかな貢献で補助的なモダリティを増大させるという、トラクタブルなソリューションを提起する。
参考スコア（独自算出の注目度）: 17.702549833449435
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Multi-modal methods establish comprehensive superiority over uni-modal methods. However, the imbalanced contributions of different modalities to task-dependent predictions constantly degrade the discriminative performance of canonical multi-modal methods. Based on the contribution to task-dependent predictions, modalities can be identified as predominant and auxiliary modalities. Benchmark methods raise a tractable solution: augmenting the auxiliary modality with a minor contribution during training. However, our empirical explorations challenge the fundamental idea behind such behavior, and we further conclude that benchmark approaches suffer from certain defects: insufficient theoretical interpretability and limited exploration capability of discriminative knowledge. To this end, we revisit multi-modal representation learning from a causal perspective and build the Structural Causal Model. Following the empirical explorations, we determine to capture the true causality between the discriminative knowledge of predominant modality and predictive label while considering the auxiliary modality. Thus, we introduce the $\beta$-generalization front-door criterion. Furthermore, we propose a novel network for sufficiently exploring multi-modal discriminative knowledge. Rigorous theoretical analyses and various empirical evaluations are provided to support the effectiveness of the innate mechanism behind our proposed method.
Abstract（参考訳）: マルチモーダル法はユニモーダル法よりも包括的な優越性を確立する。しかし、タスク依存予測に対する異なるモダリティの不均衡な寄与は、標準マルチモーダル法の識別性能を常に低下させる。タスク依存予測への貢献に基づいて、モダリティは支配的かつ補助的なモダリティとして特定することができる。ベンチマークメソッドは、トレーニング中にわずかな貢献で補助的なモダリティを増大させるという、トラクタブルなソリューションを提起する。しかしながら、我々の経験的探索は、そのような行動の背後にある基本的な考え方に挑戦し、さらに、ベンチマークアプローチは、理論的解釈可能性の不足と差別的知識の探索能力の制限という、ある種の欠陥に悩まされていると結論付けている。この目的のために、我々は因果的観点からのマルチモーダル表現学習を再考し、構造因果モデルを構築する。経験的探索の結果,主観的モダリティの識別的知識と予測的ラベルの真の因果関係を,補助的モダリティを考慮しつつ捉えることが決定された。したがって、$\beta$- generalization front-door criterionを導入する。さらに,マルチモーダルな識別知識を十分に探索する新しいネットワークを提案する。提案手法の背後にある自然メカニズムの有効性を実証するために, 厳密な理論的解析と様々な実験的評価を行った。

関連論文リスト

Why Reasoning Matters? A Survey of Advancements in Multimodal Reasoning (v1) [66.51642638034822]
推論は人間の知性の中心であり、多様なタスクにまたがる構造化された問題解決を可能にする。大規模言語モデル(LLM)の最近の進歩は、算術、常識、記号領域における推論能力を大幅に向上させてきた。本稿では,テキストおよびマルチモーダルLLMにおける推論手法の簡潔かつ洞察に富んだ概要について述べる。
論文参考訳（メタデータ） (2025-04-04T04:04:56Z)
Investigating Inference-time Scaling for Chain of Multi-modal Thought: A Preliminary Study [44.35454088618666]
様々な領域にまたがる10の課題に対して,一般的なサンプリングベースと木探索ベースの推論時間スケーリング手法について検討した。結果から,マルチモーダル思考は従来のテキストのみの思考よりも性能が向上することが示された。これらの利点にもかかわらず、マルチモーダル思考はよりリッチな視覚入力を処理するためにより高いトークン消費を必要とする。
論文参考訳（メタデータ） (2025-02-17T07:29:01Z)
Causality can systematically address the monsters under the bench(marks) [64.36592889550431]
ベンチマークはさまざまなバイアス、アーティファクト、リークに悩まされている。モデルは、調査の不十分な障害モードのため、信頼できない振る舞いをする可能性がある。因果関係はこれらの課題を体系的に解決するための理想的な枠組みを提供します
論文参考訳（メタデータ） (2025-02-07T17:01:37Z)
Asymmetric Reinforcing against Multi-modal Representation Bias [59.685072206359855]
マルチモーダル表現バイアス(ARM)に対する非対称強化法を提案する。我々のARMは、条件付き相互情報を通じて支配的なモダリティを表現する能力を維持しながら、弱いモダリティを動的に強化する。我々はマルチモーダル学習の性能を著しく改善し、不均衡なマルチモーダル学習の軽減に顕著な進展をもたらした。
論文参考訳（メタデータ） (2025-01-02T13:00:06Z)
Multimodal Learning with Uncertainty Quantification based on Discounted Belief Fusion [3.66486428341988]
医療、金融、自動運転といった分野では、マルチモーダルAIモデルがますます使われています。騒音、不十分な証拠、モダリティ間の紛争に起因する不確実性は、信頼できる意思決定に不可欠である。本稿では,命令不変なエビデンス融合を用いた新しいマルチモーダル学習手法を提案する。
論文参考訳（メタデータ） (2024-12-23T22:37:18Z)
A Comprehensive Survey on Evidential Deep Learning and Its Applications [64.83473301188138]
Evidential Deep Learning (EDL)は、単一のフォワードパスで最小限の追加計算で信頼性の高い不確実性推定を提供する。まず、主観的論理理論であるEDLの理論的基礎を掘り下げ、他の不確実性推定フレームワークとの区別について議論する。さまざまな機械学習パラダイムや下流タスクにまたがる広範な応用について詳しく述べる。
論文参考訳（メタデータ） (2024-09-07T05:55:06Z)
Multi-Agent Reinforcement Learning from Human Feedback: Data Coverage and Algorithmic Techniques [65.55451717632317]
我々は,MARLHF(Multi-Agent Reinforcement Learning from Human Feedback)について検討し,理論的基礎と実証的検証の両方について検討した。我々は,このタスクを,一般ゲームにおける嗜好のみのオフラインデータセットからナッシュ均衡を識別するものとして定義する。本研究は,MARLHFの多面的アプローチを基礎として,効果的な嗜好に基づくマルチエージェントシステムの実現を目指している。
論文参考訳（メタデータ） (2024-09-01T13:14:41Z)
Chain-of-Thought Prompting for Demographic Inference with Large Multimodal Models [58.58594658683919]
大規模マルチモーダルモデル (LMM) は、様々な研究課題において変換可能性を示している。以上の結果から,LMMはゼロショット学習,解釈可能性,未修正入力の処理に長所があることが示唆された。本稿では,目標外予測問題を効果的に緩和するChain-of-Thought拡張プロンプト手法を提案する。
論文参考訳（メタデータ） (2024-05-24T16:26:56Z)
Towards a Unified Framework for Evaluating Explanations [0.6138671548064356]
我々は、モデルと利害関係者の間の仲介者として、本質的に解釈可能なモデルであれ、不透明なブラックボックスモデルであれ、説明が役立ちます。本稿では,学習者の行動を予測するための解釈可能なニューラルネットワークの例を用いて,これらの基準と具体的な評価手法について述べる。
論文参考訳（メタデータ） (2024-05-22T21:49:28Z)
Diversity-Aware Agnostic Ensemble of Sharpness Minimizers [24.160975100349376]
深層アンサンブルにおける多様性と平坦性を促進する学習アルゴリズムであるDASHを提案する。我々は,本手法の理論的バックボーンと,アンサンブルの一般化性の向上を示す広範な実証的証拠を提供する。
論文参考訳（メタデータ） (2024-03-19T23:50:11Z)
A Theory of Multimodal Learning [3.4991031406102238]
マルチモーダリティの研究は、マシンラーニングの分野において、比較的過小評価されている。興味深い発見は、複数のモダリティで訓練されたモデルが、非モダリティタスクでも、微調整された非モダリティモデルより優れていることである。本稿では,マルチモーダル学習アルゴリズムの一般化特性を研究することによって,この現象を説明する理論的枠組みを提供する。
論文参考訳（メタデータ） (2023-09-21T20:05:49Z)
SHARCS: Shared Concept Space for Explainable Multimodal Learning [3.899855581265356]
SHARCS - 説明可能なマルチモーダル学習のための新しい概念ベースのアプローチを紹介する。 SHARCSは、異なる異質なモジュラリティから解釈可能な概念を単一の統一概念多様体に学習し、マッピングする。本稿では,SHARCSが他の手法よりも優れていることを示す。
論文参考訳（メタデータ） (2023-07-01T12:05:20Z)
Synergies between Disentanglement and Sparsity: Generalization and Identifiability in Multi-Task Learning [79.83792914684985]
我々は,最大スパース基底予測器が不整合表現をもたらす条件を提供する新しい識別可能性の結果を証明した。この理論的な結果から,両レベル最適化問題に基づくアンタングル表現学習の実践的アプローチを提案する。
論文参考訳（メタデータ） (2022-11-26T21:02:09Z)
On Modality Bias Recognition and Reduction [70.69194431713825]
マルチモーダル分類の文脈におけるモダリティバイアス問題について検討する。本稿では,各ラベルの特徴空間を適応的に学習するプラグアンドプレイ損失関数法を提案する。本手法は, ベースラインに比べ, 顕著な性能向上を実現している。
論文参考訳（メタデータ） (2022-02-25T13:47:09Z)
Adversarial Robustness with Semi-Infinite Constrained Learning [177.42714838799924]
入力に対する深い学習は、安全クリティカルなドメインでの使用に関して深刻な疑問を提起している。本稿では,この問題を緩和するために,Langevin Monte Carlo のハイブリッドトレーニング手法を提案する。当社のアプローチは、最先端のパフォーマンスと堅牢性の間のトレードオフを軽減することができることを示す。
論文参考訳（メタデータ） (2021-10-29T13:30:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。