論文の概要: Seeking the Sufficiency and Necessity Causal Features in Multimodal Representation Learning
- arxiv url: http://arxiv.org/abs/2408.16577v2
- Date: Tue, 26 Nov 2024 18:54:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-28 15:24:20.001322
- Title: Seeking the Sufficiency and Necessity Causal Features in Multimodal Representation Learning
- Title(参考訳): マルチモーダル表現学習における十分性と必要因果関係の考察
- Authors: Boyu Chen, Junjie Liu, Zhu Li, Mengyue Yang,
- Abstract要約: 必要満足度(PNS)の確率は、結果を予測するのに必要かつ十分である特徴セットの可能性を測る。
単調なデータの表現学習を指導し、予測性能とモデルロバスト性の両方を高める効果が証明されている。
この拡張は、PNS推定、異種性、単調性の条件がマルチモーダルな文脈で再考される必要があるため、ユニークな課題を示す。
- 参考スコア(独自算出の注目度): 21.309673318309294
- License:
- Abstract: Probability of necessity and sufficiency (PNS) measures the likelihood of a feature set being both necessary and sufficient for predicting an outcome. It has proven effective in guiding representation learning for unimodal data, enhancing both predictive performance and model robustness. Despite these benefits, extending PNS to multimodal settings remains unexplored. This extension presents unique challenges, as the conditions for PNS estimation, exogeneity and monotonicity, need to be reconsidered in a multimodal context. We address these challenges by first conceptualizing multimodal representations as comprising modality-invariant and modality-specific components. We then analyze how to compute PNS for each component while ensuring non-trivial PNS estimation. Based on these analyses, we formulate tractable optimization objectives that enable multimodal models to learn high-PNS representations. Experiments demonstrate the effectiveness of our method on both synthetic and real-world data.
- Abstract(参考訳): 必要満足度(PNS)の確率は、結果を予測するのに必要かつ十分である特徴セットの可能性を測る。
単調なデータの表現学習を指導し、予測性能とモデルロバスト性の両方を高める効果が証明されている。
これらの利点にもかかわらず、PNSをマルチモーダル設定に拡張することはまだ検討されていない。
この拡張は、PNS推定、異種性、単調性の条件がマルチモーダルな文脈で再考される必要があるため、ユニークな課題を示す。
モーダル表現をモダリティ不変成分とモダリティ固有成分からなるものとして最初に概念化することにより,これらの課題に対処する。
次に、非自明なPSN推定を保証しつつ、各コンポーネントのPSNの計算方法を分析する。
これらの分析に基づいて,マルチモーダルモデルで高PNS表現を学習可能なトラクタブル最適化目標を定式化する。
実験により,本手法が合成データと実世界のデータの両方に与える影響を実証した。
関連論文リスト
- Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - Integrating Large Pre-trained Models into Multimodal Named Entity
Recognition with Evidential Fusion [31.234455370113075]
本稿では,MNERタスクに不確実性推定を取り入れ,信頼に値する予測を生成することを提案する。
提案アルゴリズムは,各モードの分布を正規逆ガンマ分布としてモデル化し,それらを統一分布に融合する。
2つのデータセットの実験により,提案手法がベースラインを上回り,新しい最先端性能を実現することを示す。
論文 参考訳(メタデータ) (2023-06-29T14:50:23Z) - Quantifying & Modeling Multimodal Interactions: An Information
Decomposition Framework [89.8609061423685]
本稿では,入力モーダル性と出力タスクを関連付けた冗長性,特異性,シナジーの度合いを定量化する情報理論手法を提案する。
PID推定を検証するために、PIDが知られている合成データセットと大規模マルチモーダルベンチマークの両方で広範な実験を行う。
本研究では,(1)マルチモーダルデータセット内の相互作用の定量化,(2)マルチモーダルモデルで捉えた相互作用の定量化,(3)モデル選択の原理的アプローチ,(4)実世界のケーススタディの3つにその有用性を示す。
論文 参考訳(メタデータ) (2023-02-23T18:59:05Z) - Cross-Modal Fine-Tuning: Align then Refine [83.37294254884446]
ORCAはクロスモーダルな微調整フレームワークであり、単一の大規模事前訓練モデルの適用範囲を様々に拡張する。
ORCAは12のモダリティから60以上のデータセットを含む3つのベンチマークで最先端の結果を得る。
論文 参考訳(メタデータ) (2023-02-11T16:32:28Z) - Improving Multimodal fusion via Mutual Dependency Maximisation [5.73995120847626]
マルチモーダル・感情分析は研究のトレンドとなっている分野であり、マルチモーダル・フュージョンは最も活発なトピックの1つである。
本研究では,未探索の罰則を調査し,モダリティ間の依存性を測定するための新たな目的セットを提案する。
我々は、我々の新しい罰則が様々な最先端モデルに対して一貫した改善(正確性で最大4.3ドル)をもたらすことを示した。
論文 参考訳(メタデータ) (2021-08-31T06:26:26Z) - Orthogonal Statistical Inference for Multimodal Data Analysis [5.010425616264462]
マルチモーダルイメージングは神経科学の研究を変えた。
単純な関連モデルに起因する解釈可能性の利点と、高度に適応的な非線形モデルによって達成される柔軟性を組み合わせることは困難です。
論文 参考訳(メタデータ) (2021-03-12T05:04:31Z) - MISA: Modality-Invariant and -Specific Representations for Multimodal
Sentiment Analysis [48.776247141839875]
本稿では,2つの異なる部分空間に各モダリティを投影する新しいフレームワーク MISA を提案する。
最初の部分空間はモダリティ不変(modality-invariant)であり、モダリティにまたがる表現はその共通点を学び、モダリティギャップを減少させる。
一般的な感情分析ベンチマークであるMOSIとMOSEIの実験は、最先端モデルよりも大幅に向上したことを示す。
論文 参考訳(メタデータ) (2020-05-07T15:13:23Z) - Diversity inducing Information Bottleneck in Model Ensembles [73.80615604822435]
本稿では,予測の多様性を奨励することで,ニューラルネットワークの効果的なアンサンブルを生成する問題をターゲットにする。
そこで本研究では,潜伏変数の学習における逆損失の多様性を明示的に最適化し,マルチモーダルデータのモデリングに必要な出力予測の多様性を得る。
最も競争力のあるベースラインと比較して、データ分布の変化の下で、分類精度が大幅に向上した。
論文 参考訳(メタデータ) (2020-03-10T03:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。