論文の概要: Identifiability Results for Multimodal Contrastive Learning
- arxiv url: http://arxiv.org/abs/2303.09166v1
- Date: Thu, 16 Mar 2023 09:14:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-17 16:18:40.849321
- Title: Identifiability Results for Multimodal Contrastive Learning
- Title(参考訳): マルチモーダルコントラスト学習における識別可能性
- Authors: Imant Daunhawer, Alice Bizeul, Emanuele Palumbo, Alexander Marx, Julia
E. Vogt
- Abstract要約: 本研究では,以前研究したマルチビュー設定よりも,より一般的な設定で共有要因を復元可能であることを示す。
本研究は,マルチモーダル表現学習の理論的基盤を提供し,マルチモーダルコントラスト学習を実践的に効果的に設定する方法を説明する。
- 参考スコア(独自算出の注目度): 72.15237484019174
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Contrastive learning is a cornerstone underlying recent progress in
multi-view and multimodal learning, e.g., in representation learning with
image/caption pairs. While its effectiveness is not yet fully understood, a
line of recent work reveals that contrastive learning can invert the data
generating process and recover ground truth latent factors shared between
views. In this work, we present new identifiability results for multimodal
contrastive learning, showing that it is possible to recover shared factors in
a more general setup than the multi-view setting studied previously.
Specifically, we distinguish between the multi-view setting with one generative
mechanism (e.g., multiple cameras of the same type) and the multimodal setting
that is characterized by distinct mechanisms (e.g., cameras and microphones).
Our work generalizes previous identifiability results by redefining the
generative process in terms of distinct mechanisms with modality-specific
latent variables. We prove that contrastive learning can block-identify latent
factors shared between modalities, even when there are nontrivial dependencies
between factors. We empirically verify our identifiability results with
numerical simulations and corroborate our findings on a complex multimodal
dataset of image/text pairs. Zooming out, our work provides a theoretical basis
for multimodal representation learning and explains in which settings
multimodal contrastive learning can be effective in practice.
- Abstract(参考訳): コントラスト学習(Contrastive learning)は、マルチビューおよびマルチモーダル学習(例えば、画像/カプセルペアによる表現学習)の最近の進歩の基盤となる基礎である。
その効果はまだ完全には理解されていないが、最近の一連の研究は、対照的な学習がデータ生成過程を逆転させ、ビュー間で共有される真実の潜在因子を復元できることを示している。
本研究では,マルチモーダルコントラスト学習において,従来研究したマルチビュー設定よりも,より一般的な設定で共有因子を回収することが可能であることを示す。
具体的には、1つの生成機構(例えば、同じタイプの複数のカメラ)によるマルチビュー設定と、異なる機構(例えば、カメラとマイク)によって特徴付けられるマルチモーダル設定とを区別する。
本研究は,モーダリティ特異的潜伏変数の異なる機構で生成過程を再定義することにより,過去の識別可能性の結果を一般化する。
比較学習は、要因間の非自明な依存関係がある場合でも、モダリティ間で共有される潜在因子をブロックする。
数値シミュレーションにより識別精度を実証し,画像/テキストペアの複雑なマルチモーダルデータセット上での検証を行った。
我々の研究は、マルチモーダル表現学習の理論基盤を提供し、マルチモーダルコントラスト学習を実践的に効果的に設定する方法を説明する。
関連論文リスト
- On the Comparison between Multi-modal and Single-modal Contrastive Learning [50.74988548106031]
マルチモーダルとシングルモーダルのコントラスト学習の違いを理解するための理論的基盤を導入する。
マルチモーダル・シングルモーダル・コントラッシブ・ラーニングの下流タスクにおける一般化に影響を及ぼす臨界因子,すなわち信号対雑音比(SNR)を同定する。
我々の分析は、単一モードと多モードのコントラスト学習の最適化と一般化を特徴付ける統一的なフレームワークを提供する。
論文 参考訳(メタデータ) (2024-11-05T06:21:17Z) - Beyond Unimodal Learning: The Importance of Integrating Multiple Modalities for Lifelong Learning [23.035725779568587]
ディープニューラルネットワーク(DNN)におけるマルチモーダル性の役割と相互作用について検討する。
以上の結果から,複数のビューと相補的な情報を複数のモーダルから活用することで,より正確かつ堅牢な表現を学習できることが示唆された。
本稿では,各モーダルにおけるデータ点間の関係構造的類似性を利用して,異なるモーダルからの情報の統合と整合化を行う手法を提案する。
論文 参考訳(メタデータ) (2024-05-04T22:02:58Z) - Revealing Multimodal Contrastive Representation Learning through Latent
Partial Causal Models [85.67870425656368]
マルチモーダルデータに特化して設計された統一因果モデルを提案する。
マルチモーダル・コントラスト表現学習は潜在結合変数の同定に優れていることを示す。
実験では、仮定が破られたとしても、我々の発見の堅牢性を示す。
論文 参考訳(メタデータ) (2024-02-09T07:18:06Z) - Multi-View Causal Representation Learning with Partial Observability [36.37049791756438]
同時に観察された視点から学習した表現の識別可能性を研究するための統一的な枠組みを提案する。
任意のビューのすべてのサブセット間で共有される情報は、コントラスト学習を用いてスムーズなビジェクションまで学習できることを実証する。
数値、画像、マルチモーダルデータセットに関する我々の主張を実験的に検証する。
論文 参考訳(メタデータ) (2023-11-07T15:07:08Z) - Multimodal Learning Without Labeled Multimodal Data: Guarantees and Applications [90.6849884683226]
ラベル付き単調データのみを用いた半教師付き環境における相互作用定量化の課題について検討する。
相互作用の正確な情報理論的定義を用いて、我々の重要な貢献は下界と上界の導出である。
本稿では、これらの理論結果を用いてマルチモーダルモデルの性能を推定し、データ収集をガイドし、様々なタスクに対して適切なマルチモーダルモデルを選択する方法について述べる。
論文 参考訳(メタデータ) (2023-06-07T15:44:53Z) - UniDiff: Advancing Vision-Language Models with Generative and
Discriminative Learning [86.91893533388628]
本稿では、画像テキストコントラスト学習(ITC)、テキスト条件付き画像合成学習(IS)、相互意味整合性モデリング(RSC)を統合した統合マルチモーダルモデルUniDiffを提案する。
UniDiffはマルチモーダル理解と生成タスクの両方において汎用性を示す。
論文 参考訳(メタデータ) (2023-06-01T15:39:38Z) - Using Multiple Instance Learning to Build Multimodal Representations [3.354271620160378]
画像テキストによるマルチモーダル表現学習は、モダリティ間でデータを整列させ、重要な医療応用を可能にする。
本稿では,既存の多モーダル表現学習手法を特例として,置換不変スコア関数を構築するための汎用フレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-11T18:01:11Z) - Self-Supervised Multimodal Domino: in Search of Biomarkers for
Alzheimer's Disease [19.86082635340699]
自己監督型表現学習アルゴリズムを編成する合理的な方法の分類法を提案する。
まず,おもちゃのマルチモーダルMNISTデータセットのモデルを評価し,アルツハイマー病患者を用いたマルチモーダル・ニューロイメージングデータセットに適用した。
提案手法は,従来の自己教師付きエンコーダデコーダ法よりも優れていた。
論文 参考訳(メタデータ) (2020-12-25T20:28:13Z) - Deep Partial Multi-View Learning [94.39367390062831]
クロスパーシャル・マルチビュー・ネットワーク(CPM-Nets)と呼ばれる新しいフレームワークを提案する。
我々はまず、多視点表現に対する完全性と汎用性の形式的な定義を提供する。
そして、理論的に学習された潜在表現の多元性を証明する。
論文 参考訳(メタデータ) (2020-11-12T02:29:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。