論文の概要: Identifiability Results for Multimodal Contrastive Learning
- arxiv url: http://arxiv.org/abs/2303.09166v1
- Date: Thu, 16 Mar 2023 09:14:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-17 16:18:40.849321
- Title: Identifiability Results for Multimodal Contrastive Learning
- Title(参考訳): マルチモーダルコントラスト学習における識別可能性
- Authors: Imant Daunhawer, Alice Bizeul, Emanuele Palumbo, Alexander Marx, Julia
E. Vogt
- Abstract要約: 本研究では,以前研究したマルチビュー設定よりも,より一般的な設定で共有要因を復元可能であることを示す。
本研究は,マルチモーダル表現学習の理論的基盤を提供し,マルチモーダルコントラスト学習を実践的に効果的に設定する方法を説明する。
- 参考スコア(独自算出の注目度): 72.15237484019174
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Contrastive learning is a cornerstone underlying recent progress in
multi-view and multimodal learning, e.g., in representation learning with
image/caption pairs. While its effectiveness is not yet fully understood, a
line of recent work reveals that contrastive learning can invert the data
generating process and recover ground truth latent factors shared between
views. In this work, we present new identifiability results for multimodal
contrastive learning, showing that it is possible to recover shared factors in
a more general setup than the multi-view setting studied previously.
Specifically, we distinguish between the multi-view setting with one generative
mechanism (e.g., multiple cameras of the same type) and the multimodal setting
that is characterized by distinct mechanisms (e.g., cameras and microphones).
Our work generalizes previous identifiability results by redefining the
generative process in terms of distinct mechanisms with modality-specific
latent variables. We prove that contrastive learning can block-identify latent
factors shared between modalities, even when there are nontrivial dependencies
between factors. We empirically verify our identifiability results with
numerical simulations and corroborate our findings on a complex multimodal
dataset of image/text pairs. Zooming out, our work provides a theoretical basis
for multimodal representation learning and explains in which settings
multimodal contrastive learning can be effective in practice.
- Abstract(参考訳): コントラスト学習(Contrastive learning)は、マルチビューおよびマルチモーダル学習(例えば、画像/カプセルペアによる表現学習)の最近の進歩の基盤となる基礎である。
その効果はまだ完全には理解されていないが、最近の一連の研究は、対照的な学習がデータ生成過程を逆転させ、ビュー間で共有される真実の潜在因子を復元できることを示している。
本研究では,マルチモーダルコントラスト学習において,従来研究したマルチビュー設定よりも,より一般的な設定で共有因子を回収することが可能であることを示す。
具体的には、1つの生成機構(例えば、同じタイプの複数のカメラ)によるマルチビュー設定と、異なる機構(例えば、カメラとマイク)によって特徴付けられるマルチモーダル設定とを区別する。
本研究は,モーダリティ特異的潜伏変数の異なる機構で生成過程を再定義することにより,過去の識別可能性の結果を一般化する。
比較学習は、要因間の非自明な依存関係がある場合でも、モダリティ間で共有される潜在因子をブロックする。
数値シミュレーションにより識別精度を実証し,画像/テキストペアの複雑なマルチモーダルデータセット上での検証を行った。
我々の研究は、マルチモーダル表現学習の理論基盤を提供し、マルチモーダルコントラスト学習を実践的に効果的に設定する方法を説明する。
関連論文リスト
- Interpretable Diversity Analysis: Visualizing Feature Representations In
Low-Cost Ensembles [0.0]
本稿では,多様性を定性的に分析できるいくつかの解釈可能性手法を提案する。
2つの低コストアンサンブルアルゴリズムを用いて,子ネットワーク間の特徴表現の多様性を比較することによって,これらの手法を実証する。
論文 参考訳(メタデータ) (2023-02-12T00:32:03Z) - Using Multiple Instance Learning to Build Multimodal Representations [3.354271620160378]
画像テキストによるマルチモーダル表現学習は、モダリティ間でデータを整列させ、重要な医療応用を可能にする。
本稿では,既存の多モーダル表現学習手法を特例として,置換不変スコア関数を構築するための汎用フレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-11T18:01:11Z) - Improving the Modality Representation with Multi-View Contrastive
Learning for Multimodal Sentiment Analysis [15.623293264871181]
コントラスト学習によるモダリティ表現の改良手法について検討した。
我々は,多視点コントラスト学習を用いた3段階のフレームワークを考案し,特定の目的の表現を洗練させる。
3つのオープンデータセットで実験を行い、その結果、我々のモデルの進歩を示す。
論文 参考訳(メタデータ) (2022-10-28T01:25:16Z) - Task Formulation Matters When Learning Continually: A Case Study in
Visual Question Answering [74.97906634396985]
継続的な学習は、以前の知識を忘れずに、一連のタスクでモデルを漸進的にトレーニングすることを目的としている。
本稿では,視覚的質問応答において,異なる設定がパフォーマンスに与える影響について詳細に検討する。
論文 参考訳(メタデータ) (2022-09-30T19:12:58Z) - Learning Visual Representation from Modality-Shared Contrastive
Language-Image Pre-training [88.80694147730883]
本稿では,多種多様なモダリティ共有コントラスト言語-画像事前学習(MS-CLIP)フレームワークについて検討する。
学習条件下では、視覚と言語信号のためのほとんど統一されたエンコーダが、より多くのパラメータを分離する他のすべてのバリエーションより優れていることが観察された。
我々のアプローチは、24の下流視覚タスクのコレクションに基づいて、線形探索においてバニラCLIPを1.6ポイント上回ります。
論文 参考訳(メタデータ) (2022-07-26T05:19:16Z) - Contrastive Learning with Cross-Modal Knowledge Mining for Multimodal
Human Activity Recognition [1.869225486385596]
複数のモダリティを活用することによって、より良い認識がもたらされるという仮説を探求する。
我々は、近年、人間活動認識の課題に対して、多くの対照的な自己監督的アプローチを拡張している。
マルチモーダルな自己教師型学習を実現するための,フレキシブルで汎用的なフレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-20T10:39:16Z) - HighMMT: Towards Modality and Task Generalization for High-Modality
Representation Learning [121.81678875923524]
マルチタスクと移動学習が可能な汎用マルチモーダルモデルを設計する。
得られたモデルは、テキスト、画像、ビデオ、オーディオ、時系列、センサー、テーブルにまたがって一般化され、異なる研究領域から設定される。
コードとベンチマークを公開し、その後の理論的および経験的分析のための統一されたプラットフォームを提供したいと思っています。
論文 参考訳(メタデータ) (2022-03-02T18:56:20Z) - Self-Supervised Multimodal Domino: in Search of Biomarkers for
Alzheimer's Disease [19.86082635340699]
自己監督型表現学習アルゴリズムを編成する合理的な方法の分類法を提案する。
まず,おもちゃのマルチモーダルMNISTデータセットのモデルを評価し,アルツハイマー病患者を用いたマルチモーダル・ニューロイメージングデータセットに適用した。
提案手法は,従来の自己教師付きエンコーダデコーダ法よりも優れていた。
論文 参考訳(メタデータ) (2020-12-25T20:28:13Z) - Deep Partial Multi-View Learning [94.39367390062831]
クロスパーシャル・マルチビュー・ネットワーク(CPM-Nets)と呼ばれる新しいフレームワークを提案する。
我々はまず、多視点表現に対する完全性と汎用性の形式的な定義を提供する。
そして、理論的に学習された潜在表現の多元性を証明する。
論文 参考訳(メタデータ) (2020-11-12T02:29:29Z) - Relating by Contrasting: A Data-efficient Framework for Multimodal
Generative Models [86.9292779620645]
生成モデル学習のための対照的なフレームワークを開発し、モダリティ間の共通性だけでなく、「関連」と「関連しない」マルチモーダルデータの区別によってモデルを訓練することができる。
提案手法では, 生成モデルを用いて, 関係のないサンプルから関連サンプルを正確に識別し, ラベルのない多モードデータの利用が可能となる。
論文 参考訳(メタデータ) (2020-07-02T15:08:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。