論文の概要: Multi-modal contrastive learning adapts to intrinsic dimensions of shared latent variables
- arxiv url: http://arxiv.org/abs/2505.12473v1
- Date: Sun, 18 May 2025 15:49:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.255505
- Title: Multi-modal contrastive learning adapts to intrinsic dimensions of shared latent variables
- Title(参考訳): 多モードコントラスト学習は共有潜伏変数の内在次元に適応する
- Authors: Yu Gui, Cong Ma, Zongming Ma,
- Abstract要約: マルチモーダルコントラスト学習から学習した表現の理論的性質について検討する。
合成データセットと実世界のデータセットの両方の実験は、低次元および情報表現を学習する対照的な学習能力を示している。
- 参考スコア(独自算出の注目度): 23.100488765078087
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-modal contrastive learning as a self-supervised representation learning technique has achieved great success in foundation model training, such as CLIP~\citep{radford2021learning}. In this paper, we study the theoretical properties of the learned representations from multi-modal contrastive learning beyond linear representations and specific data distributions. Our analysis reveals that, enabled by temperature optimization, multi-modal contrastive learning not only maximizes mutual information between modalities but also adapts to intrinsic dimensions of data, which can be much lower than user-specified dimensions for representation vectors. Experiments on both synthetic and real-world datasets demonstrate the ability of contrastive learning to learn low-dimensional and informative representations, bridging theoretical insights and practical performance.
- Abstract(参考訳): 自己指導型表現学習技術としてのマルチモーダルコントラスト学習は,CLIP~\citep{radford2021learning}のような基礎モデルトレーニングにおいて大きな成功を収めている。
本稿では,線形表現や特定のデータ分布を超えたマルチモーダルコントラスト学習から学習した表現の理論的性質について検討する。
温度最適化により,マルチモーダルコントラスト学習は,モダリティ間の相互情報の最大化だけでなく,データ固有の次元にも適応し,表現ベクトルのユーザ指定次元よりもはるかに低くなることを明らかにした。
合成と実世界の両方のデータセットの実験は、対照的な学習によって低次元および情報的表現を学習し、理論的洞察をブリッジし、実践的なパフォーマンスを示す。
関連論文リスト
- On the Comparison between Multi-modal and Single-modal Contrastive Learning [50.74988548106031]
マルチモーダルとシングルモーダルのコントラスト学習の違いを理解するための理論的基盤を導入する。
マルチモーダル・シングルモーダル・コントラッシブ・ラーニングの下流タスクにおける一般化に影響を及ぼす臨界因子,すなわち信号対雑音比(SNR)を同定する。
我々の分析は、単一モードと多モードのコントラスト学習の最適化と一般化を特徴付ける統一的なフレームワークを提供する。
論文 参考訳(メタデータ) (2024-11-05T06:21:17Z) - Interpretable Tensor Fusion [26.314148163750257]
InTense(Interpretable tensor fusion)は,マルチモーダルデータ表現を同時に学習するためのニューラルネットワークのトレーニング手法である。
InTenseは、関連スコアをモダリティとその関連に割り当てることで、ボックスから解釈可能性を提供する。
6つの実世界のデータセットの実験により、InTenseは精度と解釈可能性の観点から、既存の最先端のマルチモーダル解釈アプローチより優れていることが示された。
論文 参考訳(メタデータ) (2024-05-07T21:05:50Z) - Weighted Point Set Embedding for Multimodal Contrastive Learning Toward Optimal Similarity Metric [44.95433989446052]
提案手法の利点は,CLIPの相対的損失に対する新たな理解を通じて示される。
重み付き点集合に基づく提案した類似性は、常に最適類似性を達成することを示す。
論文 参考訳(メタデータ) (2024-04-30T03:15:04Z) - Beyond DAGs: A Latent Partial Causal Model for Multimodal Learning [80.44084021062105]
本稿では,非方向エッジで連結された2つの潜在結合変数を特徴とする,多モーダルデータに対する新しい潜在部分因果モデルを提案する。
特定の統計的仮定の下では、多モーダル・コントラッシブ・ラーニングによって学習された表現が、自明な変換までの潜在結合変数に対応することを示す。
事前トレーニングされたCLIPモデルの実験は、非絡み合った表現を具現化し、数ショットの学習を可能にし、さまざまな現実世界のデータセットにわたるドメインの一般化を改善する。
論文 参考訳(メタデータ) (2024-02-09T07:18:06Z) - Identifiability Results for Multimodal Contrastive Learning [72.15237484019174]
本研究では,以前研究したマルチビュー設定よりも,より一般的な設定で共有要因を復元可能であることを示す。
本研究は,マルチモーダル表現学習の理論的基盤を提供し,マルチモーダルコントラスト学習を実践的に効果的に設定する方法を説明する。
論文 参考訳(メタデータ) (2023-03-16T09:14:26Z) - Variational Distillation for Multi-View Learning [104.17551354374821]
我々は,多視点表現学習における2つの重要な特徴を利用するために,様々な情報ボトルネックを設計する。
厳密な理論的保証の下で,本手法は,観察とセマンティックラベルの内在的相関の把握を可能にする。
論文 参考訳(メタデータ) (2022-06-20T03:09:46Z) - Provable Representation Learning for Imitation Learning via Bi-level
Optimization [60.059520774789654]
現代の学習システムにおける一般的な戦略は、多くのタスクに有用な表現を学ぶことである。
我々は,複数の専門家の軌道が利用できるマルコフ決定過程(MDP)の模倣学習環境において,この戦略を研究する。
このフレームワークは,行動のクローン化と観察-アローンの模倣学習設定のためにインスタンス化する。
論文 参考訳(メタデータ) (2020-02-24T21:03:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。