論文の概要: A Statistical Theory of Contrastive Pre-training and Multimodal Generative AI
- arxiv url: http://arxiv.org/abs/2501.04641v1
- Date: Wed, 08 Jan 2025 17:47:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-09 14:56:29.153494
- Title: A Statistical Theory of Contrastive Pre-training and Multimodal Generative AI
- Title(参考訳): コントラスト的事前学習とマルチモーダル生成AIの統計的理論
- Authors: Kazusato Oko, Licong Lin, Yuhang Cai, Song Mei,
- Abstract要約: マルチモーダル生成AIシステムは、異なるモーダルの表現を学ぶために、対照的な事前学習に依存している。
本稿では、下流タスクにおける対照的な事前学習の成功を説明するための理論的枠組みを開発する。
- 参考スコア(独自算出の注目度): 18.974297347310287
- License:
- Abstract: Multi-modal generative AI systems, such as those combining vision and language, rely on contrastive pre-training to learn representations across different modalities. While their practical benefits are widely acknowledged, a rigorous theoretical understanding of the contrastive pre-training framework remains limited. This paper develops a theoretical framework to explain the success of contrastive pre-training in downstream tasks, such as zero-shot classification, conditional diffusion models, and vision-language models. We introduce the concept of approximate sufficient statistics, a generalization of the classical sufficient statistics, and show that near-minimizers of the contrastive pre-training loss are approximately sufficient, making them adaptable to diverse downstream tasks. We further propose the Joint Generative Hierarchical Model for the joint distribution of images and text, showing that transformers can efficiently approximate relevant functions within this model via belief propagation. Building on this framework, we derive sample complexity guarantees for multi-modal learning based on contrastive pre-trained representations. Numerical simulations validate these theoretical findings, demonstrating the strong generalization performance of contrastively pre-trained transformers in various multi-modal tasks.
- Abstract(参考訳): 視覚と言語を組み合わせたマルチモーダル生成AIシステムは、異なるモダリティの表現を学ぶために、対照的な事前学習に依存している。
彼らの実践的な利点は広く認められているが、対照的な事前学習フレームワークに関する厳密な理論的理解は依然として限られている。
本稿では、ゼロショット分類、条件付き拡散モデル、視覚言語モデルなど、下流タスクにおける対照的な事前学習の成功を説明する理論的枠組みを開発する。
本稿では,古典的十分統計学の一般化である近似十分統計学の概念を導入し,コントラスト付き事前学習損失の近似最小化器がほぼ十分であることを示す。
さらに,画像とテキストの連成分布に関する共同生成階層モデルを提案する。
このフレームワークを基盤として、コントラッシブな事前学習表現に基づくマルチモーダル学習のためのサンプル複雑性保証を導出する。
数値シミュレーションにより, 各種マルチモーダルタスクにおいて, 対照的に事前学習した変圧器の強い一般化性能が示された。
関連論文リスト
- On the Comparison between Multi-modal and Single-modal Contrastive Learning [50.74988548106031]
マルチモーダルとシングルモーダルのコントラスト学習の違いを理解するための理論的基盤を導入する。
マルチモーダル・シングルモーダル・コントラッシブ・ラーニングの下流タスクにおける一般化に影響を及ぼす臨界因子,すなわち信号対雑音比(SNR)を同定する。
我々の分析は、単一モードと多モードのコントラスト学習の最適化と一般化を特徴付ける統一的なフレームワークを提供する。
論文 参考訳(メタデータ) (2024-11-05T06:21:17Z) - Revealing Multimodal Contrastive Representation Learning through Latent
Partial Causal Models [85.67870425656368]
マルチモーダルデータに特化して設計された統一因果モデルを提案する。
マルチモーダル・コントラスト表現学習は潜在結合変数の同定に優れていることを示す。
実験では、仮定が破られたとしても、我々の発見の堅牢性を示す。
論文 参考訳(メタデータ) (2024-02-09T07:18:06Z) - Concept Learning for Interpretable Multi-Agent Reinforcement Learning [5.179808182296037]
本稿では,ドメインエキスパートからの解釈可能な概念を,マルチエージェント強化学習を通じて学習したモデルに組み込む手法を提案する。
これにより、専門家は、結果のコンセプトモデルについて、これらのハイレベルな概念を実行時に推論するだけでなく、パフォーマンスを改善するために介入し、正しい予測を行うことができる。
シミュレーションおよび実世界の協調競争型マルチエージェントゲームにおいて,政策性能とサンプル効率の利点を生かし,解釈可能性とトレーニング安定性の向上を図っている。
論文 参考訳(メタデータ) (2023-02-23T18:53:09Z) - Synergies between Disentanglement and Sparsity: Generalization and
Identifiability in Multi-Task Learning [79.83792914684985]
我々は,最大スパース基底予測器が不整合表現をもたらす条件を提供する新しい識別可能性の結果を証明した。
この理論的な結果から,両レベル最適化問題に基づくアンタングル表現学習の実践的アプローチを提案する。
論文 参考訳(メタデータ) (2022-11-26T21:02:09Z) - Contrastive Learning for Fair Representations [50.95604482330149]
訓練された分類モデルは、意図せずバイアスのある表現や予測につながる可能性がある。
対戦訓練のような既存の分類モデルのデバイアス化手法は、訓練に高価であり、最適化が困難であることが多い。
比較学習を取り入れたバイアス軽減手法を提案し、同じクラスラベルを共有するインスタンスに類似した表現を推奨する。
論文 参考訳(メタデータ) (2021-09-22T10:47:51Z) - Video Prediction via Example Guidance [156.08546987158616]
ビデオ予測タスクでは、将来のコンテンツとダイナミクスのマルチモーダルな性質を捉えることが大きな課題である。
本研究では,有効な将来状態の予測を効果的に行うための,シンプルで効果的なフレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-03T14:57:24Z) - Learning Diverse Representations for Fast Adaptation to Distribution
Shift [78.83747601814669]
本稿では,複数のモデルを学習する手法を提案する。
分散シフトへの迅速な適応を促進するフレームワークの能力を実証する。
論文 参考訳(メタデータ) (2020-06-12T12:23:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。