論文の概要: Understanding Multimodal Contrastive Learning Through Pointwise Mutual Information
- arxiv url: http://arxiv.org/abs/2404.19228v1
- Date: Tue, 30 Apr 2024 03:15:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-01 15:33:46.348501
- Title: Understanding Multimodal Contrastive Learning Through Pointwise Mutual Information
- Title(参考訳): ポイントワイド相互情報によるマルチモーダルコントラスト学習の理解
- Authors: Toshimitsu Uesaka, Taiji Suzuki, Yuhta Takida, Chieh-Hsin Lai, Naoki Murata, Yuki Mitsufuji,
- Abstract要約: 事前学習において最適な類似性を実現するエンコーダは、軽度の仮定の下で下流の分類タスクに良い表現を提供することを示す。
また,非線形カーネルを用いたマルチモーダルコントラスト学習のための新しい類似度指標を提案する。
- 参考スコア(独自算出の注目度): 44.95433989446052
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal representation learning to integrate different modalities, such as text, vision, and audio is important for real-world applications. The symmetric InfoNCE loss proposed in CLIP is a key concept in multimodal representation learning. In this work, we provide a theoretical understanding of the symmetric InfoNCE loss through the lens of the pointwise mutual information and show that encoders that achieve the optimal similarity in the pretraining provide a good representation for downstream classification tasks under mild assumptions. Based on our theoretical results, we also propose a new similarity metric for multimodal contrastive learning by utilizing a nonlinear kernel to enrich the capability. To verify the effectiveness of the proposed method, we demonstrate pretraining of multimodal representation models on the Conceptual Caption datasets and evaluate zero-shot classification and linear classification on common benchmark datasets.
- Abstract(参考訳): マルチモーダル表現学習は、テキスト、ビジョン、オーディオなどの様々なモダリティを統合することが、現実世界のアプリケーションにとって重要である。
CLIPで提案される対称InfoNCE損失は、マルチモーダル表現学習における鍵となる概念である。
本研究では,ポイントワイドな相互情報のレンズを通して対称なInfoNCE損失を理論的に理解し,事前学習において最適な類似性を実現するエンコーダが,軽度な仮定の下での下流分類タスクに優れた表現を提供することを示す。
また,理論的な結果に基づいて,非線形カーネルを用いたマルチモーダルコントラスト学習のための新しい類似度指標を提案する。
提案手法の有効性を検証するため,概念キャプションデータセット上でのマルチモーダル表現モデルの事前学習と,共通ベンチマークデータセットにおけるゼロショット分類と線形分類の評価を行った。
関連論文リスト
- The Double-Ellipsoid Geometry of CLIP [4.013156524547072]
対照的に、CLIP(Contrastive Language- Image Pre-Training)は機械学習アプリケーションにおいて非常に有効である。
テキストと画像は, 原点中心ではなく, 線形分離可能な楕円体殻上に存在することを示す。
インスタンスの任意の他のインスタンスに対する平均コサイン類似度を測定する、新しい整合性の概念が導入された。
論文 参考訳(メタデータ) (2024-11-21T16:27:22Z) - Efficient Fairness-Performance Pareto Front Computation [51.558848491038916]
最適公正表現はいくつかの有用な構造特性を持つことを示す。
そこで,これらの近似問題は,凹凸プログラミング法により効率的に解けることを示す。
論文 参考訳(メタデータ) (2024-09-26T08:46:48Z) - CLIP Adaptation by Intra-modal Overlap Reduction [1.2277343096128712]
画像空間におけるモーダル内重なりを埋め込み表現の観点から解析する。
Google Open Imagesデータセットからサンプルのジェネリックセットに軽量アダプタをトレーニングします。
論文 参考訳(メタデータ) (2024-09-17T16:40:58Z) - Tracing Representation Progression: Analyzing and Enhancing Layer-Wise Similarity [20.17288970927518]
本研究では,各変圧器の隠蔽層間の表現の類似性について検討する。
層間の表現が正の相関を示し、層が近づくと類似度が増加する。
浅い層の有効性を向上させるためのアライメント・トレーニング手法を提案する。
論文 参考訳(メタデータ) (2024-06-20T16:41:09Z) - Asymmetric Patch Sampling for Contrastive Learning [17.922853312470398]
正対間の非対称な出現は、対照的な学習における表現劣化のリスクを効果的に減少させる。
比較学習のための新しい非対称なパッチサンプリング戦略を提案し、より良い表現のために外見非対称性を高める。
論文 参考訳(メタデータ) (2023-06-05T13:10:48Z) - Attributable Visual Similarity Learning [90.69718495533144]
本稿では、画像間のより正確で説明可能な類似度測定のための帰属的視覚類似度学習(AVSL)フレームワークを提案する。
人間の意味的類似性認知に動機づけられた2つの画像とグラフとの類似性を表現するために,一般化された類似性学習パラダイムを提案する。
CUB-200-2011、Cars196、Stanford Online Productsデータセットの実験は、既存の深い類似性学習方法よりも大幅に改善されたことを示している。
論文 参考訳(メタデータ) (2022-03-28T17:35:31Z) - Graph Contrastive Clustering [131.67881457114316]
本稿では,クラスタリングタスクに適用可能な新しいグラフコントラスト学習フレームワークを提案し,gcc(graph constrastive clustering)法を考案した。
特に、グラフラプラシアンに基づくコントラスト損失は、より識別的かつクラスタリングフレンドリーな特徴を学ぶために提案されている。
一方で、よりコンパクトなクラスタリング割り当てを学ぶために、グラフベースのコントラスト学習戦略が提案されている。
論文 参考訳(メタデータ) (2021-04-03T15:32:49Z) - Beyond Single Instance Multi-view Unsupervised Representation Learning [21.449132256091662]
ランダムにサンプリングされた2つのインスタンス間の結合類似度を測定することにより、より正確なインスタンス識別能力を付与する。
符号化された特徴が潜伏した空間でより均等に分散される場合,共同学習の類似性によって性能が向上すると考えている。
論文 参考訳(メタデータ) (2020-11-26T15:43:27Z) - Uncertainty-Aware Few-Shot Image Classification [118.72423376789062]
ラベル付き限られたデータから新しいカテゴリを認識できる画像分類はほとんどない。
画像分類のための不確実性を考慮したFew-Shotフレームワークを提案する。
論文 参考訳(メタデータ) (2020-10-09T12:26:27Z) - Unsupervised Learning of Visual Features by Contrasting Cluster
Assignments [57.33699905852397]
ペア比較の計算を必要とせず,コントラスト的手法を生かしたオンラインアルゴリズムSwaVを提案する。
本手法では,クラスタ割り当て間の一貫性を保ちながら,同時にデータをクラスタ化する。
我々の方法は大規模で小さなバッチで訓練でき、無制限のデータにスケールできる。
論文 参考訳(メタデータ) (2020-06-17T14:00:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。