論文の概要: Understanding Multimodal Contrastive Learning Through Pointwise Mutual Information
- arxiv url: http://arxiv.org/abs/2404.19228v1
- Date: Tue, 30 Apr 2024 03:15:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-05-01 15:33:46.348501
- Title: Understanding Multimodal Contrastive Learning Through Pointwise Mutual Information
- Title(参考訳): ポイントワイド相互情報によるマルチモーダルコントラスト学習の理解
- Authors: Toshimitsu Uesaka, Taiji Suzuki, Yuhta Takida, Chieh-Hsin Lai, Naoki Murata, Yuki Mitsufuji,
- Abstract要約: 事前学習において最適な類似性を実現するエンコーダは、軽度の仮定の下で下流の分類タスクに良い表現を提供することを示す。
また,非線形カーネルを用いたマルチモーダルコントラスト学習のための新しい類似度指標を提案する。
- 参考スコア(独自算出の注目度): 44.95433989446052
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal representation learning to integrate different modalities, such as text, vision, and audio is important for real-world applications. The symmetric InfoNCE loss proposed in CLIP is a key concept in multimodal representation learning. In this work, we provide a theoretical understanding of the symmetric InfoNCE loss through the lens of the pointwise mutual information and show that encoders that achieve the optimal similarity in the pretraining provide a good representation for downstream classification tasks under mild assumptions. Based on our theoretical results, we also propose a new similarity metric for multimodal contrastive learning by utilizing a nonlinear kernel to enrich the capability. To verify the effectiveness of the proposed method, we demonstrate pretraining of multimodal representation models on the Conceptual Caption datasets and evaluate zero-shot classification and linear classification on common benchmark datasets.
- Abstract(参考訳): マルチモーダル表現学習は、テキスト、ビジョン、オーディオなどの様々なモダリティを統合することが、現実世界のアプリケーションにとって重要である。
CLIPで提案される対称InfoNCE損失は、マルチモーダル表現学習における鍵となる概念である。
本研究では,ポイントワイドな相互情報のレンズを通して対称なInfoNCE損失を理論的に理解し,事前学習において最適な類似性を実現するエンコーダが,軽度な仮定の下での下流分類タスクに優れた表現を提供することを示す。
また,理論的な結果に基づいて,非線形カーネルを用いたマルチモーダルコントラスト学習のための新しい類似度指標を提案する。
提案手法の有効性を検証するため,概念キャプションデータセット上でのマルチモーダル表現モデルの事前学習と,共通ベンチマークデータセットにおけるゼロショット分類と線形分類の評価を行った。
関連論文リスト
- The Double-Ellipsoid Geometry of CLIP [4.013156524547072]
対照的に、CLIP(Contrastive Language- Image Pre-Training)は機械学習アプリケーションにおいて非常に有効である。
テキストと画像は, 原点中心ではなく, 線形分離可能な楕円体殻上に存在することを示す。
インスタンスの任意の他のインスタンスに対する平均コサイン類似度を測定する、新しい整合性の概念が導入された。
論文 参考訳(メタデータ) (2024-11-21T16:27:22Z) - Efficient Fairness-Performance Pareto Front Computation [51.558848491038916]
最適公正表現はいくつかの有用な構造特性を持つことを示す。
そこで,これらの近似問題は,凹凸プログラミング法により効率的に解けることを示す。
論文 参考訳(メタデータ) (2024-09-26T08:46:48Z) - CLIP Adaptation by Intra-modal Overlap Reduction [1.2277343096128712]
画像空間におけるモーダル内重なりを埋め込み表現の観点から解析する。
Google Open Imagesデータセットからサンプルのジェネリックセットに軽量アダプタをトレーニングします。
論文 参考訳(メタデータ) (2024-09-17T16:40:58Z) - Unifying Feature and Cost Aggregation with Transformers for Semantic and Visual Correspondence [51.54175067684008]
本稿では,高密度マッチングタスク用に設計されたTransformerベースの積分機能とコスト集約ネットワークを提案する。
まず, 特徴集約とコスト集約が異なる特徴を示し, 双方の集約プロセスの司法的利用から生じる実質的な利益の可能性を明らかにした。
本フレームワークは意味マッチングのための標準ベンチマークで評価され,また幾何マッチングにも適用された。
論文 参考訳(メタデータ) (2024-03-17T07:02:55Z) - Asymmetric Patch Sampling for Contrastive Learning [17.922853312470398]
正対間の非対称な出現は、対照的な学習における表現劣化のリスクを効果的に減少させる。
比較学習のための新しい非対称なパッチサンプリング戦略を提案し、より良い表現のために外見非対称性を高める。
論文 参考訳(メタデータ) (2023-06-05T13:10:48Z) - Counting Like Human: Anthropoid Crowd Counting on Modeling the
Similarity of Objects [92.80955339180119]
メインストリームの群衆計数法は 密度マップを補強して 計数結果を得るために統合する。
これに触発された我々は,合理的かつ人為的な集団カウントフレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-02T07:00:53Z) - Correlation between Alignment-Uniformity and Performance of Dense
Contrastive Representations [11.266613717084788]
我々は,標準CNNと簡単な特徴マッチング方式を用いて,高密度コントラスト学習の理論的アイデアを分析する。
正の高密度な特徴のペアを構築する際の基本原理を発見し、その妥当性を実証的に証明した。
また、アライメント・アンド・ユニフォーム性と下流性能の相関関係を要約した新しいスカラー計量を導入する。
論文 参考訳(メタデータ) (2022-10-17T08:08:37Z) - Attributable Visual Similarity Learning [90.69718495533144]
本稿では、画像間のより正確で説明可能な類似度測定のための帰属的視覚類似度学習(AVSL)フレームワークを提案する。
人間の意味的類似性認知に動機づけられた2つの画像とグラフとの類似性を表現するために,一般化された類似性学習パラダイムを提案する。
CUB-200-2011、Cars196、Stanford Online Productsデータセットの実験は、既存の深い類似性学習方法よりも大幅に改善されたことを示している。
論文 参考訳(メタデータ) (2022-03-28T17:35:31Z) - Graph Contrastive Clustering [131.67881457114316]
本稿では,クラスタリングタスクに適用可能な新しいグラフコントラスト学習フレームワークを提案し,gcc(graph constrastive clustering)法を考案した。
特に、グラフラプラシアンに基づくコントラスト損失は、より識別的かつクラスタリングフレンドリーな特徴を学ぶために提案されている。
一方で、よりコンパクトなクラスタリング割り当てを学ぶために、グラフベースのコントラスト学習戦略が提案されている。
論文 参考訳(メタデータ) (2021-04-03T15:32:49Z) - Beyond Single Instance Multi-view Unsupervised Representation Learning [21.449132256091662]
ランダムにサンプリングされた2つのインスタンス間の結合類似度を測定することにより、より正確なインスタンス識別能力を付与する。
符号化された特徴が潜伏した空間でより均等に分散される場合,共同学習の類似性によって性能が向上すると考えている。
論文 参考訳(メタデータ) (2020-11-26T15:43:27Z) - Uncertainty-Aware Few-Shot Image Classification [118.72423376789062]
ラベル付き限られたデータから新しいカテゴリを認識できる画像分類はほとんどない。
画像分類のための不確実性を考慮したFew-Shotフレームワークを提案する。
論文 参考訳(メタデータ) (2020-10-09T12:26:27Z) - Unsupervised Learning of Visual Features by Contrasting Cluster
Assignments [57.33699905852397]
ペア比較の計算を必要とせず,コントラスト的手法を生かしたオンラインアルゴリズムSwaVを提案する。
本手法では,クラスタ割り当て間の一貫性を保ちながら,同時にデータをクラスタ化する。
我々の方法は大規模で小さなバッチで訓練でき、無制限のデータにスケールできる。
論文 参考訳(メタデータ) (2020-06-17T14:00:42Z) - An efficient manifold density estimator for all recommendation systems [3.2981402185055213]
本研究では,任意のベクトル表現を局所的類似性の性質とスムーズな確率密度を簡潔に表現する枠組みを提案する。
我々の近似表現は、固定サイズであり、単純な付加的な構成性を持つのが望ましい性質を持ち、ニューラルネットワークによる処理には特に適している。
トップkとセッションベースのレコメンデーション設定の両方にEを適用することで、ユニモーダルとマルチモーダルの両方の設定で、複数のオープンデータセットに対して、最先端の新たな結果を確立します。
論文 参考訳(メタデータ) (2020-06-02T19:20:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。