論文の概要: Weighted Point Cloud Embedding for Multimodal Contrastive Learning Toward Optimal Similarity Metric
- arxiv url: http://arxiv.org/abs/2404.19228v2
- Date: Thu, 10 Oct 2024 03:01:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-11 14:28:06.425496
- Title: Weighted Point Cloud Embedding for Multimodal Contrastive Learning Toward Optimal Similarity Metric
- Title(参考訳): 最適類似度尺度に向けたマルチモーダルコントラスト学習のための重み付き点雲埋め込み
- Authors: Toshimitsu Uesaka, Taiji Suzuki, Yuhta Takida, Chieh-Hsin Lai, Naoki Murata, Yuki Mitsufuji,
- Abstract要約: 提案手法の利点は,CLIPの相対的損失に対する新たな理解を通じて示される。
重み付き点雲に基づく提案した類似性は、常に最適類似性を達成することを示す。
- 参考スコア(独自算出の注目度): 44.95433989446052
- License:
- Abstract: In typical multimodal contrastive learning, such as CLIP, encoders produce one point in the latent representation space for each input. However, one-point representation has difficulty in capturing the relationship and the similarity structure of a huge amount of instances in the real world. For richer classes of the similarity, we propose the use of weighted point clouds, namely, sets of pairs of weight and vector, as representations of instances. In this work, we theoretically show the benefit of our proposed method through a new understanding of the contrastive loss of CLIP, which we call symmetric InfoNCE. We clarify that the optimal similarity that minimizes symmetric InfoNCE is the pointwise mutual information, and show an upper bound of excess risk on downstream classification tasks of representations that achieve the optimal similarity. In addition, we show that our proposed similarity based on weighted point clouds consistently achieves the optimal similarity. To verify the effectiveness of our proposed method, we demonstrate pretraining of text-image representation models and classification tasks on common benchmarks.
- Abstract(参考訳): CLIPのような典型的なマルチモーダルコントラスト学習では、エンコーダは各入力に対して潜在表現空間の1点を生成する。
しかし、一点表現は実世界の膨大なインスタンスの関係と類似性構造を捉えるのに困難である。
類似性のよりリッチなクラスに対しては、重み付き点雲、すなわち重みとベクトルの対の集合をインスタンスの表現として用いることを提案する。
本稿では,提案手法の利点を,対称InfoNCEと呼ばれるCLIPの対照的な損失に対する新たな理解を通じて理論的に示す。
我々は、対称InfoNCEを最小化する最適類似性がポイントワイドな相互情報であることを明らかにし、最適な類似性を実現する表現の下流分類タスクに過剰なリスクの上限を示す。
さらに、重み付き点雲に基づく提案した類似性は、常に最適類似性を達成することを示す。
提案手法の有効性を検証するために,テキスト画像表現モデルと共通ベンチマークを用いた分類タスクの事前学習を行った。
関連論文リスト
- The Double-Ellipsoid Geometry of CLIP [4.013156524547072]
対照的に、CLIP(Contrastive Language- Image Pre-Training)は機械学習アプリケーションにおいて非常に有効である。
テキストと画像は, 原点中心ではなく, 線形分離可能な楕円体殻上に存在することを示す。
インスタンスの任意の他のインスタンスに対する平均コサイン類似度を測定する、新しい整合性の概念が導入された。
論文 参考訳(メタデータ) (2024-11-21T16:27:22Z) - Efficient Fairness-Performance Pareto Front Computation [51.558848491038916]
最適公正表現はいくつかの有用な構造特性を持つことを示す。
そこで,これらの近似問題は,凹凸プログラミング法により効率的に解けることを示す。
論文 参考訳(メタデータ) (2024-09-26T08:46:48Z) - CLIP Adaptation by Intra-modal Overlap Reduction [1.2277343096128712]
画像空間におけるモーダル内重なりを埋め込み表現の観点から解析する。
Google Open Imagesデータセットからサンプルのジェネリックセットに軽量アダプタをトレーニングします。
論文 参考訳(メタデータ) (2024-09-17T16:40:58Z) - Asymmetric Patch Sampling for Contrastive Learning [17.922853312470398]
正対間の非対称な出現は、対照的な学習における表現劣化のリスクを効果的に減少させる。
比較学習のための新しい非対称なパッチサンプリング戦略を提案し、より良い表現のために外見非対称性を高める。
論文 参考訳(メタデータ) (2023-06-05T13:10:48Z) - Correlation between Alignment-Uniformity and Performance of Dense
Contrastive Representations [11.266613717084788]
我々は,標準CNNと簡単な特徴マッチング方式を用いて,高密度コントラスト学習の理論的アイデアを分析する。
正の高密度な特徴のペアを構築する際の基本原理を発見し、その妥当性を実証的に証明した。
また、アライメント・アンド・ユニフォーム性と下流性能の相関関係を要約した新しいスカラー計量を導入する。
論文 参考訳(メタデータ) (2022-10-17T08:08:37Z) - Attributable Visual Similarity Learning [90.69718495533144]
本稿では、画像間のより正確で説明可能な類似度測定のための帰属的視覚類似度学習(AVSL)フレームワークを提案する。
人間の意味的類似性認知に動機づけられた2つの画像とグラフとの類似性を表現するために,一般化された類似性学習パラダイムを提案する。
CUB-200-2011、Cars196、Stanford Online Productsデータセットの実験は、既存の深い類似性学習方法よりも大幅に改善されたことを示している。
論文 参考訳(メタデータ) (2022-03-28T17:35:31Z) - Graph Contrastive Clustering [131.67881457114316]
本稿では,クラスタリングタスクに適用可能な新しいグラフコントラスト学習フレームワークを提案し,gcc(graph constrastive clustering)法を考案した。
特に、グラフラプラシアンに基づくコントラスト損失は、より識別的かつクラスタリングフレンドリーな特徴を学ぶために提案されている。
一方で、よりコンパクトなクラスタリング割り当てを学ぶために、グラフベースのコントラスト学習戦略が提案されている。
論文 参考訳(メタデータ) (2021-04-03T15:32:49Z) - Beyond Single Instance Multi-view Unsupervised Representation Learning [21.449132256091662]
ランダムにサンプリングされた2つのインスタンス間の結合類似度を測定することにより、より正確なインスタンス識別能力を付与する。
符号化された特徴が潜伏した空間でより均等に分散される場合,共同学習の類似性によって性能が向上すると考えている。
論文 参考訳(メタデータ) (2020-11-26T15:43:27Z) - Uncertainty-Aware Few-Shot Image Classification [118.72423376789062]
ラベル付き限られたデータから新しいカテゴリを認識できる画像分類はほとんどない。
画像分類のための不確実性を考慮したFew-Shotフレームワークを提案する。
論文 参考訳(メタデータ) (2020-10-09T12:26:27Z) - Unsupervised Learning of Visual Features by Contrasting Cluster
Assignments [57.33699905852397]
ペア比較の計算を必要とせず,コントラスト的手法を生かしたオンラインアルゴリズムSwaVを提案する。
本手法では,クラスタ割り当て間の一貫性を保ちながら,同時にデータをクラスタ化する。
我々の方法は大規模で小さなバッチで訓練でき、無制限のデータにスケールできる。
論文 参考訳(メタデータ) (2020-06-17T14:00:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。