論文の概要: $\mathbb{X}$-Sample Contrastive Loss: Improving Contrastive Learning with Sample Similarity Graphs
- arxiv url: http://arxiv.org/abs/2407.18134v1
- Date: Thu, 25 Jul 2024 15:38:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-26 13:29:21.041805
- Title: $\mathbb{X}$-Sample Contrastive Loss: Improving Contrastive Learning with Sample Similarity Graphs
- Title(参考訳): $\mathbb{X}$-Sample Contrastive Loss: サンプル類似グラフによるコントラスト学習の改善
- Authors: Vlad Sobal, Mark Ibrahim, Randall Balestriero, Vivien Cabannes, Diane Bouchacourt, Pietro Astolfi, Kyunghyun Cho, Yann LeCun,
- Abstract要約: サンプルが他者とどのように関連しているかを符号化する目的を開発する。
クラスやテキストのキャプション記述における類似性に基づいて視覚モデルを訓練する。
我々の目標は、特に低いデータ体制でうまく機能しているようで、CLIPが16.8%、ImageNet Realが18.1%だった。
- 参考スコア(独自算出の注目度): 62.565573316667276
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning good representations involves capturing the diverse ways in which data samples relate. Contrastive loss - an objective matching related samples - underlies methods from self-supervised to multimodal learning. Contrastive losses, however, can be viewed more broadly as modifying a similarity graph to indicate how samples should relate in the embedding space. This view reveals a shortcoming in contrastive learning: the similarity graph is binary, as only one sample is the related positive sample. Crucially, similarities \textit{across} samples are ignored. Based on this observation, we revise the standard contrastive loss to explicitly encode how a sample relates to others. We experiment with this new objective, called $\mathbb{X}$-Sample Contrastive, to train vision models based on similarities in class or text caption descriptions. Our study spans three scales: ImageNet-1k with 1 million, CC3M with 3 million, and CC12M with 12 million samples. The representations learned via our objective outperform both contrastive self-supervised and vision-language models trained on the same data across a range of tasks. When training on CC12M, we outperform CLIP by $0.6\%$ on both ImageNet and ImageNet Real. Our objective appears to work particularly well in lower-data regimes, with gains over CLIP of $16.8\%$ on ImageNet and $18.1\%$ on ImageNet Real when training with CC3M. Finally, our objective seems to encourage the model to learn representations that separate objects from their attributes and backgrounds, with gains of $3.3$-$5.6$\% over CLIP on ImageNet9. We hope the proposed solution takes a small step towards developing richer learning objectives for understanding sample relations in foundation models.
- Abstract(参考訳): 優れた表現を学ぶには、データサンプルが関係するさまざまな方法を取得する必要がある。
コントラスト損失(Contrastive Los) - 自己管理からマルチモーダル学習への手法を、客観的にマッチングするサンプル。
しかし、対照的な損失は、サンプルが埋め込み空間にどのように関係するかを示す類似性グラフを変更するものとして、より広範に見ることができる。
この見解は対照的な学習の欠点を明らかにしている:類似性グラフは二項であり、1つのサンプルのみが関連する正のサンプルであるからである。
重要な点として、類似性 \textit{across} サンプルは無視される。
この観察に基づいて、サンプルが他とどのように関連しているかを明示的に符号化するために、標準のコントラスト損失を補正する。
我々はこの新たな目的である$\mathbb{X}$-Sample Contrastiveを試行し、クラスやテキストキャプションの記述の類似性に基づいて視覚モデルを訓練する。
ImageNet-1kは100万、CC3Mは300万、CC12Mは1200万である。
目的によって学習された表現は、さまざまなタスクで同じデータで訓練された対照的な自己監督モデルと視覚言語モデルの両方より優れています。
CC12Mでのトレーニングでは、ImageNetとImageNet Realの両方でCLIPを$0.6\%で上回ります。
CC3Mでトレーニングすると、ImageNetでCLIPが$16.8\%、ImageNet Realで$18.1\%だった。
最後に、私たちの目標は、モデルが属性や背景からオブジェクトを分離する表現を学ぶことを奨励しているように思える。
提案手法は,基礎モデルにおけるサンプル関係を理解するために,よりリッチな学習目標の開発に向けて,少しの一歩を踏み出したいと願っている。
関連論文リスト
- LeOCLR: Leveraging Original Images for Contrastive Learning of Visual Representations [4.680881326162484]
画像分類やオブジェクト検出などの下流タスクにおける教師あり学習よりも優れている。
対照的な学習における一般的な強化手法は、ランダムな収穫とそれに続くリサイズである。
本稿では,新しいインスタンス識別手法と適応型損失関数を用いたフレームワークであるLeOCLRを紹介する。
論文 参考訳(メタデータ) (2024-03-11T15:33:32Z) - MOCA: Self-supervised Representation Learning by Predicting Masked Online Codebook Assignments [72.6405488990753]
自己教師付き学習は、ビジョントランスフォーマーネットワークの欲求を軽減できる。
所望のプロパティを統一する単段および単段のMOCAを提案する。
我々は,様々な評価プロトコルにおいて,低照度設定と強力な実験結果に対して,最先端の新たな結果を得る。
論文 参考訳(メタデータ) (2023-07-18T15:46:20Z) - Semantic Positive Pairs for Enhancing Visual Representation Learning of Instance Discrimination methods [4.680881326162484]
インスタンス識別に基づく自己教師付き学習アルゴリズム(SSL)は有望な結果を示している。
類似したセマンティックコンテンツを用いてそれらの画像を識別し、肯定的な例として扱うアプローチを提案する。
我々は、ImageNet、STL-10、CIFAR-10の3つのベンチマークデータセットで、異なるインスタンス識別SSLアプローチで実験を行った。
論文 参考訳(メタデータ) (2023-06-28T11:47:08Z) - MSVQ: Self-Supervised Learning with Multiple Sample Views and Queues [10.327408694770709]
我々は、新しいシンプルなフレームワーク、すなわちMultiple Sample Views and Queues(MSVQ)を提案する。
2つの相補的および対称的アプローチを利用して3つのソフトラベルをオンザフライで共同構築する。
学生ネットワークは、サンプル間の類似性関係を模倣するので、学生ネットワークはデータセット内の偽陰性サンプルをより柔軟に識別できる。
論文 参考訳(メタデータ) (2023-05-09T12:05:14Z) - Weakly Supervised Contrastive Learning [68.47096022526927]
この問題に対処するために,弱教師付きコントラスト学習フレームワーク(WCL)を導入する。
WCLはResNet50を使用して65%と72%のImageNet Top-1の精度を実現している。
論文 参考訳(メタデータ) (2021-10-10T12:03:52Z) - Bag of Instances Aggregation Boosts Self-supervised Learning [122.61914701794296]
教師なし学習のための簡易かつ効果的な蒸留戦略を提案する。
BINGOと呼ばれる本手法は,教師が学習した関係を学生に伝達することを目的としている。
BINGOは、小規模モデルにおける最先端の新たなパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-07-04T17:33:59Z) - Doubly Contrastive Deep Clustering [135.7001508427597]
本稿では、サンプルビューとクラスビューの両方でコントラスト損失を構築する新しい二重コントラストディープクラスタリング(DCDC)フレームワークを紹介します。
具体的には、サンプルビューに対して、元のサンプルとその拡張バージョンのクラス分布を正のサンプルペアとして設定する。
クラスビューでは、クラスのサンプル分布から正のペアと負のペアを構築します。
このように、2つのコントラスト損失は、サンプルとクラスレベルでのミニバッチサンプルのクラスタリング結果をうまく制限します。
論文 参考訳(メタデータ) (2021-03-09T15:15:32Z) - Un-Mix: Rethinking Image Mixtures for Unsupervised Visual Representation
Learning [108.999497144296]
近年の先進的な教師なし学習手法では,同じ画像から2つの「ビュー」を学習表現として比較するために,サイムズ様の枠組みを用いている。
この研究は、教師なし学習においてラベル空間上の距離の概念を巻き込み、正対と負対のソフトな類似度をモデルに認識させることを目的としている。
その概念的単純さにもかかわらず、この解 -- 教師なし画像混合(Un-Mix)により、変換された入力と対応する新しいラベル空間からより微妙でより堅牢で一般化された表現を学習できることを実証的に示す。
論文 参考訳(メタデータ) (2020-03-11T17:59:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。