論文の概要: Bridging Mini-Batch and Asymptotic Analysis in Contrastive Learning: From InfoNCE to Kernel-Based Losses
- arxiv url: http://arxiv.org/abs/2405.18045v1
- Date: Tue, 28 May 2024 11:00:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-29 19:08:25.376826
- Title: Bridging Mini-Batch and Asymptotic Analysis in Contrastive Learning: From InfoNCE to Kernel-Based Losses
- Title(参考訳): コントラスト学習におけるミニバッチと漸近的分析:InfoNCEからカーネルベースの損失へ
- Authors: Panagiotis Koromilas, Giorgos Bouritsas, Theodoros Giannakopoulos, Mihalis Nicolaou, Yannis Panagakis,
- Abstract要約: 異なるコントラスト学習(CL)の損失は、実際には最適化されているのでしょうか?
DHEL(Decoupled Hyperspherical Energy Loss)を新たに導入する。
我々は、カーネルコントラスト学習(KCL)という別の関連するCLファミリに対して、期待される損失がバッチサイズに依存しないことの利点として、同じ結果が得られたことを示す。
- 参考スコア(独自算出の注目度): 20.273126099815517
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: What do different contrastive learning (CL) losses actually optimize for? Although multiple CL methods have demonstrated remarkable representation learning capabilities, the differences in their inner workings remain largely opaque. In this work, we analyse several CL families and prove that, under certain conditions, they admit the same minimisers when optimizing either their batch-level objectives or their expectations asymptotically. In both cases, an intimate connection with the hyperspherical energy minimisation (HEM) problem resurfaces. Drawing inspiration from this, we introduce a novel CL objective, coined Decoupled Hyperspherical Energy Loss (DHEL). DHEL simplifies the problem by decoupling the target hyperspherical energy from the alignment of positive examples while preserving the same theoretical guarantees. Going one step further, we show the same results hold for another relevant CL family, namely kernel contrastive learning (KCL), with the additional advantage of the expected loss being independent of batch size, thus identifying the minimisers in the non-asymptotic regime. Empirical results demonstrate improved downstream performance and robustness across combinations of different batch sizes and hyperparameters and reduced dimensionality collapse, on several computer vision datasets.
- Abstract(参考訳): 異なるコントラスト学習(CL)の損失は、実際何のために最適化されるのか?
複数のCL法は、顕著な表現学習能力を示しているが、内部の動作の違いはほとんど不透明である。
本研究では,いくつかのCLファミリーを分析し,ある条件下では,バッチレベルの目標や期待を漸近的に最適化する場合に,同じミニミザーが認められることを証明した。
どちらの場合も、超球面エネルギー最小化(HEM)問題との親密な関係が再浮上する。
このことから着想を得て,Decoupled Hyperspherical Energy Loss (DHEL) という新しいCL目標を導入した。
DHELは、同じ理論的保証を維持しながら、正の例のアライメントからターゲット超球面エネルギーを分離することで問題を単純化する。
さらにさらに、カーネルコントラスト学習(KCL)という別の関連CLファミリについても、期待される損失がバッチサイズに依存しないことのメリットが示され、非漸近的体制におけるミニミザーの特定が可能となった。
複数のコンピュータビジョンデータセットにおいて、異なるバッチサイズとハイパーパラメータの組み合わせによるダウンストリーム性能とロバスト性の改善と次元崩壊の低減が実証された。
関連論文リスト
- Negative-Free Self-Supervised Gaussian Embedding of Graphs [29.26519601854811]
グラフコントラスト学習(GCL)は、有望なグラフ自己教師型学習フレームワークとして登場した。
正規化された等方的ガウス関数に従って分布する点が単位超球面全体に均一に広がるという事実に着想を得た、一様性を達成するための負の目的を提案する。
提案手法は,既存のGCL法と比較して,少ないパラメータ,短いトレーニング時間,少ないメモリ消費で競合性能を実現する。
論文 参考訳(メタデータ) (2024-11-02T07:04:40Z) - ICL-TSVD: Bridging Theory and Practice in Continual Learning with Pre-trained Models [103.45785408116146]
連続学習(CL)は、連続的に提示される複数のタスクを解決できるモデルを訓練することを目的としている。
最近のCLアプローチは、ダウンストリームタスクをうまく一般化する大規模な事前学習モデルを活用することで、強力なパフォーマンスを実現している。
しかし、これらの手法には理論的保証がなく、予期せぬ失敗をしがちである。
私たちは、経験的に強いアプローチを原則化されたフレームワークに統合することで、このギャップを埋めます。
論文 参考訳(メタデータ) (2024-10-01T12:58:37Z) - Preventing Collapse in Contrastive Learning with Orthonormal Prototypes (CLOP) [0.0]
CLOPは、クラス埋め込み間の線形部分空間の形成を促進することにより、神経崩壊を防止するために設計された、新しい半教師付き損失関数である。
CLOPは性能を向上し,学習速度やバッチサイズにまたがる安定性が向上することを示す。
論文 参考訳(メタデータ) (2024-03-27T15:48:16Z) - What Makes Quantization for Large Language Models Hard? An Empirical
Study from the Lens of Perturbation [55.153595212571375]
量子化は、大規模言語モデル(LLM)のメモリと計算効率を改善する技術である。
本稿では,LLMの重みと活性化に付加される摂動として,量子化の新しい視点を提案する。
各種人工摂動実験を行い,LLMの性能への影響について検討する。
論文 参考訳(メタデータ) (2024-03-11T03:42:51Z) - Decoupled Contrastive Learning for Long-Tailed Recognition [58.255966442426484]
Supervised Contrastive Loss (SCL) は視覚表現学習で人気がある。
ロングテール認識のシナリオでは、各クラスのサンプル数が不均衡である場合、2種類の正のサンプルを同じように扱うと、カテゴリー内距離に対するバイアス最適化が導かれる。
そこで我々は,尾級の低表現を緩和するために,頭級から尾級へ知識を伝達するためのパッチベースの自己蒸留法を提案する。
論文 参考訳(メタデータ) (2024-03-10T09:46:28Z) - In-context Learning and Gradient Descent Revisited [3.085927389171139]
トレーニングされていないモデルでさえ、ICLを提示していないにもかかわらず、同等のICL-GD類似度スコアが得られることを示す。
次に、ICLとGDのモデル全体にわたる情報の流れにおける大きな相違について検討し、これをレイヤ因果性(Layer Causality)と呼ぶ。
本稿では,階層因果関係を尊重する単純なGDに基づく最適化手法を提案する。
論文 参考訳(メタデータ) (2023-11-13T21:42:38Z) - Symmetric Neural-Collapse Representations with Supervised Contrastive
Loss: The Impact of ReLU and Batching [26.994954303270575]
スーパーバイザード・コントラスト・ロス(SCL)は、分類におけるクロスエントロピー・ロスの代わりとして、競争力があり、しばしば優れた選択肢である。
従来の研究では、両方の損失がバランスデータの下で対称的なトレーニング表現をもたらすことが示されているが、この対称性はクラス不均衡の下で破れる。
最終層におけるReLU活性化の導入は,SCL学習表現の対称性を効果的に回復させる。
論文 参考訳(メタデータ) (2023-06-13T17:55:39Z) - Adversarial Contrastive Learning via Asymmetric InfoNCE [64.42740292752069]
非対称なInfoNCEの目的と対比した場合,非対称なサンプルを不等に扱うことを提案する。
非対称的な方法では、CLと対向学習の相反する目的の悪影響を効果的に軽減することができる。
実験の結果,提案手法は既存CL法より一貫して優れていることがわかった。
論文 参考訳(メタデータ) (2022-07-18T04:14:36Z) - Decoupled Contrastive Learning [23.25775900388382]
我々は,広く使用されているクロスエントロピー(InfoNCE)損失における顕著な負陽性結合(NPC)効果を同定した。
NPC効果を適切に処理することにより、非結合型コントラスト学習(DCL)目標関数に到達する。
われわれのアプローチは、200時間以内のバッチサイズ256を使用して6.9%のImageNet top-1精度を実現し、ベースラインのSimCLRを5.1%上回った。
論文 参考訳(メタデータ) (2021-10-13T16:38:43Z) - Semi-supervised Contrastive Learning with Similarity Co-calibration [72.38187308270135]
SsCL(Semi-supervised Contrastive Learning)と呼ばれる新しいトレーニング戦略を提案する。
ssclは、自己教師付き学習におけるよく知られたコントラスト損失と、半教師付き学習におけるクロスエントロピー損失を組み合わせる。
SsCLはより差別的な表現を生じさせ,ショット学習に有益であることを示す。
論文 参考訳(メタデータ) (2021-05-16T09:13:56Z) - Reparameterized Variational Divergence Minimization for Stable Imitation [57.06909373038396]
確率的発散の選択における変動が、より高性能なILOアルゴリズムをもたらす可能性について検討する。
本稿では,提案する$f$-divergence最小化フレームワークの課題を軽減するために,逆模倣学習のための再パラメータ化手法を提案する。
経験的に、我々の設計選択は、ベースラインアプローチより優れ、低次元連続制御タスクにおける専門家のパフォーマンスとより密に適合するIOOアルゴリズムを許容することを示した。
論文 参考訳(メタデータ) (2020-06-18T19:04:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。