論文の概要: Simpler, Faster, Stronger: Breaking The log-K Curse On Contrastive
Learners With FlatNCE
- arxiv url: http://arxiv.org/abs/2107.01152v1
- Date: Fri, 2 Jul 2021 15:50:43 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-05 15:40:50.358675
- Title: Simpler, Faster, Stronger: Breaking The log-K Curse On Contrastive
Learners With FlatNCE
- Title(参考訳): シンプルで、速く、より強く: 対照的な学習者に対して、log-kの呪いを破る
- Authors: Junya Chen, Zhe Gan, Xuan Li, Qing Guo, Liqun Chen, Shuyang Gao,
Tagyoung Chung, Yi Xu, Belinda Zeng, Wenlian Lu, Fan Li, Lawrence Carin,
Chenyang Tao
- Abstract要約: 比較学習者が小さいバッチサイズで失敗する理由を数学的に明らかにする。
この問題を解決するために,FlatNCEという新たな非ネイティブコントラスト目標を提案する。
- 参考スコア(独自算出の注目度): 104.37515476361405
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: InfoNCE-based contrastive representation learners, such as SimCLR, have been
tremendously successful in recent years. However, these contrastive schemes are
notoriously resource demanding, as their effectiveness breaks down with
small-batch training (i.e., the log-K curse, whereas K is the batch-size). In
this work, we reveal mathematically why contrastive learners fail in the
small-batch-size regime, and present a novel simple, non-trivial contrastive
objective named FlatNCE, which fixes this issue. Unlike InfoNCE, our FlatNCE no
longer explicitly appeals to a discriminative classification goal for
contrastive learning. Theoretically, we show FlatNCE is the mathematical dual
formulation of InfoNCE, thus bridging the classical literature on energy
modeling; and empirically, we demonstrate that, with minimal modification of
code, FlatNCE enables immediate performance boost independent of the
subject-matter engineering efforts. The significance of this work is furthered
by the powerful generalization of contrastive learning techniques, and the
introduction of new tools to monitor and diagnose contrastive training. We
substantiate our claims with empirical evidence on CIFAR10, ImageNet, and other
datasets, where FlatNCE consistently outperforms InfoNCE.
- Abstract(参考訳): InfoNCEベースのコントラスト表現学習者(SimCLRなど)は近年大きく成功している。
しかしながら、これらの対照的なスキームは、その効果が小さなバッチトレーニング(例えば、log-Kの呪い、Kはバッチサイズ)によって破壊されるため、リソース要求で悪名高い。
本研究は,小さなバッチサイズでは,コントラスト学習者が失敗する理由を数学的に明らかにし,この問題を解決した,単純で非自明なコントラスト目標flatnceを提案する。
InfoNCEとは異なり、FlatNCEはもはや、対照的な学習のための差別的な分類目標に明示的にアピールしていません。
理論的には、フラットスはインフォンスの数学的双対な定式化であり、したがってエネルギーモデリングに関する古典文学を橋渡ししていることを示している。
この研究の意義は、コントラスト学習技術の強力な一般化と、コントラスト学習の監視と診断のための新しいツールの導入によってもたらされる。
CIFAR10、ImageNet、その他のデータセットに関する実証的な証拠で、私たちの主張を裏付けます。
関連論文リスト
- CLOSER: Towards Better Representation Learning for Few-Shot Class-Incremental Learning [52.63674911541416]
FSCIL(Few-shot class-incremental Learning)は、過剰適合や忘れなど、いくつかの課題に直面している。
FSCILの独特な課題に取り組むため、ベースクラスでの表現学習に重点を置いている。
より制限された機能空間内で機能の拡散を確保することで、学習された表現が、伝達可能性と識別可能性のバランスを良くすることが可能になることが分かりました。
論文 参考訳(メタデータ) (2024-10-08T02:23:16Z) - Investigating the Pre-Training Dynamics of In-Context Learning: Task Recognition vs. Task Learning [99.05401042153214]
In-context Learning(ICL)は、タスク認識(TR)とタスク学習(TL)の2つの主要な能力に起因する可能性がある。
ICLの出現の事前学習のダイナミクスを調べることで、第一歩を踏み出す。
そこで本研究では,この2つの機能を推論時によりよく統合するための,シンプルで効果的な手法を提案する。
論文 参考訳(メタデータ) (2024-06-20T06:37:47Z) - BECLR: Batch Enhanced Contrastive Few-Shot Learning [1.450405446885067]
教師なしの少数ショット学習は、トレーニング時にアノテーションへの依存を捨てることで、このギャップを埋めようとしている。
本稿では,高度に分離可能な潜在表現空間を促進するために,新しい動的クラスタ mEmory (DyCE) モジュールを提案する。
そして、数ショットの推論段階でサンプルバイアスの問題に取り組みます。
論文 参考訳(メタデータ) (2024-02-04T10:52:43Z) - Unbiased and Efficient Self-Supervised Incremental Contrastive Learning [31.763904668737304]
本稿では,新たなIncremental InfoNCE(NCE-II)損失関数からなる自己教師型Incremental Contrastive Learning(ICL)フレームワークを提案する。
ICLは最大16.7倍のトレーニングスピードアップと16.8倍の高速収束を実現している。
論文 参考訳(メタデータ) (2023-01-28T06:11:31Z) - Mitigating Forgetting in Online Continual Learning via Contrasting
Semantically Distinct Augmentations [22.289830907729705]
オンライン連続学習(OCL)は、非定常データストリームからモデル学習を可能とし、新たな知識を継続的に獲得し、学習した知識を維持することを目的としている。
主な課題は、"破滅的な忘れる"問題、すなわち、新しい知識を学習しながら学習した知識を十分に記憶できないことにある。
論文 参考訳(メタデータ) (2022-11-10T05:29:43Z) - Integrating Prior Knowledge in Contrastive Learning with Kernel [4.050766659420731]
我々は、カーネル理論を用いて、(i)事前知識の統合を可能にし、(i)元のInfoNCE損失における負の正の結合を取り除くという、分離均一性(decoupled uniformity)と呼ばれる新しい損失を提案する。
教師なしの環境では、CLは自然画像と医用画像の両方で表現を改善するために生成モデルから恩恵を受けることを実証的に実証する。
論文 参考訳(メタデータ) (2022-06-03T15:43:08Z) - A Low Rank Promoting Prior for Unsupervised Contrastive Learning [108.91406719395417]
提案手法は,従来の低階の促進をコントラスト学習の枠組みに効果的に組み込む新しい確率的グラフィカルモデルを構築する。
我々の仮説は、同じインスタンスクラスに属するすべてのサンプルが、小さな次元の同じ部分空間上にあることを明示的に要求する。
実証的な証拠は、提案アルゴリズムが複数のベンチマークにおける最先端のアプローチを明らかに上回っていることを示している。
論文 参考訳(メタデータ) (2021-08-05T15:58:25Z) - Heterogeneous Contrastive Learning: Encoding Spatial Information for
Compact Visual Representations [183.03278932562438]
本稿では,エンコーディング段階に空間情報を加えることで,対照的な目的と強いデータ拡張操作の間の学習の不整合を緩和する効果的な手法を提案する。
提案手法は,視覚表現の効率を向上し,自己指導型視覚表現学習の今後の研究を刺激する鍵となるメッセージを提供する。
論文 参考訳(メタデータ) (2020-11-19T16:26:25Z) - MixKD: Towards Efficient Distillation of Large-scale Language Models [129.73786264834894]
データに依存しない蒸留フレームワークであるMixKDを提案する。
妥当な条件下では、MixKDは誤差と経験的誤差の間のギャップを小さくする。
限定的なデータ設定とアブレーションによる実験は、提案手法の利点をさらに証明している。
論文 参考訳(メタデータ) (2020-11-01T18:47:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。