論文の概要: Model-Aware Contrastive Learning: Towards Escaping Uniformity-Tolerance
Dilemma in Training
- arxiv url: http://arxiv.org/abs/2207.07874v1
- Date: Sat, 16 Jul 2022 08:21:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-19 17:51:16.358567
- Title: Model-Aware Contrastive Learning: Towards Escaping Uniformity-Tolerance
Dilemma in Training
- Title(参考訳): モデル対応コントラスト学習 : トレーニングにおける一様性耐性ジレンマの回避に向けて
- Authors: Zizheng Huang, Chao Zhang, Huaxiong Li, Bo Wang, Chunlin Chen
- Abstract要約: CL損失の温度 $ tau $ に関する硬度認識特性を同定し、硬質陰性試料の自動濃縮において重要な役割を担った。
従来の研究では、CL損失に一様耐性ジレンマ(UTD)が存在することが証明されており、予期せぬ性能劣化を引き起こす。
本稿では,UTD から逃れるための Model-Aware Contrastive Learning (MACL) 戦略を提案する。
- 参考スコア(独自算出の注目度): 12.818488583452718
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Instance discrimination contrastive learning (CL) has achieved significant
success in learning transferable representations. A hardness-aware property
related to the temperature $ \tau $ of the CL loss is identified to play an
essential role in automatically concentrating on hard negative samples.
However, previous work also proves that there exists a uniformity-tolerance
dilemma (UTD) in CL loss, which will lead to unexpected performance
degradation. Specifically, a smaller temperature helps to learn separable
embeddings but has less tolerance to semantically related samples, which may
result in suboptimal embedding space, and vice versa. In this paper, we propose
a Model-Aware Contrastive Learning (MACL) strategy to escape UTD. For the
undertrained phases, there is less possibility that the high similarity region
of the anchor contains latent positive samples. Thus, adopting a small
temperature in these stages can impose larger penalty strength on hard negative
samples to improve the discrimination of the CL model. In contrast, a larger
temperature in the well-trained phases helps to explore semantic structures due
to more tolerance to potential positive samples. During implementation, the
temperature in MACL is designed to be adaptive to the alignment property that
reflects the confidence of a CL model. Furthermore, we reexamine why
contrastive learning requires a large number of negative samples in a unified
gradient reduction perspective. Based on MACL and these analyses, a new CL loss
is proposed in this work to improve the learned representations and training
with small batch size.
- Abstract(参考訳): 事例識別比較学習(CL)は伝達可能な表現の学習において大きな成功を収めた。
cl損失の温度$ \tau $に関連するハードネスアウェア特性は、ハードネガティブなサンプルに自動的に集中する上で不可欠な役割を担っている。
しかし、以前の研究では、CL損失に一様性耐性ジレンマ(UTD)が存在することが証明されており、予期せぬ性能劣化を引き起こす。
特に、より低い温度は分離可能な埋め込みを学ぶのに役立つが、意味的に関連したサンプルへの耐性が低く、結果として最適な埋め込み空間となりうる。
本稿では,UTD から逃れるための Model-Aware Contrastive Learning (MACL) 戦略を提案する。
未訓練の位相では、アンカーの高類似度領域が潜在正のサンプルを含んでいる可能性は低い。
したがって、これらの段階で小さな温度を採用すると、強陰性試料により大きなペナルティ強度を課し、CLモデルの識別を改善することができる。
対照的に、よく訓練された相におけるより大きな温度は、潜在的正のサンプルに対する耐性を高めるために意味構造を探索するのに役立つ。
実装中、MACLの温度はCLモデルの信頼性を反映したアライメント特性に適応するように設計されている。
さらに、コントラスト学習が統一的な勾配縮小の観点から多くの負のサンプルを必要とする理由を再検討する。
本研究では,MACLとこれらの分析に基づいて,学習した表現の改善とバッチサイズでのトレーニングを行うため,新たなCL損失を提案する。
関連論文リスト
- Multi-Granularity Semantic Revision for Large Language Model Distillation [66.03746866578274]
LLM蒸留における多粒性セマンティックリビジョン法を提案する。
シーケンスレベルでは、シーケンス修正と再生戦略を提案する。
トークンレベルでは、蒸留目的関数として、Kulback-Leibler損失を補正する分布適応クリッピングを設計する。
スパンレベルでは、シーケンスのスパン前処理を利用して、スパン内の確率相関を計算し、教師と学生の確率相関を一貫性に制約する。
論文 参考訳(メタデータ) (2024-07-14T03:51:49Z) - Relaxed Contrastive Learning for Federated Learning [48.96253206661268]
本稿では,フェデレート学習におけるデータ不均一性の課題に対処する,新しいコントラスト学習フレームワークを提案する。
当社のフレームワークは,既存のフェデレート学習アプローチを,標準ベンチマークにおいて大きなマージンで上回ります。
論文 参考訳(メタデータ) (2024-01-10T04:55:24Z) - Distortion-Disentangled Contrastive Learning [13.27998440853596]
本稿では、DCL(Distortion-Disentangled Contrastive Learning)とDDL(Distortion-Disentangled Loss)という新しいPOCLフレームワークを提案する。
我々のアプローチは、モデルと特徴ストリーム内のDVRを明示的に切り離し、活用して、全体的な表現利用効率、堅牢性、表現能力を改善する最初の方法です。
論文 参考訳(メタデータ) (2023-03-09T06:33:31Z) - Stabilizing Off-Policy Deep Reinforcement Learning from Pixels [9.998078491879145]
ピクセル観測から学んだオフ政治強化は、非常に不安定である。
これらの不安定性は,畳み込みエンコーダと低次報酬を用いた時間差学習によって生じることを示す。
本稿では, エンコーダの勾配に適応的な正規化を提供する手法であるA-LIXを提案する。
論文 参考訳(メタデータ) (2022-07-03T08:52:40Z) - Beyond the Edge of Stability via Two-step Gradient Updates [49.03389279816152]
Gradient Descent(GD)は、現代の機械学習の強力な仕事場である。
GDが局所最小値を見つける能力は、リプシッツ勾配の損失に対してのみ保証される。
この研究は、2段階の勾配更新の分析を通じて、単純だが代表的でありながら、学習上の問題に焦点をあてる。
論文 参考訳(メタデータ) (2022-06-08T21:32:50Z) - Towards the Semantic Weak Generalization Problem in Generative Zero-Shot
Learning: Ante-hoc and Post-hoc [89.68803484284408]
生成ゼロショット学習(ZSL)の性能上限を制限した未探索要素を簡易かつ効果的に削減する戦略を提案する。
まず、意味的一般化を正式に定義し、その後、意味的弱一般化問題を減らそうとするアプローチを検討する。
アンテホック相では、ジェネレータのセマンティック入力を増強し、ジェネレータの適合ターゲットを緩和する。
論文 参考訳(メタデータ) (2022-04-24T13:54:42Z) - Bilevel learning of l1-regularizers with closed-form gradients(BLORC) [8.138650738423722]
本稿では,スパーシティー促進型正規化器の教師あり学習法を提案する。
これらのパラメータは、基底真理信号と測定ペアのトレーニングセットにおける再構成の平均2乗誤差を最小限に抑えるために学習される。
論文 参考訳(メタデータ) (2021-11-21T17:01:29Z) - Unbiased Risk Estimators Can Mislead: A Case Study of Learning with
Complementary Labels [92.98756432746482]
我々は,補完ラベルを用いた学習という,弱教師付き問題を研究する。
勾配推定の品質はリスク最小化においてより重要であることを示す。
本稿では,ゼロバイアスと分散の低減を両立させる新しい補助的相補的損失(SCL)フレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-05T04:19:37Z) - Reparameterized Variational Divergence Minimization for Stable Imitation [57.06909373038396]
確率的発散の選択における変動が、より高性能なILOアルゴリズムをもたらす可能性について検討する。
本稿では,提案する$f$-divergence最小化フレームワークの課題を軽減するために,逆模倣学習のための再パラメータ化手法を提案する。
経験的に、我々の設計選択は、ベースラインアプローチより優れ、低次元連続制御タスクにおける専門家のパフォーマンスとより密に適合するIOOアルゴリズムを許容することを示した。
論文 参考訳(メタデータ) (2020-06-18T19:04:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。