論文の概要: The Hidden Pitfalls of the Cosine Similarity Loss
- arxiv url: http://arxiv.org/abs/2406.16468v1
- Date: Mon, 24 Jun 2024 09:16:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-25 15:33:48.945328
- Title: The Hidden Pitfalls of the Cosine Similarity Loss
- Title(参考訳): コサイン類似性損失の隠れた落とし穴
- Authors: Andrew Draganov, Sharvaree Vadgama, Erik J. Bekkers,
- Abstract要約: 2点間のコサイン類似性の勾配は2つの未探索設定において0となることを示す。
反対に、点間のコサイン類似性を最適化することは、それらが大規模に成長することを証明している。
- 参考スコア(独自算出の注目度): 8.568416079833602
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We show that the gradient of the cosine similarity between two points goes to zero in two under-explored settings: (1) if a point has large magnitude or (2) if the points are on opposite ends of the latent space. Counterintuitively, we prove that optimizing the cosine similarity between points forces them to grow in magnitude. Thus, (1) is unavoidable in practice. We then observe that these derivations are extremely general -- they hold across deep learning architectures and for many of the standard self-supervised learning (SSL) loss functions. This leads us to propose cut-initialization: a simple change to network initialization that helps all studied SSL methods converge faster.
- Abstract(参考訳): 2つの点の間の余弦的類似性の勾配は、(1)ある点が大きければ、または(2)その点が潜伏空間の反対端にあるときである。
反対に、点間のコサイン類似性を最適化することは、それらが大規模に成長することを証明している。
したがって、(1)は実際は避けられない。
そして、これらの派生は極めて一般的なものであり、深層学習アーキテクチャと標準の自己教師型学習(SSL)損失関数の多くをカバーしています。
ネットワーク初期化への簡単な変更により、研究対象のSSLメソッドが高速に収束するのに役立つ。
関連論文リスト
- Fundamental computational limits of weak learnability in high-dimensional multi-index models [30.501140910531017]
本稿では, 1次反復アルゴリズムを用いて低次元構造を弱めに復元するために必要な最小サンプル複雑性に着目した。
i) 自明な部分空間が任意の$alpha!>!0$; (ii) 自明な部分空間が空であれば、簡単な部分空間の存在に必要な必要十分条件を提供する。
限定的だが興味深い厳密な方向の集合において、-パリティ問題に似て-$alpha_c$が見つかる
論文 参考訳(メタデータ) (2024-05-24T11:59:02Z) - On the Convergence of Gradient Descent for Large Learning Rates [55.33626480243135]
固定ステップサイズを使用すると収束が不可能であることを示す。
正方形損失を持つ線形ニューラルネットワークの場合,これを証明した。
また、勾配に対するリプシッツ連続性のような強い仮定を必要とせず、より一般的な損失に対する収束の不可能性も証明する。
論文 参考訳(メタデータ) (2024-02-20T16:01:42Z) - Towards More Robust Interpretation via Local Gradient Alignment [37.464250451280336]
任意の非負の同質ニューラルネットワークに対して、勾配に対する単純な$ell$-robust criterionは、テクスティノ正規化不変量であることを示す。
我々は,局所勾配の整合性を両立させるために,$ell$とcosine distance-based criteriaを正則化項として組み合わせることを提案する。
我々は,CIFAR-10 と ImageNet-100 でトレーニングしたモデルにより,より堅牢な解釈が得られたことを実験的に示す。
論文 参考訳(メタデータ) (2022-11-29T03:38:28Z) - On the Benefits of Large Learning Rates for Kernel Methods [110.03020563291788]
本稿では,カーネル手法のコンテキストにおいて,現象を正確に特徴付けることができることを示す。
分離可能なヒルベルト空間における2次対象の最小化を考慮し、早期停止の場合、学習速度の選択が得られた解のスペクトル分解に影響を及ぼすことを示す。
論文 参考訳(メタデータ) (2022-02-28T13:01:04Z) - Simple Stochastic and Online Gradient DescentAlgorithms for Pairwise
Learning [65.54757265434465]
ペアワイズ学習(Pairwise learning)とは、損失関数がペアインスタンスに依存するタスクをいう。
オンライン降下(OGD)は、ペアワイズ学習でストリーミングデータを処理する一般的なアプローチである。
本稿では,ペアワイズ学習のための手法について,シンプルでオンラインな下降を提案する。
論文 参考訳(メタデータ) (2021-11-23T18:10:48Z) - On Faster Convergence of Scaled Sign Gradient Descent [9.523120357431383]
通信は大規模ネットワーク上での産業アプリケーションにおいて重要なボトルネックと見なされてきた。
本稿では,手話に基づく勾配降下法の変種に対する高速収束について検討する。
論文 参考訳(メタデータ) (2021-09-04T07:26:21Z) - Dissecting Supervised Constrastive Learning [24.984074794337157]
高容量エンコーダで構成された線形マップのソフトマックススコアよりもクロスエントロピーを最小化することは、教師付き学習タスクでニューラルネットワークを訓練するための最も一般的な選択肢である。
コントラスト目的の教師付き変種を通して等しく(あるいはそれ以上)識別表現を得るために、エンコーダを直接最適化することができることを示す。
論文 参考訳(メタデータ) (2021-02-17T15:22:38Z) - Understanding self-supervised Learning Dynamics without Contrastive
Pairs [72.1743263777693]
自己監視学習(SSL)に対する対照的アプローチは、同じデータポイントの2つの拡張ビュー間の距離を最小限にすることで表現を学習する。
BYOLとSimSiamは、負のペアなしで素晴らしいパフォーマンスを示す。
単純線形ネットワークにおける非コントラストSSLの非線形学習ダイナミクスについて検討する。
論文 参考訳(メタデータ) (2021-02-12T22:57:28Z) - Single-Timescale Stochastic Nonconvex-Concave Optimization for Smooth
Nonlinear TD Learning [145.54544979467872]
本稿では,各ステップごとに1つのデータポイントしか必要としない2つの単一スケールシングルループアルゴリズムを提案する。
本研究の結果は, 同時一次および二重側収束の形で表される。
論文 参考訳(メタデータ) (2020-08-23T20:36:49Z) - LoCo: Local Contrastive Representation Learning [93.98029899866866]
重なり合うローカルブロックが重なり合うことで、デコーダの深さを効果的に増加させ、上位ブロックが暗黙的に下位ブロックにフィードバックを送ることができることを示す。
このシンプルな設計は、ローカル学習とエンドツーエンドのコントラスト学習アルゴリズムのパフォーマンスギャップを初めて埋める。
論文 参考訳(メタデータ) (2020-08-04T05:41:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。