論文の概要: Feature Normalization Prevents Collapse of Non-contrastive Learning
Dynamics
- arxiv url: http://arxiv.org/abs/2309.16109v1
- Date: Thu, 28 Sep 2023 02:23:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-29 18:17:25.485860
- Title: Feature Normalization Prevents Collapse of Non-contrastive Learning
Dynamics
- Title(参考訳): 非競合学習ダイナミクスの崩壊を防ぐ特徴正規化
- Authors: Han Bao
- Abstract要約: データ拡張によって生成された2つの肯定的なビューをデータ表現空間内のアトラクション力によって類似させるコントラスト学習について検討する。
Tian et al. (2021)は、学習力学解析を通して、データの増大が正規化よりも十分に強い場合、その表現は崩壊を避けることができることを示した。
このコサインの損失は6階のダイナミクス(L2の損失は3階のダイナミクス)を誘導し、安定平衡が動的に現れることを示す。
- 参考スコア(独自算出の注目度): 2.124843979686623
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Contrastive learning is a self-supervised representation learning framework,
where two positive views generated through data augmentation are made similar
by an attraction force in a data representation space, while a repulsive force
makes them far from negative examples. Non-contrastive learning, represented by
BYOL and SimSiam, further gets rid of negative examples and improves
computational efficiency. While learned representations may collapse into a
single point due to the lack of the repulsive force at first sight, Tian et al.
(2021) revealed through the learning dynamics analysis that the representations
can avoid collapse if data augmentation is sufficiently stronger than
regularization. However, their analysis does not take into account
commonly-used feature normalization, a normalizer before measuring the
similarity of representations, and hence excessively strong regularization may
collapse the dynamics, which is an unnatural behavior under the presence of
feature normalization. Therefore, we extend the previous theory based on the L2
loss by considering the cosine loss, which involves feature normalization. We
show that the cosine loss induces sixth-order dynamics (while the L2 loss
induces a third-order one), in which a stable equilibrium dynamically emerges
even if there are only collapsed solutions with given initial parameters. Thus,
we offer a new understanding that feature normalization plays an important role
in robustly preventing the dynamics collapse.
- Abstract(参考訳): コントラスト学習は自己教師付き表現学習フレームワークであり、データ拡張によって生成された2つのポジティブなビューはデータ表現空間におけるアトラクション力によって類似し、反発力は否定的な例から遠く離れている。
BYOLとSimSiamで表される非コントラスト学習は、さらに否定的な例を取り除き、計算効率を向上させる。
学習された表現は、一見すると反発力の欠如のために1つの点に崩壊する可能性があるが、tianら(2021年)は学習ダイナミクス分析を通じて、データの強化が正規化よりも十分に強い場合、表現は崩壊を避けることができることを明らかにした。
しかし、それらの分析は一般に使われる特徴正規化、つまり表現の類似度を測定する前の正規化を考慮せず、したがって過剰に強い正規化は特徴正規化の存在下で不自然な振る舞いであるダイナミクスを崩壊させる可能性がある。
したがって, 特徴正規化を伴うコサイン損失を考慮して, L2損失に基づく先行理論を拡張した。
また,コサイン損失は6次ダイナミクスを誘導する(l2損失は3次損失を誘導する)が,与えられた初期パラメータを持つ解が崩壊しても安定平衡が動的に現れることを示した。
そこで我々は,機能正規化がダイナミクスの崩壊を堅牢に防止する上で重要な役割を担っている,新たな理解を提供する。
関連論文リスト
- On the Dynamics Under the Unhinged Loss and Beyond [104.49565602940699]
我々は、閉形式力学を解析するための数学的機会を提供する、簡潔な損失関数であるアンヒンジド・ロスを導入する。
アンヒンジされた損失は、時間変化学習率や特徴正規化など、より実践的なテクニックを検討することができる。
論文 参考訳(メタデータ) (2023-12-13T02:11:07Z) - A U-turn on Double Descent: Rethinking Parameter Counting in Statistical
Learning [68.76846801719095]
二重降下がいつどこで起こるのかを正確に示し、その位置が本質的に閾値 p=n に結び付けられていないことを示す。
これは二重降下と統計的直観の間の緊張を解消する。
論文 参考訳(メタデータ) (2023-10-29T12:05:39Z) - Implicit variance regularization in non-contrastive SSL [7.573586022424398]
閉形式線形予測ネットワークの固有空間におけるユークリッドおよびコサイン類似性とともに学習力学を解析的に研究する。
固有モデム間の収束速度を等化させる等方的損失関数の族 (IsoLoss) を提案する。
論文 参考訳(メタデータ) (2022-12-09T13:56:42Z) - DR3: Value-Based Deep Reinforcement Learning Requires Explicit
Regularization [125.5448293005647]
教師付き学習で見られるSGDの暗黙的な正則化効果が、オフラインの深いRLでは有害である可能性について論じる。
我々の理論的解析は、暗黙正則化の既存のモデルが時間差分学習に適用された場合、導出正規化器は退化解を好むことを示している。
我々は、この暗黙的正則化の望ましくない効果に対処する、DR3と呼ばれる単純で効果的な明示的正則化器を提案する。
論文 参考訳(メタデータ) (2021-12-09T06:01:01Z) - Towards Robust and Adaptive Motion Forecasting: A Causal Representation
Perspective [72.55093886515824]
本稿では,3つの潜伏変数群からなる動的過程として,運動予測の因果的形式化を導入する。
我々は、因果グラフを近似するために、不変なメカニズムやスタイルの共創者の表現を分解するモジュラーアーキテクチャを考案する。
合成および実データを用いた実験結果から,提案した3つの成分は,学習した動き表現の頑健性と再利用性を大幅に向上することが示された。
論文 参考訳(メタデータ) (2021-11-29T18:59:09Z) - On the Role of Optimization in Double Descent: A Least Squares Study [30.44215064390409]
最小二乗対象の降下勾配解に対して過大なリスクを負うことを示す。
ノイズのない回帰の場合、二重降下は最適化関連量によってのみ説明される。
ニューラルネットワークの予測が保たれているかどうかを実証的に調査する。
論文 参考訳(メタデータ) (2021-07-27T09:13:11Z) - Towards Understanding Generalization via Decomposing Excess Risk
Dynamics [13.4379473119565]
一般化力学を解析してアルゴリズム依存境界(安定性など)を導出する。
ニューラルネットは、ノイズの嵌合時に緩やかな収束率を示すという観測から着想を得て、余剰リスクダイナミクスを分解することを提案する。
分解の枠組みの下では、新しい境界は安定性に基づく境界と一様収束境界よりも理論的および経験的証拠とよく一致している。
論文 参考訳(メタデータ) (2021-06-11T03:42:45Z) - Implicit Regularization in ReLU Networks with the Square Loss [56.70360094597169]
モデルパラメータの明示的な関数によって、平方損失による暗黙の正規化を特徴付けることは不可能であることを示す。
非線形予測器の暗黙的正規化を理解するためには,より一般的な枠組みが必要であることが示唆された。
論文 参考訳(メタデータ) (2020-12-09T16:48:03Z) - Extreme Memorization via Scale of Initialization [72.78162454173803]
我々は,初期化の規模を変えることが,SGDによって誘導される暗黙の正規化に強く影響を与える実験装置を構築する。
一般化能力に影響を及ぼす範囲と方法が、使用したアクティベーションと損失関数に依存することがわかった。
均質なReLU活性化の場合、この挙動は損失関数に起因することが示される。
論文 参考訳(メタデータ) (2020-08-31T04:53:11Z) - Double Trouble in Double Descent : Bias and Variance(s) in the Lazy
Regime [32.65347128465841]
深層ニューラルネットワークは、トレーニングデータを完璧に補間しながら、素晴らしいパフォーマンスを達成することができる。
バイアス分散トレードオフのU曲線ではなく、テストエラーはしばしば「二重降下」に従う。
我々は、ニューラルネットワークのいわゆる遅延学習システムにおいて、この現象の定量的理論を開発する。
論文 参考訳(メタデータ) (2020-03-02T17:39:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。