論文の概要: The Mechanism of Prediction Head in Non-contrastive Self-supervised
Learning
- arxiv url: http://arxiv.org/abs/2205.06226v1
- Date: Thu, 12 May 2022 17:15:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-13 15:35:38.919693
- Title: The Mechanism of Prediction Head in Non-contrastive Self-supervised
Learning
- Title(参考訳): 非連続的自己教師付き学習における予測ヘッドのメカニズム
- Authors: Zixin Wen, Yuanzhi Li
- Abstract要約: 非コントラスト的自己教師型学習に関する実証的および理論的発見を提示する。
予測ヘッドが非対角的エントリのみをトレーニング可能なID行列である場合、ネットワークは競合表現を学習できる。
これは非線形ニューラルネットワークを用いた非競合的手法に対する最初のエンドツーエンド最適化保証である。
- 参考スコア(独自算出の注目度): 38.71821080323513
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently the surprising discovery of the Bootstrap Your Own Latent (BYOL)
method by Grill et al. shows the negative term in contrastive loss can be
removed if we add the so-called prediction head to the network. This initiated
the research of non-contrastive self-supervised learning. It is mysterious why
even when there exist trivial collapsed global optimal solutions, neural
networks trained by (stochastic) gradient descent can still learn competitive
representations. This phenomenon is a typical example of implicit bias in deep
learning and remains little understood.
In this work, we present our empirical and theoretical discoveries on
non-contrastive self-supervised learning. Empirically, we find that when the
prediction head is initialized as an identity matrix with only its off-diagonal
entries being trainable, the network can learn competitive representations even
though the trivial optima still exist in the training objective. Theoretically,
we present a framework to understand the behavior of the trainable, but
identity-initialized prediction head. Under a simple setting, we characterized
the substitution effect and acceleration effect of the prediction head. The
substitution effect happens when learning the stronger features in some neurons
can substitute for learning these features in other neurons through updating
the prediction head. And the acceleration effect happens when the substituted
features can accelerate the learning of other weaker features to prevent them
from being ignored. These two effects enable the neural networks to learn all
the features rather than focus only on learning the stronger features, which is
likely the cause of the dimensional collapse phenomenon. To the best of our
knowledge, this is also the first end-to-end optimization guarantee for
non-contrastive methods using nonlinear neural networks with a trainable
prediction head and normalization.
- Abstract(参考訳): 近年,GrillらによるBootstrap Your Own Latent (BYOL)メソッドの驚くべき発見により,ネットワークにいわゆる予測ヘッドを追加すると,負の損失項を除去できることがわかった。
これにより、非コントラスト的自己指導学習の研究が始まった。
自明な崩壊したグローバル最適解が存在するとしても、(確率的な)勾配勾配で訓練されたニューラルネットワークが競争力のある表現を学習できるのは不思議である。
この現象はディープラーニングにおける暗黙のバイアスの典型的な例であり、ほとんど理解されていない。
本研究では,非コントラスト的自己指導学習における経験的,理論的発見について述べる。
実験により、予測ヘッドが非対角的エントリのみをトレーニング可能なID行列として初期化されると、自明なオプティマがトレーニング対象に残っているにもかかわらず、ネットワークは競合表現を学習できることがわかった。
理論的には、トレーニング可能だがアイデンティティ初期化予測ヘッドの振る舞いを理解するための枠組みを提案する。
簡単な設定で,予測ヘッドの置換効果と加速効果を特徴付ける。
置換効果は、一部のニューロンで強い特徴を学習すると、予測ヘッドを更新することで他のニューロンでこれらの特徴を学習する代わりに起こる。
そして、置換された特徴が他の弱い特徴の学習を加速し、それらを無視しないようにすることで加速効果が生じる。
この2つの効果により、ニューラルネットワークは、より強力な特徴を学ぶことだけに集中するのではなく、すべての特徴を学ぶことができる。
我々の知る限り、これはトレーニング可能な予測ヘッドと正規化を備えた非線形ニューラルネットワークを用いた非競合的手法に対する最初のエンドツーエンド最適化保証でもある。
関連論文リスト
- Predictive Coding: Towards a Future of Deep Learning beyond
Backpropagation? [41.58529335439799]
ディープニューラルネットワークのトレーニングに使用されるエラーアルゴリズムのバックプロパゲーションは、ディープラーニングの成功に不可欠である。
最近の研究は、このアイデアを、局所的な計算だけでニューラルネットワークを訓練できる汎用アルゴリズムへと発展させた。
等価ディープニューラルネットワークに対する予測符号化ネットワークの柔軟性が大幅に向上することを示す。
論文 参考訳(メタデータ) (2022-02-18T22:57:03Z) - Data-driven emergence of convolutional structure in neural networks [83.4920717252233]
識別タスクを解くニューラルネットワークが、入力から直接畳み込み構造を学習できることを示す。
データモデルを慎重に設計することにより、このパターンの出現は、入力の非ガウス的、高次局所構造によって引き起こされることを示す。
論文 参考訳(メタデータ) (2022-02-01T17:11:13Z) - Stochastic Neural Networks with Infinite Width are Deterministic [7.07065078444922]
使用中のニューラルネットワークの主要なタイプであるニューラルネットワークについて研究する。
最適化されたニューラルネットワークの幅が無限大になる傾向があるため、トレーニングセットの予測分散はゼロになる。
論文 参考訳(メタデータ) (2022-01-30T04:52:31Z) - How does unlabeled data improve generalization in self-training? A
one-hidden-layer theoretical analysis [93.37576644429578]
この研究は、既知の反復的自己学習パラダイムに関する最初の理論的分析を確立する。
トレーニング収束と一般化能力の両面で、ラベルなしデータの利点を実証する。
また、浅部ニューラルネットワークから深部ニューラルネットワークへの実験は、我々の確立した自己学習に関する理論的知見の正しさを正当化するものである。
論文 参考訳(メタデータ) (2022-01-21T02:16:52Z) - Multi-scale Feature Learning Dynamics: Insights for Double Descent [71.91871020059857]
一般化誤差の「二重降下」現象について検討する。
二重降下は、異なるスケールで学習される異なる特徴に起因する可能性がある。
論文 参考訳(メタデータ) (2021-12-06T18:17:08Z) - Why Lottery Ticket Wins? A Theoretical Perspective of Sample Complexity
on Pruned Neural Networks [79.74580058178594]
目的関数の幾何学的構造を解析することにより、刈り取られたニューラルネットワークを訓練する性能を解析する。
本稿では,ニューラルネットワークモデルがプルーニングされるにつれて,一般化が保証された望ましいモデル近傍の凸領域が大きくなることを示す。
論文 参考訳(メタデータ) (2021-10-12T01:11:07Z) - Neural Tangent Kernel Eigenvalues Accurately Predict Generalization [0.0]
ニューラルネットワークの「ニューラルタンジェントカーネル」の固有系を調べることにより、任意の関数を学習する際に、その一般化性能を予測することができることを示す。
また、広義のニューラルネットワークの帰納バイアスの基本的なトレードオフを特徴付ける新しい「ノー・フリー・ランチ」定理を証明した。
我々の理論は無限幅アーキテクチャのために導かれるが、幅20の狭いネットワークと一致する。
論文 参考訳(メタデータ) (2021-10-08T06:32:07Z) - Statistical Mechanical Analysis of Catastrophic Forgetting in Continual
Learning with Teacher and Student Networks [5.209145866174911]
計算システムが絶えず変化する環境から学習すると、その過去の経験を急速に忘れてしまう。
教師-学生学習を用いて破滅的な忘れを解析するための理論的枠組みを提供する。
その結果,入力分布の類似度が小さく,対象関数の入出力関係が大きい場合,ネットワークは壊滅的な記憶を回避できることがわかった。
論文 参考訳(メタデータ) (2021-05-16T09:02:48Z) - And/or trade-off in artificial neurons: impact on adversarial robustness [91.3755431537592]
この問題をより深く理解することで、情報がどのように処理され、ニューラルネットワークでエンコードされるかの理解を深めることができる。
敵対的回復力を高めるという私たちの考えは、人工ニューロンがAND様ニューロンとOR様ニューロンの2つの広いカテゴリーに分けられるという観察から始まります。
我々の仮説は、十分な数のOR様ニューロンのネットワークの存在は、分類「脆さ」につながり、ネットワークが敵対攻撃に対する感受性を高めることができるということです。
論文 参考訳(メタデータ) (2021-02-15T08:19:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。