論文の概要: The Mechanism of Prediction Head in Non-contrastive Self-supervised
Learning
- arxiv url: http://arxiv.org/abs/2205.06226v1
- Date: Thu, 12 May 2022 17:15:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-13 15:35:38.919693
- Title: The Mechanism of Prediction Head in Non-contrastive Self-supervised
Learning
- Title(参考訳): 非連続的自己教師付き学習における予測ヘッドのメカニズム
- Authors: Zixin Wen, Yuanzhi Li
- Abstract要約: 非コントラスト的自己教師型学習に関する実証的および理論的発見を提示する。
予測ヘッドが非対角的エントリのみをトレーニング可能なID行列である場合、ネットワークは競合表現を学習できる。
これは非線形ニューラルネットワークを用いた非競合的手法に対する最初のエンドツーエンド最適化保証である。
- 参考スコア(独自算出の注目度): 38.71821080323513
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently the surprising discovery of the Bootstrap Your Own Latent (BYOL)
method by Grill et al. shows the negative term in contrastive loss can be
removed if we add the so-called prediction head to the network. This initiated
the research of non-contrastive self-supervised learning. It is mysterious why
even when there exist trivial collapsed global optimal solutions, neural
networks trained by (stochastic) gradient descent can still learn competitive
representations. This phenomenon is a typical example of implicit bias in deep
learning and remains little understood.
In this work, we present our empirical and theoretical discoveries on
non-contrastive self-supervised learning. Empirically, we find that when the
prediction head is initialized as an identity matrix with only its off-diagonal
entries being trainable, the network can learn competitive representations even
though the trivial optima still exist in the training objective. Theoretically,
we present a framework to understand the behavior of the trainable, but
identity-initialized prediction head. Under a simple setting, we characterized
the substitution effect and acceleration effect of the prediction head. The
substitution effect happens when learning the stronger features in some neurons
can substitute for learning these features in other neurons through updating
the prediction head. And the acceleration effect happens when the substituted
features can accelerate the learning of other weaker features to prevent them
from being ignored. These two effects enable the neural networks to learn all
the features rather than focus only on learning the stronger features, which is
likely the cause of the dimensional collapse phenomenon. To the best of our
knowledge, this is also the first end-to-end optimization guarantee for
non-contrastive methods using nonlinear neural networks with a trainable
prediction head and normalization.
- Abstract(参考訳): 近年,GrillらによるBootstrap Your Own Latent (BYOL)メソッドの驚くべき発見により,ネットワークにいわゆる予測ヘッドを追加すると,負の損失項を除去できることがわかった。
これにより、非コントラスト的自己指導学習の研究が始まった。
自明な崩壊したグローバル最適解が存在するとしても、(確率的な)勾配勾配で訓練されたニューラルネットワークが競争力のある表現を学習できるのは不思議である。
この現象はディープラーニングにおける暗黙のバイアスの典型的な例であり、ほとんど理解されていない。
本研究では,非コントラスト的自己指導学習における経験的,理論的発見について述べる。
実験により、予測ヘッドが非対角的エントリのみをトレーニング可能なID行列として初期化されると、自明なオプティマがトレーニング対象に残っているにもかかわらず、ネットワークは競合表現を学習できることがわかった。
理論的には、トレーニング可能だがアイデンティティ初期化予測ヘッドの振る舞いを理解するための枠組みを提案する。
簡単な設定で,予測ヘッドの置換効果と加速効果を特徴付ける。
置換効果は、一部のニューロンで強い特徴を学習すると、予測ヘッドを更新することで他のニューロンでこれらの特徴を学習する代わりに起こる。
そして、置換された特徴が他の弱い特徴の学習を加速し、それらを無視しないようにすることで加速効果が生じる。
この2つの効果により、ニューラルネットワークは、より強力な特徴を学ぶことだけに集中するのではなく、すべての特徴を学ぶことができる。
我々の知る限り、これはトレーニング可能な予測ヘッドと正規化を備えた非線形ニューラルネットワークを用いた非競合的手法に対する最初のエンドツーエンド最適化保証でもある。
関連論文リスト
- Instance-wise Linearization of Neural Network for Model Interpretation [13.583425552511704]
この課題は、ニューラルネットワークの非線形動作に潜むことができる。
ニューラルネットワークモデルでは、非線形な振る舞いはモデルの非線形なアクティベーションユニットによって引き起こされることが多い。
本稿では,ニューラルネットワーク予測のフォワード計算過程を再構成するインスタンスワイズ線形化手法を提案する。
論文 参考訳(メタデータ) (2023-10-25T02:07:39Z) - Grokking as the Transition from Lazy to Rich Training Dynamics [35.186196991224286]
グルーキングは、ニューラルネットワークの列車の損失がテスト損失よりもはるかに早く減少するときに起こる。
グルーキングの主要な要因は、特徴学習の速度と、初期特徴と対象関数とのアライメントである。
論文 参考訳(メタデータ) (2023-10-09T19:33:21Z) - Utility-Probability Duality of Neural Networks [4.871730595406078]
本稿では,ディープラーニングにおける標準教師あり学習手順に対するユーティリティに基づく代替的説明を提案する。
基本的な考え方は、学習したニューラルネットワークを確率モデルではなく、順序付きユーティリティ関数として解釈することである。
ソフトマックス出力を持つ全てのニューラルネットワークに対して、最大推定値のSGD学習ダイナミクスを反復過程と見なすことができる。
論文 参考訳(メタデータ) (2023-05-24T08:09:07Z) - Theoretical Characterization of How Neural Network Pruning Affects its
Generalization [131.1347309639727]
この研究は、異なるプルーニング率がモデルの勾配降下ダイナミクスと一般化にどのように影響するかを研究する最初の試みである。
プルーニング率が一定の閾値以下である限り、勾配降下はトレーニング損失をゼロに導くことができる。
より驚くべきことに、プルーニング分数が大きくなるにつれて、一般化境界はより良くなる。
論文 参考訳(メタデータ) (2023-01-01T03:10:45Z) - Predictive Coding: Towards a Future of Deep Learning beyond
Backpropagation? [41.58529335439799]
ディープニューラルネットワークのトレーニングに使用されるエラーアルゴリズムのバックプロパゲーションは、ディープラーニングの成功に不可欠である。
最近の研究は、このアイデアを、局所的な計算だけでニューラルネットワークを訓練できる汎用アルゴリズムへと発展させた。
等価ディープニューラルネットワークに対する予測符号化ネットワークの柔軟性が大幅に向上することを示す。
論文 参考訳(メタデータ) (2022-02-18T22:57:03Z) - How does unlabeled data improve generalization in self-training? A
one-hidden-layer theoretical analysis [93.37576644429578]
この研究は、既知の反復的自己学習パラダイムに関する最初の理論的分析を確立する。
トレーニング収束と一般化能力の両面で、ラベルなしデータの利点を実証する。
また、浅部ニューラルネットワークから深部ニューラルネットワークへの実験は、我々の確立した自己学習に関する理論的知見の正しさを正当化するものである。
論文 参考訳(メタデータ) (2022-01-21T02:16:52Z) - Gradient Starvation: A Learning Proclivity in Neural Networks [97.02382916372594]
グラディエント・スターベーションは、タスクに関連する機能のサブセットのみをキャプチャすることで、クロスエントロピー損失を最小化するときに発生する。
この研究は、ニューラルネットワークにおけるそのような特徴不均衡の出現に関する理論的説明を提供する。
論文 参考訳(メタデータ) (2020-11-18T18:52:08Z) - Vulnerability Under Adversarial Machine Learning: Bias or Variance? [77.30759061082085]
本研究では,機械学習が訓練された深層ニューラルネットワークのバイアスと分散に与える影響について検討する。
我々の分析は、ディープニューラルネットワークが対向的摂動下で性能が劣っている理由に光を当てている。
本稿では,計算処理の複雑さをよく知られた機械学習手法よりも低く抑えた,新しい逆機械学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-08-01T00:58:54Z) - Learning from Failure: Training Debiased Classifier from Biased
Classifier [76.52804102765931]
ニューラルネットワークは、所望の知識よりも学習が簡単である場合にのみ、素早い相関に依存することを学習していることを示す。
本稿では,一対のニューラルネットワークを同時にトレーニングすることで,障害に基づくデバイアス化手法を提案する。
本手法は,合成データセットと実世界のデータセットの両方において,各種バイアスに対するネットワークのトレーニングを大幅に改善する。
論文 参考訳(メタデータ) (2020-07-06T07:20:29Z) - Bidirectionally Self-Normalizing Neural Networks [46.20979546004718]
本研究では, ニューラルネットワークの幅が十分であれば, 消失/爆発の勾配問題は高い確率で消失することを示す厳密な結果を与える。
我々の主な考えは、新しい種類の活性化関数を通して、非線形ニューラルネットワークにおける前方信号と後方信号の伝搬を制限することである。
論文 参考訳(メタデータ) (2020-06-22T12:07:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。