論文の概要: Align, then memorise: the dynamics of learning with feedback alignment
- arxiv url: http://arxiv.org/abs/2011.12428v2
- Date: Thu, 10 Jun 2021 14:20:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-21 12:09:43.334433
- Title: Align, then memorise: the dynamics of learning with feedback alignment
- Title(参考訳): align, then memorise: フィードバックアライメントによる学習のダイナミクス
- Authors: Maria Refinetti, St\'ephane d'Ascoli, Ruben Ohana, Sebastian Goldt
- Abstract要約: 直接フィードバックアライメント(DFA)は、ディープニューラルネットワークのトレーニングのためのユビキタスバックプロパゲーションアルゴリズムの効率的な代替手段である。
DFAはTransformersのような最先端モデルのトレーニングに成功したが、畳み込みネットワークのトレーニングには失敗している。
本稿では,DFAの成功に関する理論を提案する。
- 参考スコア(独自算出の注目度): 12.587037358391418
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Direct Feedback Alignment (DFA) is emerging as an efficient and biologically
plausible alternative to the ubiquitous backpropagation algorithm for training
deep neural networks. Despite relying on random feedback weights for the
backward pass, DFA successfully trains state-of-the-art models such as
Transformers. On the other hand, it notoriously fails to train convolutional
networks. An understanding of the inner workings of DFA to explain these
diverging results remains elusive. Here, we propose a theory for the success of
DFA. We first show that learning in shallow networks proceeds in two steps: an
alignment phase, where the model adapts its weights to align the approximate
gradient with the true gradient of the loss function, is followed by a
memorisation phase, where the model focuses on fitting the data. This two-step
process has a degeneracy breaking effect: out of all the low-loss solutions in
the landscape, a network trained with DFA naturally converges to the solution
which maximises gradient alignment. We also identify a key quantity underlying
alignment in deep linear networks: the conditioning of the alignment matrices.
The latter enables a detailed understanding of the impact of data structure on
alignment, and suggests a simple explanation for the well-known failure of DFA
to train convolutional neural networks. Numerical experiments on MNIST and
CIFAR10 clearly demonstrate degeneracy breaking in deep non-linear networks and
show that the align-then-memorise process occurs sequentially from the bottom
layers of the network to the top.
- Abstract(参考訳): 直接フィードバックアライメント(DFA)は、ディープニューラルネットワークをトレーニングするためのユビキタスバックプロパゲーションアルゴリズムに代わる、効率的で生物学的に妥当な代替手段として浮上している。
後方通過の無作為なフィードバック重みに依存するにもかかわらず、dfaはトランスフォーマーのような最先端のモデルをうまく訓練した。
一方で、畳み込みネットワークのトレーニングには失敗している。
これらのばらつきの結果を説明するためのDFAの内部動作の理解はいまだ解明されていない。
本稿では,DFAの成功に関する理論を提案する。
まず,浅層ネットワークでの学習が2つのステップで進行することを示す。モデルが重みを適応して近似勾配を損失関数の真の勾配に合わせるアライメントフェーズと,モデルをデータ適合に焦点をあてた記憶フェーズである。
この2段階のプロセスは退化分解効果を持つ: ランドスケープにおけるすべての低損失解のうち、dfaで訓練されたネットワークは自然に解に収束し、勾配アライメントを最大化する。
また、深い線形ネットワークにおけるアライメントの基礎となる重要な量、すなわちアライメント行列の条件付けも同定する。
後者は、データ構造がアライメントに与える影響の詳細な理解を可能にし、DFAが畳み込みニューラルネットワークのトレーニングに失敗していることの簡単な説明を提案する。
MNISTとCIFAR10の数値実験により、深い非線形ネットワークの縮退が明らかに示され、整列記憶過程がネットワークの底層から上部まで順次起こることが示されている。
関連論文リスト
- The Law of Parsimony in Gradient Descent for Learning Deep Linear
Networks [34.85235641812005]
我々は、データが低次元構造を持つ場合、学習力学において驚くべき「パシモニーの法則」を明らかにする。
この学習力学の単純さは、効率的なトレーニングとディープネットワークのより良い理解の両方に重大な影響を及ぼす可能性がある。
論文 参考訳(メタデータ) (2023-06-01T21:24:53Z) - Implicit Stochastic Gradient Descent for Training Physics-informed
Neural Networks [51.92362217307946]
物理インフォームドニューラルネットワーク(PINN)は、前方および逆微分方程式問題の解法として効果的に実証されている。
PINNは、近似すべきターゲット関数が高周波またはマルチスケールの特徴を示す場合、トレーニング障害に閉じ込められる。
本稿では,暗黙的勾配降下法(ISGD)を用いてPINNを訓練し,トレーニングプロセスの安定性を向上させることを提案する。
論文 参考訳(メタデータ) (2023-03-03T08:17:47Z) - Adversarial Examples Exist in Two-Layer ReLU Networks for Low
Dimensional Linear Subspaces [24.43191276129614]
標準手法が非ロバストニューラルネットワークに繋がることを示す。
トレーニングアルゴリズムのスケールを縮小させるか、あるいは$L$正規化を加えることで、トレーニングされたネットワークが敵の摂動に対してより堅牢になることを示す。
論文 参考訳(メタデータ) (2023-03-01T19:10:05Z) - Bayesian Interpolation with Deep Linear Networks [92.1721532941863]
ニューラルネットワークの深さ、幅、データセットサイズがモデル品質にどう影響するかを特徴付けることは、ディープラーニング理論における中心的な問題である。
線形ネットワークが無限深度で証明可能な最適予測を行うことを示す。
また、データに依存しない先行法により、広い線形ネットワークにおけるベイズ模型の証拠は無限の深さで最大化されることを示す。
論文 参考訳(メタデータ) (2022-12-29T20:57:46Z) - Neural networks trained with SGD learn distributions of increasing
complexity [78.30235086565388]
勾配降下法を用いてトレーニングされたニューラルネットワークは、まず低次入力統計を用いて入力を分類する。
その後、トレーニング中にのみ高次の統計を利用する。
本稿では,DSBと他の単純度バイアスとの関係について論じ,学習における普遍性の原理にその意味を考察する。
論文 参考訳(メタデータ) (2022-11-21T15:27:22Z) - Implicit Bias in Leaky ReLU Networks Trained on High-Dimensional Data [63.34506218832164]
本研究では,ReLUを活性化した2層完全連結ニューラルネットワークにおける勾配流と勾配降下の暗黙的バイアスについて検討する。
勾配流には、均一なニューラルネットワークに対する暗黙のバイアスに関する最近の研究を活用し、リーク的に勾配流が2つ以上のランクを持つニューラルネットワークを生成することを示す。
勾配降下は, ランダムな分散が十分小さい場合, 勾配降下の1ステップでネットワークのランクが劇的に低下し, トレーニング中もランクが小さくなることを示す。
論文 参考訳(メタデータ) (2022-10-13T15:09:54Z) - Slimmable Networks for Contrastive Self-supervised Learning [69.9454691873866]
自己教師付き学習は、大規模なモデルを事前訓練する上で大きな進歩を遂げるが、小さなモデルでは苦労する。
追加の教師を必要とせず、訓練済みの小型モデルを得るための1段階のソリューションも導入する。
スリム化可能なネットワークは、完全なネットワークと、様々なネットワークを得るために一度にトレーニングできるいくつかの重み共有サブネットワークから構成される。
論文 参考訳(メタデータ) (2022-09-30T15:15:05Z) - Training invariances and the low-rank phenomenon: beyond linear networks [44.02161831977037]
線形分離可能なデータに対して、ロジスティックあるいは指数損失の深い線形ネットワークを訓練すると、重みは1$の行列に収束する。
非線形ReLU活性化フィードフォワードネットワークに対して、低ランク現象が厳格に証明されたのはこれが初めてである。
我々の証明は、あるパラメータの方向収束の下で重みが一定である多重線型関数と別のReLUネットワークへのネットワークの特定の分解に依存している。
論文 参考訳(メタデータ) (2022-01-28T07:31:19Z) - Gradient-trained Weights in Wide Neural Networks Align Layerwise to
Error-scaled Input Correlations [11.176824373696324]
我々は、勾配降下によって訓練された非線形活性化を伴う無限幅ニューラルネットワークの層方向の重みダイナミクスを導出する。
我々は、バックプロパゲーションと同じアライメントを理論的に達成するバックプロパゲーションフリー学習ルール、Align-zeroとAlign-adaを定式化した。
論文 参考訳(メタデータ) (2021-06-15T21:56:38Z) - Solving Sparse Linear Inverse Problems in Communication Systems: A Deep
Learning Approach With Adaptive Depth [51.40441097625201]
疎信号回復問題に対するエンドツーエンドの訓練可能なディープラーニングアーキテクチャを提案する。
提案手法は,出力するレイヤ数を学習し,各タスクのネットワーク深さを推論フェーズで動的に調整する。
論文 参考訳(メタデータ) (2020-10-29T06:32:53Z) - Deep Networks from the Principle of Rate Reduction [32.87280757001462]
この研究は、レート還元と(シフト)不変分類の原理から、現代のディープ(畳み込み)ネットワークを解釈しようとする。
学習した特徴量の減少率を最適化するための基本的反復的漸進勾配法が,多層深層ネットワーク,すなわち1層1回を自然に導くことを示す。
この「ホワイトボックス」ネットワークの全てのコンポーネントは正確な最適化、統計学、幾何学的解釈を持っている。
論文 参考訳(メタデータ) (2020-10-27T06:01:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。