論文の概要: Gradient Flossing: Improving Gradient Descent through Dynamic Control of
Jacobians
- arxiv url: http://arxiv.org/abs/2312.17306v1
- Date: Thu, 28 Dec 2023 18:51:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-02 15:15:41.078818
- Title: Gradient Flossing: Improving Gradient Descent through Dynamic Control of
Jacobians
- Title(参考訳): 勾配フロス化:ジャコビアンの動的制御による勾配降下の改善
- Authors: Rainer Engelken
- Abstract要約: リカレントニューラルネットワーク(RNN)のトレーニングは、長時間の地平線を越えた勾配の不安定性のため、依然として課題である。
最近の研究は、これらの問題を前方力学に対するリアプノフ指数の値に関連付けている。
学習中にリアプノフ指数をゼロに推し進めることで勾配不安定に対処する新しい手法である勾配フロス法を提案する。
- 参考スコア(独自算出の注目度): 4.532517021515834
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training recurrent neural networks (RNNs) remains a challenge due to the
instability of gradients across long time horizons, which can lead to exploding
and vanishing gradients. Recent research has linked these problems to the
values of Lyapunov exponents for the forward-dynamics, which describe the
growth or shrinkage of infinitesimal perturbations. Here, we propose gradient
flossing, a novel approach to tackling gradient instability by pushing Lyapunov
exponents of the forward dynamics toward zero during learning. We achieve this
by regularizing Lyapunov exponents through backpropagation using differentiable
linear algebra. This enables us to "floss" the gradients, stabilizing them and
thus improving network training. We demonstrate that gradient flossing controls
not only the gradient norm but also the condition number of the long-term
Jacobian, facilitating multidimensional error feedback propagation. We find
that applying gradient flossing prior to training enhances both the success
rate and convergence speed for tasks involving long time horizons. For
challenging tasks, we show that gradient flossing during training can further
increase the time horizon that can be bridged by backpropagation through time.
Moreover, we demonstrate the effectiveness of our approach on various RNN
architectures and tasks of variable temporal complexity. Additionally, we
provide a simple implementation of our gradient flossing algorithm that can be
used in practice. Our results indicate that gradient flossing via regularizing
Lyapunov exponents can significantly enhance the effectiveness of RNN training
and mitigate the exploding and vanishing gradient problem.
- Abstract(参考訳): リカレントニューラルネットワーク(rnn)のトレーニングは、長い時間地平線を横切る勾配の不安定さのため、依然として課題である。
最近の研究は、これらの問題を、無限小摂動の成長または縮小を記述するフォワード力学に対するリアプノフ指数の値に関連付けている。
本稿では,学習中の前方運動のリアプノフ指数をゼロに推し進めることで,勾配不安定に対処する新しい手法である勾配フロス法を提案する。
我々は、微分線型代数を用いたバックプロパゲーションにより、リアプノフ指数を正則化する。
これにより、勾配を"浮き彫り"し、安定化し、ネットワークトレーニングを改善することができます。
勾配フロス化は, 勾配ノルムだけでなく, 長期ジャコビアンの条件数も制御し, 多次元誤差フィードバックの伝播を促進する。
トレーニング前にグラデーションフロスを適用すると,長時間ホライズンを伴うタスクの成功率と収束速度が向上することがわかった。
課題として,学習中の勾配フロスが,時間的バックプロパゲーションによって橋渡しできる時間線をさらに増加させることができることを示した。
さらに,様々なRNNアーキテクチャと時間的複雑さのタスクに対するアプローチの有効性を示す。
さらに,実際に使用可能な勾配フロスアルゴリズムの簡単な実装も提供する。
以上の結果から,リアプノフ指数の正則化による勾配フロスリングは,RNNトレーニングの有効性を著しく向上し,爆発的・消滅的な勾配問題を緩和できる可能性が示唆された。
関連論文リスト
- One-Step Forward and Backtrack: Overcoming Zig-Zagging in Loss-Aware
Quantization Training [12.400950982075948]
重み量子化は、限られたリソースを持つエッジデバイスに展開するディープニューラルネットワークを圧縮する効果的な手法である。
従来の損失対応量子化法は、全精度勾配を置き換えるために量子化勾配を用いるのが一般的である。
本稿では、損失認識量子化のための1ステップの前進およびバックトラック手法を提案し、より正確で安定した勾配方向を得る。
論文 参考訳(メタデータ) (2024-01-30T05:42:54Z) - Take A Shortcut Back: Mitigating the Gradient Vanishing for Training Spiking Neural Networks [15.691263438655842]
Spiking Neural Network(SNN)は生物学的にインスパイアされたニューラルネットワーク基盤であり、最近大きな注目を集めている。
SNNの訓練は、発射スパイクプロセスの未定義の勾配のため、直接的に挑戦する。
本論文では,損失から浅い層に直接勾配を伝達する手法を提案する。
論文 参考訳(メタデータ) (2024-01-09T10:54:41Z) - Globally Optimal Training of Neural Networks with Threshold Activation
Functions [63.03759813952481]
しきい値アクティベートを伴うディープニューラルネットワークの重み劣化正規化学習問題について検討した。
ネットワークの特定の層でデータセットを破砕できる場合に、簡易な凸最適化の定式化を導出する。
論文 参考訳(メタデータ) (2023-03-06T18:59:13Z) - On a continuous time model of gradient descent dynamics and instability
in deep learning [12.20253214080485]
そこで本研究では,勾配降下力学を近似した連続時間流として主流れ(PF)を提案する。
PFは、ディープラーニングにおいて最近観測された安定性現象の端に光を放つ。
不安定性に対する新たな理解を用いて,トレーニング安定性とテストセット評価性能のトレードオフを制御できる学習率適応法を提案する。
論文 参考訳(メタデータ) (2023-02-03T19:03:10Z) - Continual Learning with Scaled Gradient Projection [8.847574864259391]
ニューラルネットワークでは、連続学習はシーケンシャルタスク間の勾配干渉を引き起こし、新しいタスクを学習しながら古いタスクを忘れてしまう。
本稿では,忘れを最小化しつつ,新しい学習を改善するためのスケールドグラディエント・プロジェクション(SGP)手法を提案する。
画像の連続的分類から強化学習タスクまでに及ぶ実験を行い、最先端の手法よりも訓練オーバーヘッドの少ない性能を報告した。
論文 参考訳(メタデータ) (2023-02-02T19:46:39Z) - Implicit Bias in Leaky ReLU Networks Trained on High-Dimensional Data [63.34506218832164]
本研究では,ReLUを活性化した2層完全連結ニューラルネットワークにおける勾配流と勾配降下の暗黙的バイアスについて検討する。
勾配流には、均一なニューラルネットワークに対する暗黙のバイアスに関する最近の研究を活用し、リーク的に勾配流が2つ以上のランクを持つニューラルネットワークを生成することを示す。
勾配降下は, ランダムな分散が十分小さい場合, 勾配降下の1ステップでネットワークのランクが劇的に低下し, トレーニング中もランクが小さくなることを示す。
論文 参考訳(メタデータ) (2022-10-13T15:09:54Z) - Continuous-Time Meta-Learning with Forward Mode Differentiation [65.26189016950343]
本稿では,勾配ベクトル場の力学に適応するメタ学習アルゴリズムであるContinuous Meta-Learning(COMLN)を紹介する。
学習プロセスをODEとして扱うことは、軌跡の長さが現在連続しているという顕著な利点を提供する。
本稿では,実行時とメモリ使用時の効率を実証的に示すとともに,いくつかの画像分類問題に対して有効性を示す。
論文 参考訳(メタデータ) (2022-03-02T22:35:58Z) - Layerwise Optimization by Gradient Decomposition for Continual Learning [78.58714373218118]
ディープニューラルネットワークは、様々な領域で最先端の超人的パフォーマンスを実現します。
タスクを逐次学習する場合、ネットワークは「破滅的忘れ」と呼ばれる過去のタスクの知識を忘れやすい。
論文 参考訳(メタデータ) (2021-05-17T01:15:57Z) - Gradient Descent on Neural Networks Typically Occurs at the Edge of
Stability [94.4070247697549]
ニューラルネットワークトレーニング対象に対するフルバッチ勾配降下は、安定性のエッジと呼ばれるレジームで動作します。
この体制では、トレーニング損失 Hessian の最大固有値は2/text(ステップサイズ)$ の数値よりすぐ上にあり、トレーニング損失は短い時間スケールで非単調に振る舞うが、長い時間スケールでは一貫して減少する。
論文 参考訳(メタデータ) (2021-02-26T22:08:19Z) - The Break-Even Point on Optimization Trajectories of Deep Neural
Networks [64.7563588124004]
この軌道上の「破滅的な」点の存在を論じる。
トレーニングの初期段階での大きな学習率を用いることで、勾配のばらつきが軽減されることを示す。
また, バッチ正規化層を有するニューラルネットワークにおいても, 低学習率を用いることで損失面の条件が悪くなることを示す。
論文 参考訳(メタデータ) (2020-02-21T22:55:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。