論文の概要: On discretisation drift and smoothness regularisation in neural network
training
- arxiv url: http://arxiv.org/abs/2310.14036v1
- Date: Sat, 21 Oct 2023 15:21:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-25 02:11:11.891285
- Title: On discretisation drift and smoothness regularisation in neural network
training
- Title(参考訳): ニューラルネットワークトレーニングにおける離散ドリフトと平滑性規則化について
- Authors: Mihaela Claudia Rosca
- Abstract要約: 私たちは、最適化とモデル正規化に焦点をあてて、ディープラーニングの理解を改善するためのステップを作ることを目標としています。
まず、最も一般的なディープラーニング最適化アルゴリズムに基づいて、離散時間アルゴリズムである勾配降下(GD)を調査することから始める。
NGFと異なり、これらの新たな流れは、教師付き学習や2人のプレイヤゲームで観察されるトレーニング不安定性など、GDの学習速度固有の振る舞いを記述するのに使用できる。
そして、新しい学習率スケジュールと正則性を構築することにより、連続時間からの洞察を不安定なGDダイナミクスの緩和戦略に変換する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The deep learning recipe of casting real-world problems as mathematical
optimisation and tackling the optimisation by training deep neural networks
using gradient-based optimisation has undoubtedly proven to be a fruitful one.
The understanding behind why deep learning works, however, has lagged behind
its practical significance. We aim to make steps towards an improved
understanding of deep learning with a focus on optimisation and model
regularisation. We start by investigating gradient descent (GD), a
discrete-time algorithm at the basis of most popular deep learning optimisation
algorithms. Understanding the dynamics of GD has been hindered by the presence
of discretisation drift, the numerical integration error between GD and its
often studied continuous-time counterpart, the negative gradient flow (NGF). To
add to the toolkit available to study GD, we derive novel continuous-time flows
that account for discretisation drift. Unlike the NGF, these new flows can be
used to describe learning rate specific behaviours of GD, such as training
instabilities observed in supervised learning and two-player games. We then
translate insights from continuous time into mitigation strategies for unstable
GD dynamics, by constructing novel learning rate schedules and regularisers
that do not require additional hyperparameters. Like optimisation, smoothness
regularisation is another pillar of deep learning's success with wide use in
supervised learning and generative modelling. Despite their individual
significance, the interactions between smoothness regularisation and
optimisation have yet to be explored. We find that smoothness regularisation
affects optimisation across multiple deep learning domains, and that
incorporating smoothness regularisation in reinforcement learning leads to a
performance boost that can be recovered using adaptions to optimisation
methods.
- Abstract(参考訳): 数学的な最適化として現実の問題をキャストし、勾配に基づく最適化を用いてディープニューラルネットワークをトレーニングすることで最適化に取り組むディープラーニングのレシピは、間違いなく実りあるものであることが証明されている。
しかし、なぜディープラーニングが機能するのかの背景にある理解は、その実用的重要性を後押ししている。
我々は、最適化とモデル正規化に焦点をあてて、ディープラーニングの理解を改善するためのステップを作ることを目指している。
まず,最も一般的なディープラーニング最適化アルゴリズムに基づいて,離散時間アルゴリズムである勾配降下(gd)について検討する。
GDの力学を理解することは、離散化ドリフトの存在、GDとしばしば研究される連続時間的勾配流(NGF)との数値積分誤差によって妨げられている。
GDを研究できるツールキットに追加するために、離散化ドリフトを考慮した新しい連続時間フローを導出する。
NGFとは異なり、これらの新しいフローは、教師付き学習や2人のプレイヤーゲームで観察されるトレーニング不安定性など、GDの学習速度固有の振る舞いを記述するために使用することができる。
次に,新しい学習率スケジュールと追加のハイパーパラメータを必要としない正規化器を構築することにより,連続時間からの洞察を不安定なgdダイナミクスのための緩和戦略に翻訳する。
最適化と同様に、滑らかさの規則化は、教師付き学習と生成的モデリングで広く使われる深層学習の成功の柱である。
個々の重要性にもかかわらず、滑らかさの正則化と最適化の相互作用はまだ検討されていない。
複数の深層学習領域におけるスムーズネス正則化は最適化に影響を及ぼし、強化学習にスムーズネス正則化を取り入れることで、最適化手法への適応を用いて回復できる性能向上につながることが判明した。
関連論文リスト
- Efficient Weight-Space Laplace-Gaussian Filtering and Smoothing for Sequential Deep Learning [29.328769628694484]
連続学習のような関連するタスクのシーケンスを効果的に学習することは、ニューラルネットにとって重要な課題となる。
ベイズ推定に基づくタスクを逐次学習するための基盤的枠組みを用いてこの問題に対処する。
論文 参考訳(メタデータ) (2024-10-09T11:54:33Z) - Gradient-Variation Online Learning under Generalized Smoothness [56.38427425920781]
勾配変分オンライン学習は、オンライン関数の勾配の変化とともにスケールする後悔の保証を達成することを目的としている。
ニューラルネットワーク最適化における最近の取り組みは、一般化された滑らかさ条件を示唆し、滑らかさは勾配ノルムと相関する。
ゲームにおける高速収束と拡張逆最適化への応用について述べる。
論文 参考訳(メタデータ) (2024-08-17T02:22:08Z) - The Marginal Value of Momentum for Small Learning Rate SGD [20.606430391298815]
モーメントは、勾配雑音のない強い凸条件下での勾配降下の収束を加速することが知られている。
実験により、最適学習率があまり大きくない実践訓練において、運動量には最適化と一般化の両方の利点があることがわかった。
論文 参考訳(メタデータ) (2023-07-27T21:01:26Z) - Lottery Tickets in Evolutionary Optimization: On Sparse
Backpropagation-Free Trainability [0.0]
我々は勾配降下(GD)に基づくスパーストレーニングと進化戦略(ES)について研究する。
ESは多様で平坦な局所最適条件を探索し、疎度レベルと独立ランをまたいだ線形モード接続を保たないことがわかった。
論文 参考訳(メタデータ) (2023-05-31T15:58:54Z) - Implicit Stochastic Gradient Descent for Training Physics-informed
Neural Networks [51.92362217307946]
物理インフォームドニューラルネットワーク(PINN)は、前方および逆微分方程式問題の解法として効果的に実証されている。
PINNは、近似すべきターゲット関数が高周波またはマルチスケールの特徴を示す場合、トレーニング障害に閉じ込められる。
本稿では,暗黙的勾配降下法(ISGD)を用いてPINNを訓練し,トレーニングプロセスの安定性を向上させることを提案する。
論文 参考訳(メタデータ) (2023-03-03T08:17:47Z) - Adaptive Gradient Method with Resilience and Momentum [120.83046824742455]
レジリエンスとモメンタム(AdaRem)を用いた適応勾配法を提案する。
AdaRemは、過去の1つのパラメータの変化方向が現在の勾配の方向と一致しているかどうかに応じてパラメータワイズ学習率を調整する。
本手法は,学習速度とテスト誤差の観点から,従来の適応学習率に基づくアルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2020-10-21T14:49:00Z) - Reparameterized Variational Divergence Minimization for Stable Imitation [57.06909373038396]
確率的発散の選択における変動が、より高性能なILOアルゴリズムをもたらす可能性について検討する。
本稿では,提案する$f$-divergence最小化フレームワークの課題を軽減するために,逆模倣学習のための再パラメータ化手法を提案する。
経験的に、我々の設計選択は、ベースラインアプローチより優れ、低次元連続制御タスクにおける専門家のパフォーマンスとより密に適合するIOOアルゴリズムを許容することを示した。
論文 参考訳(メタデータ) (2020-06-18T19:04:09Z) - AdaS: Adaptive Scheduling of Stochastic Gradients [50.80697760166045]
我々は、textit "knowledge gain" と textit "mapping condition" の概念を導入し、Adaptive Scheduling (AdaS) と呼ばれる新しいアルゴリズムを提案する。
実験によると、AdaSは派生した指標を用いて、既存の適応学習手法よりも高速な収束と優れた一般化、そして(b)いつトレーニングを中止するかを決定するための検証セットへの依存の欠如を示す。
論文 参考訳(メタデータ) (2020-06-11T16:36:31Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z) - Gradient Monitored Reinforcement Learning [0.0]
我々は、強化学習アルゴリズムにおける訓練の強化と評価性能に焦点をあてる。
本稿では,トレーニングプロセス自体からの動的発達とフィードバックに基づいて,ニューラルネットワークの重みパラメータの学習をステアリングする手法を提案する。
論文 参考訳(メタデータ) (2020-05-25T13:45:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。