論文の概要: Investigating the Edge of Stability Phenomenon in Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2307.04210v1
- Date: Sun, 9 Jul 2023 15:46:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-11 14:48:58.706427
- Title: Investigating the Edge of Stability Phenomenon in Reinforcement Learning
- Title(参考訳): 強化学習における安定現象のエッジの検討
- Authors: Rares Iordan, Marc Peter Deisenroth, Mihaela Rosca
- Abstract要約: 強化学習(RL)における安定性現象の端点を探る
教師付き学習との大きな違いにもかかわらず、安定性現象の端は、非政治的な深いRLに存在している。
この結果から,ニューラルネットワーク構造は問題領域間の移動を最適化するダイナミクスをもたらす可能性があるが,深いRL最適化の特定の側面は,教師付き学習のような領域と区別できる可能性が示唆された。
- 参考スコア(独自算出の注目度): 20.631461205889487
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent progress has been made in understanding optimisation dynamics in
neural networks trained with full-batch gradient descent with momentum with the
uncovering of the edge of stability phenomenon in supervised learning. The edge
of stability phenomenon occurs as the leading eigenvalue of the Hessian reaches
the divergence threshold of the underlying optimisation algorithm for a
quadratic loss, after which it starts oscillating around the threshold, and the
loss starts to exhibit local instability but decreases over long time frames.
In this work, we explore the edge of stability phenomenon in reinforcement
learning (RL), specifically off-policy Q-learning algorithms across a variety
of data regimes, from offline to online RL. Our experiments reveal that,
despite significant differences to supervised learning, such as
non-stationarity of the data distribution and the use of bootstrapping, the
edge of stability phenomenon can be present in off-policy deep RL. Unlike
supervised learning, however, we observe strong differences depending on the
underlying loss, with DQN -- using a Huber loss -- showing a strong edge of
stability effect that we do not observe with C51 -- using a cross entropy loss.
Our results suggest that, while neural network structure can lead to
optimisation dynamics that transfer between problem domains, certain aspects of
deep RL optimisation can differentiate it from domains such as supervised
learning.
- Abstract(参考訳): 近年,教師付き学習における安定性現象のエッジを明らかにする運動量による全バッチ勾配降下学習ニューラルネットワークの最適化ダイナミクスの理解が進んでいる。
安定現象のエッジは、ヘッシアンの主固有値が二次損失に対する最適化アルゴリズムの発散しきい値に達すると発生し、その後、しきい値の周りを振動し始め、損失は局所不安定となり始めるが、長い時間フレームで減少する。
本研究では,オフラインからオンラインrlまで,さまざまなデータレジームにまたがるオフポリシーq-ラーニングアルゴリズムである強化学習(rl)における安定性現象のエッジについて検討する。
実験の結果,データ分布の非定常性やブートストラップの利用など,教師あり学習に大きく違いがあるにもかかわらず,非政治的な深層RLには安定性現象の端が存在することがわかった。
しかし、教師あり学習とは異なり、根底にある損失によって強い違いが観察され、DQN -- Huber損失 -- はC51では観測できない安定性効果の強いエッジを示す。
この結果から,ニューラルネットワーク構造は問題領域間の移動を最適化するダイナミクスをもたらす可能性があるが,深いRL最適化の特定の側面は,教師付き学習のような領域と区別できる可能性が示唆された。
関連論文リスト
- Exploring the Stability Gap in Continual Learning: The Role of the Classification Head [0.6749750044497732]
安定性のギャップは、トレーニング中に部分的に回復する前に、モデルが最初に学習したタスクのパフォーマンスを失う現象である。
バックボーンと分類ヘッドが安定性のギャップに与える影響を評価できるツールとして,NMC(Nest-mean Classifier)を導入した。
実験の結果, NMCは最終性能を向上するだけでなく, 各種連続学習ベンチマークのトレーニング安定性を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2024-11-06T15:45:01Z) - Super Level Sets and Exponential Decay: A Synergistic Approach to Stable Neural Network Training [0.0]
指数減衰と高度な反オーバーフィッティング戦略を統合する動的学習率アルゴリズムを開発した。
適応学習率の影響を受けて、損失関数の超レベル集合が常に連結であることを証明する。
論文 参考訳(メタデータ) (2024-09-25T09:27:17Z) - Universal Sharpness Dynamics in Neural Network Training: Fixed Point
Analysis, Edge of Stability, and Route to Chaos [6.579523168465526]
ニューラルネットワークの降下力学では、Hessian of the loss(シャープネス)のトップ固有値はトレーニングを通して様々な堅牢な現象を示す。
1つのトレーニング例に基づいて訓練された単純な2ドル層線形ネットワーク(UVモデル)が、実世界のシナリオで観察されるすべての本質的なシャープネス現象を示すことを示した。
論文 参考訳(メタデータ) (2023-11-03T17:59:40Z) - Implicit Stochastic Gradient Descent for Training Physics-informed
Neural Networks [51.92362217307946]
物理インフォームドニューラルネットワーク(PINN)は、前方および逆微分方程式問題の解法として効果的に実証されている。
PINNは、近似すべきターゲット関数が高周波またはマルチスケールの特徴を示す場合、トレーニング障害に閉じ込められる。
本稿では,暗黙的勾配降下法(ISGD)を用いてPINNを訓練し,トレーニングプロセスの安定性を向上させることを提案する。
論文 参考訳(メタデータ) (2023-03-03T08:17:47Z) - On a continuous time model of gradient descent dynamics and instability
in deep learning [12.20253214080485]
そこで本研究では,勾配降下力学を近似した連続時間流として主流れ(PF)を提案する。
PFは、ディープラーニングにおいて最近観測された安定性現象の端に光を放つ。
不安定性に対する新たな理解を用いて,トレーニング安定性とテストセット評価性能のトレードオフを制御できる学習率適応法を提案する。
論文 参考訳(メタデータ) (2023-02-03T19:03:10Z) - Stability and Generalization Analysis of Gradient Methods for Shallow
Neural Networks [59.142826407441106]
本稿では,アルゴリズム安定性の概念を活用して,浅層ニューラルネットワーク(SNN)の一般化挙動について検討する。
我々は、SNNを訓練するために勾配降下(GD)と勾配降下(SGD)を考慮する。
論文 参考訳(メタデータ) (2022-09-19T18:48:00Z) - A PDE-based Explanation of Extreme Numerical Sensitivities and Edge of Stability in Training Neural Networks [12.355137704908042]
勾配降下型深層ネットワーク(SGD)の現在の訓練実践における抑制的数値不安定性を示す。
我々は、偏微分方程式(PDE)の数値解析を用いて理論的枠組みを提示し、畳み込みニューラルネットワーク(CNN)の勾配降下PDEを分析する。
これはCNNの降下に伴う非線形PDEの結果であり、離散化のステップサイズを過度に運転すると局所線形化が変化し、安定化効果がもたらされることを示す。
論文 参考訳(メタデータ) (2022-06-04T14:54:05Z) - Gradient Descent on Neural Networks Typically Occurs at the Edge of
Stability [94.4070247697549]
ニューラルネットワークトレーニング対象に対するフルバッチ勾配降下は、安定性のエッジと呼ばれるレジームで動作します。
この体制では、トレーニング損失 Hessian の最大固有値は2/text(ステップサイズ)$ の数値よりすぐ上にあり、トレーニング損失は短い時間スケールで非単調に振る舞うが、長い時間スケールでは一貫して減少する。
論文 参考訳(メタデータ) (2021-02-26T22:08:19Z) - Gradient Starvation: A Learning Proclivity in Neural Networks [97.02382916372594]
グラディエント・スターベーションは、タスクに関連する機能のサブセットのみをキャプチャすることで、クロスエントロピー損失を最小化するときに発生する。
この研究は、ニューラルネットワークにおけるそのような特徴不均衡の出現に関する理論的説明を提供する。
論文 参考訳(メタデータ) (2020-11-18T18:52:08Z) - Robust Inverse Reinforcement Learning under Transition Dynamics Mismatch [60.23815709215807]
本研究では,逆強化学習(IRL)問題について,専門家と学習者間の遷移力学ミスマッチの下で検討する。
本稿では,このミスマッチを支援するための基本手法として,ロバストなMCE IRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-07-02T14:57:13Z) - An Ode to an ODE [78.97367880223254]
我々は、O(d) 群上の行列フローに応じて主フローの時間依存パラメータが進化する ODEtoODE と呼ばれるニューラルODE アルゴリズムの新しいパラダイムを提案する。
この2つの流れのネストされたシステムは、訓練の安定性と有効性を提供し、勾配の消滅・爆発問題を確実に解決する。
論文 参考訳(メタデータ) (2020-06-19T22:05:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。