論文の概要: Conformal Symplectic Optimization for Stable Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2412.02291v1
- Date: Tue, 03 Dec 2024 09:07:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-04 15:48:48.695481
- Title: Conformal Symplectic Optimization for Stable Reinforcement Learning
- Title(参考訳): 安定強化学習のためのコンフォーマルシンプレクティック最適化
- Authors: Yao Lyu, Xiangteng Zhang, Shengbo Eben Li, Jingliang Duan, Letian Tao, Qing Xu, Lei He, Keqiang Li,
- Abstract要約: 相対論的運動エネルギーを利用することで、RADは特殊相対性理論と制限パラメータの更新を有限速以下に取り入れ、異常な影響を効果的に緩和する。
特にRADは155.1%のパフォーマンス向上を実現しており、アタリゲームのトレーニングにおける有効性を示している。
- 参考スコア(独自算出の注目度): 21.491621524500736
- License:
- Abstract: Training deep reinforcement learning (RL) agents necessitates overcoming the highly unstable nonconvex stochastic optimization inherent in the trial-and-error mechanism. To tackle this challenge, we propose a physics-inspired optimization algorithm called relativistic adaptive gradient descent (RAD), which enhances long-term training stability. By conceptualizing neural network (NN) training as the evolution of a conformal Hamiltonian system, we present a universal framework for transferring long-term stability from conformal symplectic integrators to iterative NN updating rules, where the choice of kinetic energy governs the dynamical properties of resulting optimization algorithms. By utilizing relativistic kinetic energy, RAD incorporates principles from special relativity and limits parameter updates below a finite speed, effectively mitigating abnormal gradient influences. Additionally, RAD models NN optimization as the evolution of a multi-particle system where each trainable parameter acts as an independent particle with an individual adaptive learning rate. We prove RAD's sublinear convergence under general nonconvex settings, where smaller gradient variance and larger batch sizes contribute to tighter convergence. Notably, RAD degrades to the well-known adaptive moment estimation (ADAM) algorithm when its speed coefficient is chosen as one and symplectic factor as a small positive value. Experimental results show RAD outperforming nine baseline optimizers with five RL algorithms across twelve environments, including standard benchmarks and challenging scenarios. Notably, RAD achieves up to a 155.1% performance improvement over ADAM in Atari games, showcasing its efficacy in stabilizing and accelerating RL training.
- Abstract(参考訳): 深部強化学習(RL)エージェントの訓練は、トライアル・アンド・エラー機構に固有の非常に不安定な非凸確率最適化を克服する必要がある。
この課題に対処するために、相対論的適応勾配勾配(RAD)と呼ばれる物理に着想を得た最適化アルゴリズムを提案する。
共形ハミルトニアンシステムの進化としてニューラルネットワーク(NN)トレーニングを概念化することにより、共形シンプレクティック積分器から反復的なNN更新規則へ長期的な安定性を移行するための普遍的な枠組みを提案する。
相対論的運動エネルギーを利用することで、RADは特殊相対性理論と有限速度以下でのパラメータ更新の制限を取り入れ、異常な勾配の影響を効果的に緩和する。
さらに、RADはNN最適化を、各トレーニング可能なパラメータが個別適応学習率を持つ独立粒子として機能する多粒子システムの進化としてモデル化する。
一般の非凸条件下でのRADのサブ線形収束を証明し、より小さな勾配分散とより大きなバッチサイズがより厳密な収束に寄与することを示す。
特に、RADは、その速度係数を1つとし、シンプレクティック係数を小さな正の値とするときに、よく知られた適応モーメント推定(ADAM)アルゴリズムに分解する。
実験の結果、RADは標準ベンチマークや挑戦シナリオを含む12環境で5つのRLアルゴリズムを持つ9つのベースラインオプティマイザより優れていた。
特に、RADはAtariゲームにおけるADAMよりも最大155.1%パフォーマンス改善を実現し、RLトレーニングの安定化と加速の有効性を示している。
関連論文リスト
- Dynamic Estimation of Learning Rates Using a Non-Linear Autoregressive Model [0.0]
本稿では,モーメントの概念を取り入れた適応非線形自己回帰モデルを提案する。
本枠組みでは,学習率の異なる3つの推定器を提案し,その収束の理論的証明を提供する。
論文 参考訳(メタデータ) (2024-10-13T17:55:58Z) - Super Level Sets and Exponential Decay: A Synergistic Approach to Stable Neural Network Training [0.0]
指数減衰と高度な反オーバーフィッティング戦略を統合する動的学習率アルゴリズムを開発した。
適応学習率の影響を受けて、損失関数の超レベル集合が常に連結であることを証明する。
論文 参考訳(メタデータ) (2024-09-25T09:27:17Z) - Hallmarks of Optimization Trajectories in Neural Networks: Directional Exploration and Redundancy [75.15685966213832]
最適化トラジェクトリのリッチな方向構造をポイントワイズパラメータで解析する。
トレーニング中のスカラーバッチノルムパラメータは,ネットワーク全体のトレーニング性能と一致していることを示す。
論文 参考訳(メタデータ) (2024-03-12T07:32:47Z) - Adaptive Federated Learning Over the Air [108.62635460744109]
オーバー・ザ・エア・モデル・トレーニングの枠組みの中で,適応勾配法,特にAdaGradとAdamの連合バージョンを提案する。
解析の結果,AdaGrad に基づくトレーニングアルゴリズムは $mathcalO(ln(T) / T 1 - frac1alpha の速度で定常点に収束することがわかった。
論文 参考訳(メタデータ) (2024-03-11T09:10:37Z) - An Automatic Learning Rate Schedule Algorithm for Achieving Faster
Convergence and Steeper Descent [10.061799286306163]
実世界のニューラルネットワーク最適化におけるデルタバーデルタアルゴリズムの収束挙動について検討する。
RDBD(Regrettable Delta-Bar-Delta)と呼ばれる新しい手法を提案する。
提案手法は,バイアス付き学習率調整の迅速な修正を可能にし,最適化プロセスの収束を保証する。
論文 参考訳(メタデータ) (2023-10-17T14:15:57Z) - Implicit Stochastic Gradient Descent for Training Physics-informed
Neural Networks [51.92362217307946]
物理インフォームドニューラルネットワーク(PINN)は、前方および逆微分方程式問題の解法として効果的に実証されている。
PINNは、近似すべきターゲット関数が高周波またはマルチスケールの特徴を示す場合、トレーニング障害に閉じ込められる。
本稿では,暗黙的勾配降下法(ISGD)を用いてPINNを訓練し,トレーニングプロセスの安定性を向上させることを提案する。
論文 参考訳(メタデータ) (2023-03-03T08:17:47Z) - Learning to Accelerate Partial Differential Equations via Latent Global
Evolution [64.72624347511498]
The Latent Evolution of PDEs (LE-PDE) is a simple, fast and scalable method to accelerate the simulation and inverse optimization of PDEs。
我々は,このような潜在力学を効果的に学習し,長期的安定性を確保するために,新たな学習目標を導入する。
更新対象の寸法が最大128倍、速度が最大15倍向上し、競争精度が向上した。
論文 参考訳(メタデータ) (2022-06-15T17:31:24Z) - An Adaptive Gradient Method with Energy and Momentum [0.0]
目的関数の勾配に基づく最適化のための新しいアルゴリズムを提案する。
この方法は実装が簡単で、計算効率が良く、大規模機械学習問題に適している。
論文 参考訳(メタデータ) (2022-03-23T04:48:38Z) - Momentum Accelerates the Convergence of Stochastic AUPRC Maximization [80.8226518642952]
高精度リコール曲線(AUPRC)に基づく領域の最適化について検討し,不均衡なタスクに広く利用されている。
我々は、$O (1/epsilon4)$のより優れた反復による、$epsilon$定常解を見つけるための新しい運動量法を開発する。
また,O(1/epsilon4)$と同じ複雑さを持つ適応手法の新たなファミリを設計し,実際により高速な収束を享受する。
論文 参考訳(メタデータ) (2021-07-02T16:21:52Z) - Adaptive Gradient Method with Resilience and Momentum [120.83046824742455]
レジリエンスとモメンタム(AdaRem)を用いた適応勾配法を提案する。
AdaRemは、過去の1つのパラメータの変化方向が現在の勾配の方向と一致しているかどうかに応じてパラメータワイズ学習率を調整する。
本手法は,学習速度とテスト誤差の観点から,従来の適応学習率に基づくアルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2020-10-21T14:49:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。