論文の概要: Policy Gradient with Second Order Momentum
- arxiv url: http://arxiv.org/abs/2505.11561v1
- Date: Fri, 16 May 2025 06:23:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:10.703117
- Title: Policy Gradient with Second Order Momentum
- Title(参考訳): 2次モメンタムによる政策グラディエント
- Authors: Tianyu Sun,
- Abstract要約: 第2次モメンタムによるポリシーグラディエント(PG-SOM)は、強化学習政策のための軽量な2次最適化スキームである。
PG-SOMは古典的なREINFORCE更新を2つの指数関数的に重み付けされた統計量で強化している。
標準制御ベンチマークの実験では、サンプル効率が2.1倍に向上し、第1次やフィッシャー・マトリクスのベースラインに比べてかなりのばらつきが減少した。
- 参考スコア(独自算出の注目度): 2.44755919161855
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We develop Policy Gradient with Second-Order Momentum (PG-SOM), a lightweight second-order optimisation scheme for reinforcement-learning policies. PG-SOM augments the classical REINFORCE update with two exponentially weighted statistics: a first-order gradient average and a diagonal approximation of the Hessian. By preconditioning the gradient with this curvature estimate, the method adaptively rescales each parameter, yielding faster and more stable ascent of the expected return. We provide a concise derivation, establish that the diagonal Hessian estimator is unbiased and positive-definite under mild regularity assumptions, and prove that the resulting update is a descent direction in expectation. Numerical experiments on standard control benchmarks show up to a 2.1x increase in sample efficiency and a substantial reduction in variance compared to first-order and Fisher-matrix baselines. These results indicate that even coarse second-order information can deliver significant practical gains while incurring only D memory overhead for a D-parameter policy. All code and reproducibility scripts will be made publicly available.
- Abstract(参考訳): 我々は,強化学習政策のための軽量な2次最適化スキームである2次モメンタム(PG-SOM)を用いたポリシーグラディエントを開発する。
PG-SOMは古典的なREINFORCE更新を2つの指数関数的に重み付けされた統計量で強化している。
この曲率推定で勾配をプレコンディションすることで、各パラメータを適応的に再スケールし、期待されるリターンのより高速でより安定した上昇をもたらす。
我々は、簡潔な導出を行い、対角 Hessian 推定器が穏やかな規則性仮定の下で不偏で正定値であることを確立し、その結果の更新が期待の降下方向であることを証明する。
標準制御ベンチマークの数値実験では、サンプル効率が2.1倍に向上し、第1次やフィッシャー・マトリクスのベースラインに比べてかなりのばらつきが減少した。
これらの結果は、DパラメータポリシーのためにDメモリのオーバーヘッドのみを発生させながら、粗い2階情報さえもかなりの実用的利益をもたらすことを示唆している。
すべてのコードと再現性スクリプトが公開されます。
関連論文リスト
- More Optimal Fractional-Order Stochastic Gradient Descent for Non-Convex Optimization Problems [2.5971517743176915]
本稿では,FOSGDとFOSGDを統合した2FOSGD法を提案する。
感度と有効次元性を追跡することにより、2SEDFOSGDは指数を動的に変調し、スラグ振動と急収束を緩和する。
論文 参考訳(メタデータ) (2025-05-05T19:27:36Z) - Refining Adaptive Zeroth-Order Optimization at Ease [24.327161891577727]
本稿では,Refined Adaptive Zeroth-Order Optimization (R-AdaZO)を紹介する。
まず、ZO勾配推定における第1モーメント推定の未解決分散低減効果を示す。
次に、これらの分散誘導勾配推定に基づいて第2モーメント推定を洗練し、最適化ランドスケープの幾何をより正確に把握する。
論文 参考訳(メタデータ) (2025-02-03T03:10:44Z) - Estimating the Hessian Matrix of Ranking Objectives for Stochastic Learning to Rank with Gradient Boosted Trees [63.18324983384337]
グラディエントブースト決定木(GBDT)のランク付け手法について紹介する。
我々の主な貢献は、二階微分、すなわちヘッセン行列に対する新しい推定器である。
推定器を既存のPL-Rankフレームワークに組み込む。
論文 参考訳(メタデータ) (2024-04-18T13:53:32Z) - Information-Theoretic Trust Regions for Stochastic Gradient-Based
Optimization [17.79206971486723]
arTuROは適応モーメントベース最適化の高速収束とSGDの機能を組み合わせたものであることを示す。
我々は、勾配からヘッセンの対角要素を近似し、1次情報のみを用いて予測されたヘッセンのモデルを構築する。
arTuROは適応モーメントベース最適化の高速収束とSGDの機能を組み合わせたものであることを示す。
論文 参考訳(メタデータ) (2023-10-31T16:08:38Z) - The Role of Baselines in Policy Gradient Optimization [83.42050606055822]
Emphstateのバリューベースラインが、オン・ポリティクスを可能にしていることを示す。
世界的な最適な政策勾配(NPG)に収束する。
O (1/t) レート勾配でのポリシー。
値ベースラインの主な効果は、その分散ではなく、更新のアグレッシブさをthabfreduceすることにある。
論文 参考訳(メタデータ) (2023-01-16T06:28:00Z) - Online Statistical Inference for Contextual Bandits via Stochastic
Gradient Descent [10.108468796986074]
意思決定の文脈的包括的枠組みにおけるモデルパラメータのオンライン統計的推測について検討する。
本稿では,重み付き勾配勾配による決定規則の更新が可能な,オンラインおよび適応型データ収集環境のための汎用フレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-30T18:57:08Z) - NAG-GS: Semi-Implicit, Accelerated and Robust Stochastic Optimizer [45.47667026025716]
2つの重要な要素に依存した、新しく、堅牢で、加速された反復を提案する。
NAG-GSと呼ばれる手法の収束と安定性は、まず広範に研究されている。
我々は、NAG-arityが、重量減衰を伴う運動量SGDや機械学習モデルのトレーニングのためのAdamWといった最先端の手法と競合していることを示す。
論文 参考訳(メタデータ) (2022-09-29T16:54:53Z) - On the Convergence of Stochastic Extragradient for Bilinear Games with
Restarted Iteration Averaging [96.13485146617322]
本稿では, ステップサイズが一定であるSEG法の解析を行い, 良好な収束をもたらす手法のバリエーションを示す。
平均化で拡張した場合、SEGはナッシュ平衡に確実に収束し、スケジュールされた再起動手順を組み込むことで、その速度が確実に加速されることを証明した。
論文 参考訳(メタデータ) (2021-06-30T17:51:36Z) - Sparse Representations of Positive Functions via First and Second-Order
Pseudo-Mirror Descent [15.340540198612823]
推定器の範囲が非負である必要がある場合、予測されるリスク問題を考察する。
Emphpseudo-gradientsを用いた近似ミラーの1階および2階の変種を開発した。
実験は、実際に不均一なプロセス強度推定に好適な性能を示す。
論文 参考訳(メタデータ) (2020-11-13T21:54:28Z) - ROOT-SGD: Sharp Nonasymptotics and Near-Optimal Asymptotics in a Single Algorithm [71.13558000599839]
第一次アルゴリズムを用いて,厳密な凸と滑らかな非制約最適化問題の解法について検討する。
我々は,過去の勾配を平均化し,実装が容易な小説「Recursive One-Over-T SGD」を考案した。
有限サンプル, 漸近感覚, 感覚の両面において, 最先端の性能を同時に達成できることを実証する。
論文 参考訳(メタデータ) (2020-08-28T14:46:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。