論文の概要: Randomized Advantage Transformation (RAT): Computing Natural Policy Gradients via Direct Backpropagation
- arxiv url: http://arxiv.org/abs/2605.18591v1
- Date: Mon, 18 May 2026 16:05:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:49.996974
- Title: Randomized Advantage Transformation (RAT): Computing Natural Policy Gradients via Direct Backpropagation
- Title(参考訳): ランダム化アドバンテージ変換(RAT):直接バックプロパゲーションによる自然政策勾配の計算
- Authors: Mingfei Sun,
- Abstract要約: 本稿では,直接バックプロパゲーションによるTikhonov-regularized natural policy gradientの推定手法を提案する。
我々は、この変換を、オンデマンドのミニバッチ上でランダム化されたブロック Kaczmarz 反復によって効率的に計算する。
我々は、RATの収束保証を提供し、連続的および視覚的制御ベンチマークで確立された自然な漸進的手法に適合するか、超越しているかを実証的に示す。
- 参考スコア(独自算出の注目度): 1.04095798020296
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Natural policy gradients improve optimization by accounting for the geometry of distribution space, but their practical use is limited by the cost of estimating and inverting the Fisher matrix. We present Randomized Advantage Transformation (RAT), a method for estimating Tikhonov-regularized natural policy gradients via direct backpropagation. By applying the Woodbury formula, we reformulate the regularized natural policy gradients as vanilla policy gradients with a transformed advantage. RAT computes this transformation efficiently via randomized block Kaczmarz iterations on on-policy mini-batches, avoiding explicit Fisher construction, conjugate-gradient solvers, and architecture-specific approximations. We provide convergence guarantees for RAT and demonstrate empirically that it matches or exceeds established natural-gradient methods across continuous and visual control benchmarks, while remaining simple to implement and compatible with various architectures.
- Abstract(参考訳): 自然政策勾配は分布空間の幾何学を考慮し最適化を改善するが、その実用性はフィッシャー行列を推定・反転するコストによって制限される。
本稿では,Tikhonov-regularized natural policy gradients を直接バックプロパゲーションにより推定する手法であるRandomized Advantage Transformation (RAT)を提案する。
ウッドベリーの公式を適用することで、正規化された自然政策勾配を、転換された優位性を持つバニラ政策勾配として再構成する。
RATはこの変換をランダム化されたブロック Kaczmarz のオンラインミニバッチで効率的に計算し、明示的なフィッシャー構成、共役次数分解器、アーキテクチャ固有の近似を避ける。
我々は、RATの収束保証を提供し、連続的および視覚的制御ベンチマークにまたがって確立された自然な段階的なメソッドに適合し、また、様々なアーキテクチャの実装と互換性をシンプルに保ちながら、実証的に証明する。
関連論文リスト
- Rank-1 Approximation of Inverse Fisher for Natural Policy Gradients in Deep Reinforcement Learning [17.531852538779372]
逆FIMに対するランク1近似は、ポリシー勾配よりも早く収束することを示す。
提案手法を多様な環境上でベンチマークし,標準的なアクタ批判的・信頼領域ベースラインよりも優れた性能を示す。
論文 参考訳(メタデータ) (2026-01-26T16:02:18Z) - Relative Entropy Pathwise Policy Optimization [66.03329137921949]
そこで本稿では,Q値モデルをオンライントラジェクトリから純粋に訓練するオンラインアルゴリズムを提案する。
安定トレーニングのための制約付き更新と探索のためのポリシを組み合わせる方法を示し、価値関数学習を安定化させる重要なアーキテクチャコンポーネントを評価する。
論文 参考訳(メタデータ) (2025-07-15T06:24:07Z) - Robust Offline Reinforcement Learning with Linearly Structured f-Divergence Regularization [11.739526562075339]
ロバスト正規化マルコフ決定過程 (RRMDP) は、値関数の遷移力学に正規化を加えることで、ダイナミクスシフトに頑健なポリシーを学ぶために提案される。
本稿では,リニア関数近似を用いたロバスト正規化ペシミスティック値反復法 (R2PVI) アルゴリズムを開発した。
論文 参考訳(メタデータ) (2024-11-27T18:57:03Z) - Optimization Landscape of Policy Gradient Methods for Discrete-time
Static Output Feedback [22.21598324895312]
本稿では,静的な出力フィードバック制御に適用した場合に,ポリシー勾配法に固有の最適化環境を解析する。
3つの政策勾配法に対する定常点への収束(およびほぼ次元自由率)に関する新しい知見を導出する。
我々は,バニラポリシー勾配法が,そのようなミニマに近づいた場合,局所最小マに対して線形収束を示すことを示す。
論文 参考訳(メタデータ) (2023-10-29T14:25:57Z) - Linear Convergence of Natural Policy Gradient Methods with Log-Linear
Policies [115.86431674214282]
我々は、無限水平割引マルコフ決定過程を考察し、自然政策勾配(NPG)とQ-NPG法の収束率を対数線形ポリシークラスで検討する。
両手法が線形収束率と $mathcalO (1/epsilon2)$サンプル複雑度を, 単純で非適応的な幾何的に増加するステップサイズを用いて達成できることを示す。
論文 参考訳(メタデータ) (2022-10-04T06:17:52Z) - Anchor-Changing Regularized Natural Policy Gradient for Multi-Objective
Reinforcement Learning [17.916366827429034]
複数の報酬値関数を持つマルコフ決定プロセス(MDP)のポリシー最適化について検討する。
本稿では,順応的な一階法からアイデアを取り入れたアンカー変更型正規化自然政策グラディエントフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-10T21:09:44Z) - Bag of Tricks for Natural Policy Gradient Reinforcement Learning [87.54231228860495]
我々は,自然政策勾配強化学習のパフォーマンスに影響を及ぼす戦略を実装し,比較した。
提案されたパフォーマンス最適化戦略の収集は、MuJuCoコントロールベンチマークにおいて、結果を86%から181%改善することができる。
論文 参考訳(メタデータ) (2022-01-22T17:44:19Z) - A general class of surrogate functions for stable and efficient
reinforcement learning [45.31904153659212]
本稿では,機能ミラーの上昇に基づく一般的なフレームワークを提案する。
既存のサロゲート機能では共有されていないプロパティである,政策改善保証を可能にするサロゲート関数を構築した。
提案したフレームワークは,PPOの堅牢性や効率性を実証的に示す改良版も提案している。
論文 参考訳(メタデータ) (2021-08-12T16:19:19Z) - Bregman Gradient Policy Optimization [97.73041344738117]
本稿では,Bregmanの発散と運動量に基づく強化学習のためのBregmanグラデーションポリシーの最適化を設計する。
VR-BGPOは、各イテレーションで1つの軌道のみを必要とする$epsilon$stationaryポイントを見つけるために、$tilde(epsilon-3)$で最高の複雑性に達する。
論文 参考訳(メタデータ) (2021-06-23T01:08:54Z) - Stochastic Recursive Momentum for Policy Gradient Methods [28.277961340108313]
STOchastic Recursive Momentum for Policy Gradient (Storm-PG) という新しいアルゴリズムを提案する。
Storm-PG は STORM-PG のサンプルバウンドで、ポリシー勾配アルゴリズムの最もよく知られた収束率と一致する。
数値実験では、比較ポリシー勾配アルゴリズムよりもアルゴリズムの方が優れていることが示されている。
論文 参考訳(メタデータ) (2020-03-09T17:59:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。