論文の概要: Rank-1 Approximation of Inverse Fisher for Natural Policy Gradients in Deep Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2601.18626v1
- Date: Mon, 26 Jan 2026 16:02:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:08.920131
- Title: Rank-1 Approximation of Inverse Fisher for Natural Policy Gradients in Deep Reinforcement Learning
- Title(参考訳): Rank-1 深層強化学習における自然政策グラディエントに対する逆漁業の近似(ランク1.情報ネットワーク,一般セッション)
- Authors: Yingxiao Huo, Satya Prakash Dash, Radu Stoican, Samuel Kaski, Mingfei Sun,
- Abstract要約: 逆FIMに対するランク1近似は、ポリシー勾配よりも早く収束することを示す。
提案手法を多様な環境上でベンチマークし,標準的なアクタ批判的・信頼領域ベースラインよりも優れた性能を示す。
- 参考スコア(独自算出の注目度): 17.531852538779372
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Natural gradients have long been studied in deep reinforcement learning due to their fast convergence properties and covariant weight updates. However, computing natural gradients requires inversion of the Fisher Information Matrix (FIM) at each iteration, which is computationally prohibitive in nature. In this paper, we present an efficient and scalable natural policy optimization technique that leverages a rank-1 approximation to full inverse-FIM. We theoretically show that under certain conditions, a rank-1 approximation to inverse-FIM converges faster than policy gradients and, under some conditions, enjoys the same sample complexity as stochastic policy gradient methods. We benchmark our method on a diverse set of environments and show that it achieves superior performance to standard actor-critic and trust-region baselines.
- Abstract(参考訳): 自然勾配は、その高速収束特性と共変重み更新のために、深い強化学習において長い間研究されてきた。
しかし、自然勾配の計算には、自然界では計算が禁じられているFisher Information Matrix (FIM) の逆変換が必要となる。
本稿では,全逆FIMにランク1近似を応用した,効率的でスケーラブルな自然ポリシー最適化手法を提案する。
理論的には、ある条件下では、逆FIMへのランク1近似はポリシー勾配よりも早く収束し、ある条件下では確率的ポリシー勾配法と同じサンプル複雑性を享受する。
提案手法を多様な環境上でベンチマークし,標準的なアクタ批判的・信頼領域ベースラインよりも優れた性能を示す。
関連論文リスト
- Achieve Performatively Optimal Policy for Performative Reinforcement Learning [55.983627302691424]
本研究は,0階次FrankWolfe- (0FW) アルゴリズムを提案する。
実験結果から, 所望のPOポリシを求める場合, 既存の近似よりも0FWの方が有効であることが示唆された。
論文 参考訳(メタデータ) (2025-10-06T01:56:31Z) - Generalized Gradient Norm Clipping & Non-Euclidean $(L_0,L_1)$-Smoothness [51.302674884611335]
本研究は、急勾配と条件勾配のアプローチを組み合わせることでノルムクリッピングを一般化するハイブリッド非ユークリッド最適化手法を提案する。
本稿では、ディープラーニングのためのアルゴリズムのインスタンス化について論じ、画像分類と言語モデリングにおけるそれらの特性を実証する。
論文 参考訳(メタデータ) (2025-06-02T17:34:29Z) - Elementary Analysis of Policy Gradient Methods [3.468656086349638]
本稿では、割引MDPの設定に焦点をあて、前述の政策最適化手法の体系的研究を行う。
1)任意の一定のステップサイズに対する投影された方針勾配の大域的線形収束、2)任意の一定のステップサイズに対するソフトマックス方針勾配の大域的線形収束、3)任意の一定のステップサイズに対するソフトマックス自然政策勾配の大域的線形収束、4)既存の結果よりも広い一定のステップサイズに対するエントロピー正規化ソフトマックス方針勾配の大域的線形収束、5)エントロピー正規化自然政策勾配の厳密な局所的収束率、6)新しい局所的2次収束率。
論文 参考訳(メタデータ) (2024-04-04T11:16:16Z) - Linear Convergence of Natural Policy Gradient Methods with Log-Linear
Policies [115.86431674214282]
我々は、無限水平割引マルコフ決定過程を考察し、自然政策勾配(NPG)とQ-NPG法の収束率を対数線形ポリシークラスで検討する。
両手法が線形収束率と $mathcalO (1/epsilon2)$サンプル複雑度を, 単純で非適応的な幾何的に増加するステップサイズを用いて達成できることを示す。
論文 参考訳(メタデータ) (2022-10-04T06:17:52Z) - Bag of Tricks for Natural Policy Gradient Reinforcement Learning [87.54231228860495]
我々は,自然政策勾配強化学習のパフォーマンスに影響を及ぼす戦略を実装し,比較した。
提案されたパフォーマンス最適化戦略の収集は、MuJuCoコントロールベンチマークにおいて、結果を86%から181%改善することができる。
論文 参考訳(メタデータ) (2022-01-22T17:44:19Z) - On the Linear convergence of Natural Policy Gradient Algorithm [5.027714423258537]
強化学習に対する近年の関心は、最適化に触発された手法の研究の動機となった。
このうち自然政策グラディエント(Natural Policy Gradient)は、MDPのミラー降下型である。
改良された有限時間収束境界を示し,このアルゴリズムが幾何収束率を持つことを示す。
論文 参考訳(メタデータ) (2021-05-04T11:26:12Z) - Softmax Policy Gradient Methods Can Take Exponential Time to Converge [60.98700344526674]
Softmax Policy gradient(PG)メソッドは、現代の強化学習におけるポリシー最適化の事実上の実装の1つです。
ソフトマックス PG 法は、$mathcalS|$ および $frac11-gamma$ の観点から指数時間で収束できることを実証する。
論文 参考訳(メタデータ) (2021-02-22T18:56:26Z) - On the Convergence and Sample Efficiency of Variance-Reduced Policy
Gradient Method [38.34416337932712]
政策は、例えばREINFORCEのようなリッチな強化学習(RL)手法を生み出します。
しかし、そのようなメソッドが$epsilon$-optimal Policyを見つけるための最もよく知られたサンプルの複雑さは$mathcalO(epsilon-3)$である。
第一次政策最適化法の基本収束特性とサンプル効率について検討する。
論文 参考訳(メタデータ) (2021-02-17T07:06:19Z) - Towards Better Understanding of Adaptive Gradient Algorithms in
Generative Adversarial Nets [71.05306664267832]
適応アルゴリズムは勾配の歴史を用いて勾配を更新し、深層ニューラルネットワークのトレーニングにおいてユビキタスである。
本稿では,非コンケーブ最小値問題に対するOptimisticOAアルゴリズムの変種を解析する。
実験の結果,適応型GAN非適応勾配アルゴリズムは経験的に観測可能であることがわかった。
論文 参考訳(メタデータ) (2019-12-26T22:10:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。