論文の概要: Fractional Policy Gradients: Reinforcement Learning with Long-Term Memory
- arxiv url: http://arxiv.org/abs/2507.00073v1
- Date: Sun, 29 Jun 2025 04:57:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:22:58.247685
- Title: Fractional Policy Gradients: Reinforcement Learning with Long-Term Memory
- Title(参考訳): フラクショナルポリシーグラディエント:長期記憶による強化学習
- Authors: Urvi Pawar, Kunal Telangi,
- Abstract要約: 分数的ポリシー勾配(英: Fractional Policy Gradients, FPG)は、政策最適化における時間的長期モデリングのための分数的計算を組み込んだ強化学習フレームワークである。
Caputo分数微分を用いて再構成することにより、FOGは状態遷移間のパワー-ロー時間相関を確立する。
実験による検証では, 試料効率が35~68%向上し, 24~52%の分散低減が得られた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose Fractional Policy Gradients (FPG), a reinforcement learning framework incorporating fractional calculus for long-term temporal modeling in policy optimization. Standard policy gradient approaches face limitations from Markovian assumptions, exhibiting high variance and inefficient sampling. By reformulating gradients using Caputo fractional derivatives, FPG establishes power-law temporal correlations between state transitions. We develop an efficient recursive computation technique for fractional temporal-difference errors with constant time and memory requirements. Theoretical analysis shows FPG achieves asymptotic variance reduction of order O(t^(-alpha)) versus standard policy gradients while preserving convergence. Empirical validation demonstrates 35-68% sample efficiency gains and 24-52% variance reduction versus state-of-the-art baselines. This framework provides a mathematically grounded approach for leveraging long-range dependencies without computational overhead.
- Abstract(参考訳): 政策最適化における時間的長期モデリングのための分数計算を組み込んだ強化学習フレームワークであるフラクショナルポリシーグラディエンス(FPG)を提案する。
標準政策勾配はマルコフの仮定から制限に直面し、高い分散と非効率なサンプリングを示す。
Caputo分数微分を用いて勾配を再構成することにより、FOGは状態遷移間のパワー-ロー時間相関を確立する。
本研究では,時間とメモリ要件が一定である時間差分誤差に対する効率的な再帰計算手法を開発した。
理論的解析により、FPGは収束を保ちながら、O(t^(-アルファ))と標準方針勾配の漸近的分散を減少させることを示した。
実験による検証では, 試料効率が35~68%向上し, 24~52%の分散低減が得られた。
このフレームワークは、計算オーバーヘッドを伴わずに長距離依存関係を活用するために数学的に基礎付けられたアプローチを提供する。
関連論文リスト
- Statistical Inference for Temporal Difference Learning with Linear Function Approximation [62.69448336714418]
The statistics properties of Temporal difference learning with Polyak-Ruppert averaging。
現在の最先端の成果を改善するために,3つの重要なコントリビューションを行います。
論文 参考訳(メタデータ) (2024-10-21T15:34:44Z) - Strongly-polynomial time and validation analysis of policy gradient methods [3.722665817361884]
本稿では,有限状態および行動マルコフ決定過程(MDP)と強化学習(RL)のための,優位ギャップ関数と呼ばれる新しい終了基準を提案する。
この利点ギャップ関数をステップサイズルールの設計に組み込むことで、最適ポリシーの定常状態分布に依存しない新しい線形収束率を導出する。
政策勾配法に対してそのような強い収束特性が確立されたのはこれが初めてである。
論文 参考訳(メタデータ) (2024-09-28T18:56:48Z) - On the Global Convergence of Policy Gradient in Average Reward Markov
Decision Processes [50.68789924454235]
我々は、平均報酬マルコフ決定過程(MDP)の文脈における政策勾配の最初の有限時間大域収束解析を示す。
我々の分析によると、ポリシー勾配は、$Oleft(frac1Tright)$のサブリニアレートで最適ポリシーに収束し、$Oleft(log(T)right)$ regretに変換され、$T$は反復数を表す。
論文 参考訳(メタデータ) (2024-03-11T15:25:03Z) - Model-Based Reparameterization Policy Gradient Methods: Theory and
Practical Algorithms [88.74308282658133]
Reization (RP) Policy Gradient Methods (PGM) は、ロボット工学やコンピュータグラフィックスにおける連続的な制御タスクに広く採用されている。
近年の研究では、長期強化学習問題に適用した場合、モデルベースRP PGMはカオス的かつ非滑らかな最適化環境を経験する可能性があることが示されている。
本稿では,長期モデルアンロールによる爆発的分散問題を緩和するスペクトル正規化法を提案する。
論文 参考訳(メタデータ) (2023-10-30T18:43:21Z) - Optimization Landscape of Policy Gradient Methods for Discrete-time
Static Output Feedback [22.21598324895312]
本稿では,静的な出力フィードバック制御に適用した場合に,ポリシー勾配法に固有の最適化環境を解析する。
3つの政策勾配法に対する定常点への収束(およびほぼ次元自由率)に関する新しい知見を導出する。
我々は,バニラポリシー勾配法が,そのようなミニマに近づいた場合,局所最小マに対して線形収束を示すことを示す。
論文 参考訳(メタデータ) (2023-10-29T14:25:57Z) - Theoretical Guarantees of Fictitious Discount Algorithms for Episodic
Reinforcement Learning and Global Convergence of Policy Gradient Methods [6.7546872379126155]
一般的なアプローチは、架空の割引係数を導入し、近似に定常ポリシーを使用することである。
本稿では,これらのアルゴリズムを解析する第一歩を踏み出す。
どちらのアルゴリズムにも非漸近収束保証が確立されている。
論文 参考訳(メタデータ) (2021-09-13T23:36:38Z) - Variance-Reduced Off-Policy Memory-Efficient Policy Search [61.23789485979057]
政治政策の最適化は強化学習において難しい問題である。
オフポリシーアルゴリズムはメモリ効率が高く、オフポリシーサンプルから学ぶことができる。
論文 参考訳(メタデータ) (2020-09-14T16:22:46Z) - Is Temporal Difference Learning Optimal? An Instance-Dependent Analysis [102.29671176698373]
我々は、割引決定過程における政策評価の問題に対処し、生成モデルの下で、ll_infty$errorに対するマルコフに依存した保証を提供する。
我々は、ポリシー評価のために、局所ミニマックス下限の両漸近バージョンと非漸近バージョンを確立し、アルゴリズムを比較するためのインスタンス依存ベースラインを提供する。
論文 参考訳(メタデータ) (2020-03-16T17:15:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。