論文の概要: Natural Policy Gradient for Average Reward Non-Stationary RL
- arxiv url: http://arxiv.org/abs/2504.16415v1
- Date: Wed, 23 Apr 2025 04:37:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:52.999275
- Title: Natural Policy Gradient for Average Reward Non-Stationary RL
- Title(参考訳): 平均逆非定常RLに対する自然政策のグラディエント
- Authors: Neharika Jali, Eshika Pathak, Pranay Sharma, Guannan Qu, Gauri Joshi,
- Abstract要約: 無限水平平均回帰設定における非定常強化学習(RL)の問題点を考察する。
既存の静止RLアルゴリズムは、モデルベースおよびモデルフリーな値ベース手法に重点を置いている。
我々は、最初のモデルフリーポリシーベースのアルゴリズム、Non-Stationary Natural Actor-Critic(NS-NAC)を提案し、分析する。
- 参考スコア(独自算出の注目度): 20.00962082306857
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider the problem of non-stationary reinforcement learning (RL) in the infinite-horizon average-reward setting. We model it by a Markov Decision Process with time-varying rewards and transition probabilities, with a variation budget of $\Delta_T$. Existing non-stationary RL algorithms focus on model-based and model-free value-based methods. Policy-based methods despite their flexibility in practice are not theoretically well understood in non-stationary RL. We propose and analyze the first model-free policy-based algorithm, Non-Stationary Natural Actor-Critic (NS-NAC), a policy gradient method with a restart based exploration for change and a novel interpretation of learning rates as adapting factors. Further, we present a bandit-over-RL based parameter-free algorithm BORL-NS-NAC that does not require prior knowledge of the variation budget $\Delta_T$. We present a dynamic regret of $\tilde{\mathscr O}(|S|^{1/2}|A|^{1/2}\Delta_T^{1/6}T^{5/6})$ for both algorithms, where $T$ is the time horizon, and $|S|$, $|A|$ are the sizes of the state and action spaces. The regret analysis leverages a novel adaptation of the Lyapunov function analysis of NAC to dynamic environments and characterizes the effects of simultaneous updates in policy, value function estimate and changes in the environment.
- Abstract(参考訳): 無限水平平均回帰設定における非定常強化学習(RL)の問題点を考察する。
我々は、時間変化の報酬と遷移確率を持つマルコフ決定プロセスでモデル化し、変動予算は$\Delta_T$である。
既存の静止RLアルゴリズムは、モデルベースおよびモデルフリーな値ベース手法に重点を置いている。
実際には柔軟性に拘わらず政策に基づく手法は、理論上は非定常RLではよく理解されていない。
モデルフリーなポリシーベースアルゴリズムであるNon-Stationary Natural Actor-Critic (NS-NAC) を提案し解析する。
さらに,バンドオーバRLに基づくパラメータフリーアルゴリズムであるBORL-NS-NACを提案する。
我々は、両方のアルゴリズムに対して、$\tilde{\mathscr O}(|S|^{1/2}|A|^{1/2}\Delta_T^{1/6}T^{5/6})$を動的に後悔させる。
後悔分析はNACのリアプノフ関数解析の動的環境への新しい適応を活用し、ポリシーの同時更新、値関数の推定、環境の変化を特徴付ける。
関連論文リスト
- Robust Offline Reinforcement Learning for Non-Markovian Decision Processes [48.9399496805422]
本研究では,ロバストな非マルコフRLの学習問題について検討する。
本研究では,不確実性セットの異なるタイプ下でのロバストな値に対して,新しいデータセット蒸留と低信頼境界(LCB)設計を導入する。
さらに、オフラインの低ランク非マルコフ決定プロセスに適した新しいI型集中係数を導入することにより、我々のアルゴリズムが$epsilon$-optimal robust policyを見つけることができることを証明した。
論文 参考訳(メタデータ) (2024-11-12T03:22:56Z) - Sublinear Regret for a Class of Continuous-Time Linear-Quadratic Reinforcement Learning Problems [10.404992912881601]
拡散に対する連続時間線形四元数(LQ)制御のクラスに対する強化学習(RL)について検討した。
モデルパラメータの知識にも,その推定にも依存しないモデルフリーアプローチを適用し,RLアルゴリズムを設計して,適切なポリシパラメータを直接学習する。
論文 参考訳(メタデータ) (2024-07-24T12:26:21Z) - The Role of Baselines in Policy Gradient Optimization [83.42050606055822]
Emphstateのバリューベースラインが、オン・ポリティクスを可能にしていることを示す。
世界的な最適な政策勾配(NPG)に収束する。
O (1/t) レート勾配でのポリシー。
値ベースラインの主な効果は、その分散ではなく、更新のアグレッシブさをthabfreduceすることにある。
論文 参考訳(メタデータ) (2023-01-16T06:28:00Z) - Nearly Minimax Optimal Reinforcement Learning for Linear Markov Decision
Processes [80.89852729380425]
そこで本研究では,最小限の最小残差である$tilde O(dsqrtH3K)$を計算効率よく実現したアルゴリズムを提案する。
我々の研究は線形 MDP を用いた最適 RL に対する完全な答えを提供する。
論文 参考訳(メタデータ) (2022-12-12T18:58:59Z) - Non-stationary Risk-sensitive Reinforcement Learning: Near-optimal
Dynamic Regret, Adaptive Detection, and Separation Design [9.554944575754638]
エピソード非定常マルコフ決定過程(MDP)におけるエントロピー的リスク尺度に基づくリスク感受性強化学習(RL)について検討する。
本稿では,再起動型アルゴリズムであるRestart-RSMBとRestart-RSQを提案する。
この研究は、文献における非定常リスク感受性RLに対する最初の非漸近的理論解析を提供する。
論文 参考訳(メタデータ) (2022-11-19T22:40:09Z) - Model-based Safe Deep Reinforcement Learning via a Constrained Proximal
Policy Optimization Algorithm [4.128216503196621]
オンライン方式で環境の遷移動態を学習する,オンライン型モデルに基づくセーフディープRLアルゴリズムを提案する。
我々は,本アルゴリズムがより標本効率が高く,制約付きモデルフリーアプローチと比較して累積的ハザード違反が低いことを示す。
論文 参考訳(メタデータ) (2022-10-14T06:53:02Z) - A Relational Intervention Approach for Unsupervised Dynamics
Generalization in Model-Based Reinforcement Learning [113.75991721607174]
同じ環境に属する2つの推定$hatz_i, hatz_j$の確率を推定するための介入予測モジュールを導入する。
提案手法により推定される$hatZ$は,従来の方法よりも冗長な情報が少ないことを実証的に示す。
論文 参考訳(メタデータ) (2022-06-09T15:01:36Z) - Human-in-the-loop: Provably Efficient Preference-based Reinforcement
Learning with General Function Approximation [107.54516740713969]
本研究は,RL(Human-in-the-loop reinforcement learning)を軌道的嗜好で検討する。
各ステップで数値的な報酬を受ける代わりに、エージェントは人間の監督者から軌道上のペアよりも優先される。
一般関数近似を用いたPbRLの楽観的モデルベースアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-05-23T09:03:24Z) - MDPGT: Momentum-based Decentralized Policy Gradient Tracking [29.22173174168708]
マルチエージェント強化学習のための運動量に基づく分散型ポリシー勾配追跡(MDPGT)を提案する。
MDPGTは、グローバル平均の$N$ローカルパフォーマンス関数の$epsilon-stationaryポイントに収束するために$mathcalO(N-1epsilon-3)$の最良のサンプル複雑性を実現する。
これは、分散モデルレス強化学習における最先端のサンプル複雑さよりも優れています。
論文 参考訳(メタデータ) (2021-12-06T06:55:51Z) - Nonstationary Reinforcement Learning with Linear Function Approximation [19.521419943509784]
ドリフト環境下での線形関数近似によるマルコフ決定過程(MDP)における強化学習について考察する。
まず、周期的再起動を伴う最小二乗値の楽観的な修正を開発し、変動予算が分かっている場合にその動的後悔を束縛する。
非定常線型 MDP に対する最初の minimax dynamic regret lower bound を導出し、副生成物として Jin らによって未解決の線型 MDP に対する minimax regret lower bound を定めている。
論文 参考訳(メタデータ) (2020-10-08T20:07:44Z) - MOPO: Model-based Offline Policy Optimization [183.6449600580806]
オフライン強化学習(英語: offline reinforcement learning, RL)とは、以前に収集された大量のデータから完全に学習ポリシーを学習する問題を指す。
既存のモデルベースRLアルゴリズムは,すでにオフライン設定において大きな利益を上げていることを示す。
本稿では,既存のモデルに基づくRL法を,力学の不確実性によって人為的に罰せられる報酬で適用することを提案する。
論文 参考訳(メタデータ) (2020-05-27T08:46:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。