論文の概要: Recurrent Natural Policy Gradient for POMDPs
- arxiv url: http://arxiv.org/abs/2405.18221v3
- Date: Fri, 17 Oct 2025 02:04:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-20 13:49:08.501884
- Title: Recurrent Natural Policy Gradient for POMDPs
- Title(参考訳): POMDPの繰り返し自然政策のグラディエント
- Authors: Semih Cayci, Atilla Eryilmaz,
- Abstract要約: 部分観測可能なマルコフ決定過程(POMDP)の解法は、強化学習(RL)における根本的な課題である。
本稿では,リカレントニューラルネットワーク(RNN)アーキテクチャを自然ポリシー勾配(NPG)法と時間差学習(TD)法に統合するナチュラルアクタ・クリティカル(NAC)アルゴリズムについて検討する。
提案手法は,関数近似への大域的最適性を実現するために,サンプル反復と複雑性のバウンドを含む,漸近的でない理論的保証を提供する。
- 参考スコア(独自算出の注目度): 18.619204672433998
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Solving partially observable Markov decision processes (POMDPs) remains a fundamental challenge in reinforcement learning (RL), primarily due to the curse of dimensionality induced by the non-stationarity of optimal policies. In this work, we study a natural actor-critic (NAC) algorithm that integrates recurrent neural network (RNN) architectures into a natural policy gradient (NPG) method and a temporal difference (TD) learning method. This framework leverages the representational capacity of RNNs to address non-stationarity in RL to solve POMDPs while retaining the statistical and computational efficiency of natural gradient methods in RL. We provide non-asymptotic theoretical guarantees for this method, including bounds on sample and iteration complexity to achieve global optimality up to function approximation. Additionally, we characterize pathological cases that stem from long-term dependencies, thereby explaining limitations of RNN-based policy optimization for POMDPs.
- Abstract(参考訳): 部分的に観測可能なマルコフ決定過程(POMDP)を解くことは、主に最適政策の非定常性によって引き起こされる次元性の呪いにより、強化学習(RL)における根本的な課題である。
本研究では,リカレントニューラルネットワーク(RNN)アーキテクチャを自然ポリシー勾配(NPG)法と時間差学習(TD)法に統合するナチュラルアクタ・クリティカル(NAC)アルゴリズムについて検討する。
このフレームワークは、RLの非定常性に対応するためにRNNの表現能力を活用し、RLの自然勾配法の統計的および計算的効率を維持しながら、POMDPを解く。
本手法は,関数近似への大域的最適性を実現するために,サンプルとイテレーションの複雑さの制限を含む,漸近的でない理論的保証を提供する。
さらに,長期的依存から生じる病理症例を特徴付けるとともに,PMDPに対するRNNベースの政策最適化の限界を説明する。
関連論文リスト
- Policy Regularized Distributionally Robust Markov Decision Processes with Linear Function Approximation [10.35045003737115]
分散シフトによる意思決定は、トレーニングとデプロイメント環境が異なる強化学習(RL)における中心的な課題である。
本稿では,モデルのないオンラインポリシー最適化手法DR-RPOを提案する。
DR-RPO は,ロバストな RL における準最適境界とサンプル効率を実現し,値に基づく手法の性能に適合することを示す。
論文 参考訳(メタデータ) (2025-10-16T02:56:58Z) - Learning Deterministic Policies with Policy Gradients in Constrained Markov Decision Processes [59.27926064817273]
我々はC-PGと呼ばれる探索非依存のアルゴリズムを導入し,支配的仮定の下でのグローバルな最終点収束保証を享受する。
制約制御タスクにおいて,アクションベース(C-PGAE)とパラメータベース(C-PGPE)の両方を実証的に検証する。
論文 参考訳(メタデータ) (2025-06-06T10:29:05Z) - Reinforcement Learning with Continuous Actions Under Unmeasured Confounding [14.510042451844766]
本稿では,連続行動空間を用いた強化学習におけるオフライン政策学習の課題に対処する。
我々は,ミニマックス推定器を開発し,クラス内最適ポリシーを特定するためのポリシー勾配に基づくアルゴリズムを提案する。
得られた最適方針の整合性、有限サンプル誤差境界、後悔境界に関する理論的結果を提供する。
論文 参考訳(メタデータ) (2025-05-01T04:55:29Z) - Understanding Inverse Reinforcement Learning under Overparameterization: Non-Asymptotic Analysis and Global Optimality [52.906438147288256]
我々のアルゴリズムは,特定のニューラルネットワーク構造の下で,最適報酬とポリシーを識別できることが示される。
これは、国際的最適性を確実に達成する非漸近収束保証を持つ最初のIRLアルゴリズムである。
論文 参考訳(メタデータ) (2025-03-22T21:16:08Z) - Strongly-polynomial time and validation analysis of policy gradient methods [3.722665817361884]
本稿では,有限状態および行動マルコフ決定過程(MDP)と強化学習(RL)のための,優位ギャップ関数と呼ばれる新しい終了基準を提案する。
この利点ギャップ関数をステップサイズルールの設計に組み込むことで、最適ポリシーの定常状態分布に依存しない新しい線形収束率を導出する。
政策勾配法に対してそのような強い収束特性が確立されたのはこれが初めてである。
論文 参考訳(メタデータ) (2024-09-28T18:56:48Z) - Last-Iterate Global Convergence of Policy Gradients for Constrained Reinforcement Learning [62.81324245896717]
我々はC-PGと呼ばれる探索非依存のアルゴリズムを導入し、このアルゴリズムは(弱)勾配支配仮定の下でのグローバルな最終点収束を保証する。
制約付き制御問題に対して,我々のアルゴリズムを数値的に検証し,それらを最先端のベースラインと比較する。
論文 参考訳(メタデータ) (2024-07-15T14:54:57Z) - Joint Admission Control and Resource Allocation of Virtual Network Embedding via Hierarchical Deep Reinforcement Learning [69.00997996453842]
本稿では,仮想ネットワークの埋め込みにおいて,入出力制御と資源配分を併用して学習する深層強化学習手法を提案する。
HRL-ACRAは,受入率と長期平均収益の両面で,最先端のベースラインを上回っていることを示す。
論文 参考訳(メタデータ) (2024-06-25T07:42:30Z) - Linear Function Approximation as a Computationally Efficient Method to Solve Classical Reinforcement Learning Challenges [0.0]
本稿では,Natural Policy Gradient法によるアクター更新を用いたNatural Actor Criticアルゴリズムの実装について述べる。
我々は,我々のアルゴリズムが複雑なニューラルネットワークアーキテクチャよりもはるかに高速に学習し,同等あるいはそれ以上の結果が得られることを観察する。
論文 参考訳(メタデータ) (2024-05-27T22:51:58Z) - Intelligent Hybrid Resource Allocation in MEC-assisted RAN Slicing Network [72.2456220035229]
我々は,協調型MEC支援RANスライシングシステムにおける異種サービス要求に対するSSRの最大化を目指す。
最適ハイブリッドRAポリシーをインテリジェントに学習するためのRGRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-05-02T01:36:13Z) - Provably Efficient UCB-type Algorithms For Learning Predictive State
Representations [55.00359893021461]
逐次決定問題は、予測状態表現(PSR)によってモデル化された低ランク構造が認められる場合、統計的に学習可能である
本稿では,推定モデルと実モデル間の全変動距離を上限とする新しいボーナス項を特徴とする,PSRに対する最初のUCB型アプローチを提案する。
PSRに対する既存のアプローチとは対照的に、UCB型アルゴリズムは計算的トラクタビリティ、最優先の準最適ポリシー、モデルの精度が保証される。
論文 参考訳(メタデータ) (2023-07-01T18:35:21Z) - High-probability sample complexities for policy evaluation with linear function approximation [88.87036653258977]
本研究では,2つの広く利用されている政策評価アルゴリズムに対して,最適線形係数の予め定義された推定誤差を保証するために必要なサンプル複素量について検討する。
高確率収束保証に縛られた最初のサンプル複雑性を確立し、許容レベルへの最適依存を実現する。
論文 参考訳(メタデータ) (2023-05-30T12:58:39Z) - GEC: A Unified Framework for Interactive Decision Making in MDP, POMDP,
and Beyond [101.5329678997916]
対話型意思決定の一般的な枠組みの下で, サンプル高能率強化学習(RL)について検討した。
本稿では,探索とエクスプロイトの基本的なトレードオフを特徴付ける,新しい複雑性尺度である一般化エルダー係数(GEC)を提案する。
低 GEC の RL 問題は非常にリッチなクラスであり、これは低ベルマン楕円体次元問題、双線型クラス、低証人ランク問題、PO-双線型クラス、一般化正規PSR を仮定する。
論文 参考訳(メタデータ) (2022-11-03T16:42:40Z) - Multi-Objective Policy Gradients with Topological Constraints [108.10241442630289]
本稿では, PPOアルゴリズムの簡単な拡張により, TMDPにおけるポリシー勾配に対する新しいアルゴリズムを提案する。
シミュレーションと実ロボットの両方の目的を任意に並べた実世界の多目的ナビゲーション問題に対して,これを実証する。
論文 参考訳(メタデータ) (2022-09-15T07:22:58Z) - Finite-Time Analysis of Entropy-Regularized Neural Natural Actor-Critic
Algorithm [29.978816372127085]
ニューラルネットワーク近似を用いたNatural actor-critic (NAC) の有限時間解析を行った。
ニューラルネットワーク,正規化,最適化技術の役割を特定し,優れた性能を実現する。
論文 参考訳(メタデータ) (2022-06-02T02:13:29Z) - Occupancy Information Ratio: Infinite-Horizon, Information-Directed,
Parameterized Policy Search [21.850348833971722]
我々は、占領情報比(OIR)と呼ばれる、無限水平強化学習(RL)のための情報指向型目標を提案する。
OIRは、豊富な基盤構造を享受し、スケーラブルでモデルフリーなポリシーサーチ手法が自然に適用される目的を示す。
準コンカベ最適化と線形プログラミング理論をマルコフ決定過程に利用することにより、基礎となるモデルが知られている場合、OIR問題をコンカベプログラミング手法で変換・解けることを示す。
論文 参考訳(メタデータ) (2022-01-21T18:40:03Z) - Policy Mirror Descent for Regularized Reinforcement Learning: A
Generalized Framework with Linear Convergence [60.20076757208645]
本稿では,正規化RLを解くためのGPMDアルゴリズムを提案する。
我々は,このアルゴリズムが次元自由な方法で,全範囲の学習率に線形に収束することを実証した。
論文 参考訳(メタデータ) (2021-05-24T02:21:34Z) - On Finite-Sample Analysis of Offline Reinforcement Learning with Deep
ReLU Networks [46.067702683141356]
深層RELUネットワークを用いたオフライン強化学習の統計理論について検討する。
我々は,オフラインデータの分布変化,入力空間の次元,システムの正則性がOPE推定誤差を制御する方法の定量化を行う。
論文 参考訳(メタデータ) (2021-03-11T14:01:14Z) - Identification of Unexpected Decisions in Partially Observable
Monte-Carlo Planning: a Rule-Based Approach [78.05638156687343]
本稿では,POMCPポリシーをトレースを検査して分析する手法を提案する。
提案手法は, 政策行動の局所的特性を探索し, 予期せぬ決定を識別する。
我々は,POMDPの標準ベンチマークであるTigerに対するアプローチと,移動ロボットナビゲーションに関する現実の問題を評価した。
論文 参考訳(メタデータ) (2020-12-23T15:09:28Z) - A Study of Policy Gradient on a Class of Exactly Solvable Models [35.90565839381652]
我々は、厳密な解決可能なPOMDPの特別なクラスに対して、ポリシーパラメータの進化を連続状態マルコフ連鎖として検討する。
我々のアプローチはランダムウォーク理論、特にアフィンワイル群に大きく依存している。
我々は,政策勾配の確率収束を,値関数の局所的最大値に対して解析する。
論文 参考訳(メタデータ) (2020-11-03T17:27:53Z) - Fast Global Convergence of Natural Policy Gradient Methods with Entropy
Regularization [44.24881971917951]
自然政策勾配法(NPG)は、最も広く使われている政策最適化アルゴリズムの一つである。
我々は,ソフトマックスパラメータ化の下で,エントロピー規則化NPG法に対する収束保証を開発する。
この結果から, エントロピー正則化の役割を浮き彫りにした。
論文 参考訳(メタデータ) (2020-07-13T17:58:41Z) - Neural Proximal/Trust Region Policy Optimization Attains Globally
Optimal Policy [119.12515258771302]
オーバーパラメトリゼーションを備えたPPOOの変種が,グローバルな最適ネットワークに収束することを示す。
我々の分析の鍵は、1次元の単調性の概念の下で無限勾配の反復であり、そこでは勾配はネットワークによって瞬く。
論文 参考訳(メタデータ) (2019-06-25T03:20:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。