論文の概要: Recurrent Natural Policy Gradient for POMDPs
- arxiv url: http://arxiv.org/abs/2405.18221v1
- Date: Tue, 28 May 2024 14:29:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-29 18:09:42.696515
- Title: Recurrent Natural Policy Gradient for POMDPs
- Title(参考訳): POMDPの繰り返し自然政策のグラディエント
- Authors: Semih Cayci, Atilla Eryilmaz,
- Abstract要約: 本稿では、部分的に観測可能なマルコフ決定過程に対するリカレントニューラルネットワーク(RNN)に基づく自然ポリシー勾配法を提案する。
本分析では,要求されるネットワーク幅とサンプルの複雑さに明確な境界を持つ短期記憶の問題に対して,RNNの効率性を示す。
- 参考スコア(独自算出の注目度): 16.893624100273108
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we study a natural policy gradient method based on recurrent neural networks (RNNs) for partially-observable Markov decision processes, whereby RNNs are used for policy parameterization and policy evaluation to address curse of dimensionality in non-Markovian reinforcement learning. We present finite-time and finite-width analyses for both the critic (recurrent temporal difference learning), and correspondingly-operated recurrent natural policy gradient method in the near-initialization regime. Our analysis demonstrates the efficiency of RNNs for problems with short-term memory with explicit bounds on the required network widths and sample complexity, and points out the challenges in the case of long-term dependencies.
- Abstract(参考訳): 本稿では,部分的に可観測性のあるマルコフ決定過程に対するリカレントニューラルネットワーク(RNN)に基づく自然政策勾配法について検討し,非マルコフ強化学習における次元の呪いに対処するためにポリシーパラメータ化と政策評価にRNNを用いる。
本稿では,批判者(繰り返し時間差分学習)に対する有限時間および有限幅解析と,ほぼ初期化体制における対応した自然方針勾配法について述べる。
本分析では,要求されるネットワーク幅とサンプルの複雑さに明確な制約を設けた短期記憶問題に対するRNNの効率を実証し,長期依存の場合の課題を指摘する。
関連論文リスト
- Last-Iterate Global Convergence of Policy Gradients for Constrained Reinforcement Learning [62.81324245896717]
我々はC-PGと呼ばれる探索非依存のアルゴリズムを導入し、このアルゴリズムは(弱)勾配支配仮定の下でのグローバルな最終点収束を保証する。
制約付き制御問題に対して,我々のアルゴリズムを数値的に検証し,それらを最先端のベースラインと比較する。
論文 参考訳(メタデータ) (2024-07-15T14:54:57Z) - Joint Admission Control and Resource Allocation of Virtual Network Embedding via Hierarchical Deep Reinforcement Learning [69.00997996453842]
本稿では,仮想ネットワークの埋め込みにおいて,入出力制御と資源配分を併用して学習する深層強化学習手法を提案する。
HRL-ACRAは,受入率と長期平均収益の両面で,最先端のベースラインを上回っていることを示す。
論文 参考訳(メタデータ) (2024-06-25T07:42:30Z) - Intelligent Hybrid Resource Allocation in MEC-assisted RAN Slicing Network [72.2456220035229]
我々は,協調型MEC支援RANスライシングシステムにおける異種サービス要求に対するSSRの最大化を目指す。
最適ハイブリッドRAポリシーをインテリジェントに学習するためのRGRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-05-02T01:36:13Z) - High-probability sample complexities for policy evaluation with linear function approximation [88.87036653258977]
本研究では,2つの広く利用されている政策評価アルゴリズムに対して,最適線形係数の予め定義された推定誤差を保証するために必要なサンプル複素量について検討する。
高確率収束保証に縛られた最初のサンプル複雑性を確立し、許容レベルへの最適依存を実現する。
論文 参考訳(メタデータ) (2023-05-30T12:58:39Z) - Multi-Objective Policy Gradients with Topological Constraints [108.10241442630289]
本稿では, PPOアルゴリズムの簡単な拡張により, TMDPにおけるポリシー勾配に対する新しいアルゴリズムを提案する。
シミュレーションと実ロボットの両方の目的を任意に並べた実世界の多目的ナビゲーション問題に対して,これを実証する。
論文 参考訳(メタデータ) (2022-09-15T07:22:58Z) - Finite-Time Analysis of Entropy-Regularized Neural Natural Actor-Critic
Algorithm [29.978816372127085]
ニューラルネットワーク近似を用いたNatural actor-critic (NAC) の有限時間解析を行った。
ニューラルネットワーク,正規化,最適化技術の役割を特定し,優れた性能を実現する。
論文 参考訳(メタデータ) (2022-06-02T02:13:29Z) - Occupancy Information Ratio: Infinite-Horizon, Information-Directed,
Parameterized Policy Search [21.850348833971722]
我々は、占領情報比(OIR)と呼ばれる、無限水平強化学習(RL)のための情報指向型目標を提案する。
OIRは、豊富な基盤構造を享受し、スケーラブルでモデルフリーなポリシーサーチ手法が自然に適用される目的を示す。
準コンカベ最適化と線形プログラミング理論をマルコフ決定過程に利用することにより、基礎となるモデルが知られている場合、OIR問題をコンカベプログラミング手法で変換・解けることを示す。
論文 参考訳(メタデータ) (2022-01-21T18:40:03Z) - On Finite-Sample Analysis of Offline Reinforcement Learning with Deep
ReLU Networks [46.067702683141356]
深層RELUネットワークを用いたオフライン強化学習の統計理論について検討する。
我々は,オフラインデータの分布変化,入力空間の次元,システムの正則性がOPE推定誤差を制御する方法の定量化を行う。
論文 参考訳(メタデータ) (2021-03-11T14:01:14Z) - Identification of Unexpected Decisions in Partially Observable
Monte-Carlo Planning: a Rule-Based Approach [78.05638156687343]
本稿では,POMCPポリシーをトレースを検査して分析する手法を提案する。
提案手法は, 政策行動の局所的特性を探索し, 予期せぬ決定を識別する。
我々は,POMDPの標準ベンチマークであるTigerに対するアプローチと,移動ロボットナビゲーションに関する現実の問題を評価した。
論文 参考訳(メタデータ) (2020-12-23T15:09:28Z) - A Study of Policy Gradient on a Class of Exactly Solvable Models [35.90565839381652]
我々は、厳密な解決可能なPOMDPの特別なクラスに対して、ポリシーパラメータの進化を連続状態マルコフ連鎖として検討する。
我々のアプローチはランダムウォーク理論、特にアフィンワイル群に大きく依存している。
我々は,政策勾配の確率収束を,値関数の局所的最大値に対して解析する。
論文 参考訳(メタデータ) (2020-11-03T17:27:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。