論文の概要: Policy Gradient Methods for Non-Markovian Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2605.10816v1
- Date: Mon, 11 May 2026 16:34:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.996396
- Title: Policy Gradient Methods for Non-Markovian Reinforcement Learning
- Title(参考訳): 非マルコフ強化学習のためのポリシー勾配法
- Authors: Avik Kar, Siddharth Chandak, Rahul Singh, Soumitra Sinhahajari, Eric Moulines, Shalabh Bhatnagar, Nicholas Bambos,
- Abstract要約: 非マルコフ決定過程(NMDP)における強化学習のための政策勾配法の研究
エージェント状態のダイナミクスを定式化したり、予測目的によって学習したりするアプローチとは対照的に、報酬中心の定式化を提案する。
我々は、ASMポリシーに対する新しいポリシー勾配定理を確立し、古典的なポリシー勾配の結果をマルコフ的設定からエピソードおよび無限水平割引NMDPへと拡張する。
- 参考スコア(独自算出の注目度): 26.23306267677347
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study policy gradient methods for reinforcement learning in non-Markovian decision processes (NMDPs), where observations and rewards depend on the entire interaction history. To handle this dependence, the agent maintains an internal state that is recursively updated to provide a compact summary of past observations and actions. In contrast to approaches that treat the agent state dynamics as fixed or learn it via predictive objectives, we propose a reward-centric formulation that jointly optimizes the agent state dynamics and the control policy to maximize the expected cumulative reward. To this end, we consider a class of Agent State-Markov (ASM) policies, comprising an agent state dynamics and a control policy that maps the agent state to actions. We establish a novel policy gradient theorem for ASM policies, extending the classical policy gradient results from the Markovian setting to episodic and infinite-horizon discounted NMDPs. Building on this gradient expression, we propose the Agent State-Markov Policy Gradient (ASMPG) algorithm, which leverages the recursive structure of the agent state dynamics for efficient optimization. We establish finite-time and almost sure convergence guarantees, and empirically demonstrate that, on a range of non-Markovian tasks, ASMPG outperforms baselines that learn state representations via predictive objectives.
- Abstract(参考訳): 非マルコフ決定過程(NMDP)における強化学習のための政策勾配法について検討した。
この依存に対処するため、エージェントは再帰的に更新された内部状態を保持し、過去の観測と行動のコンパクトな要約を提供する。
エージェント状態のダイナミクスを固定的あるいは予測的目的によって学習するアプローチとは対照的に,エージェント状態のダイナミクスと制御ポリシを協調的に最適化し,期待される累積報酬を最大化する報奨中心の定式化を提案する。
この目的のために、エージェント状態ダイナミクスとエージェント状態をアクションにマッピングするコントロールポリシーを含むエージェント状態マルコフ(ASM)ポリシーのクラスを検討する。
我々は、ASMポリシーに対する新しいポリシー勾配定理を確立し、古典的なポリシー勾配の結果をマルコフ的設定からエピソードおよび無限水平割引NMDPへと拡張する。
この勾配式に基づいて,エージェント状態力学の再帰的構造を利用したエージェント状態マルコフポリシー勾配(ASMPG)アルゴリズムを提案する。
有限時間およびほぼ確実な収束保証を確立し、非マルコフ的タスクの範囲において、ASMPGは予測目的を通して状態表現を学習するベースラインよりも優れていることを実証的に証明する。
関連論文リスト
- Learning Policy Representations for Steerable Behavior Synthesis [80.4542176039074]
マルコフ決定プロセス(MDP)を前提として,テスト時の行動ステアリングを促進するために,さまざまなポリシーの表現を学習する。
これらの表現は、セットベースアーキテクチャを用いて、様々なポリシーに対して均一に近似できることを示す。
変動生成法を用いてスムーズな潜伏空間を導出し,さらにコントラスト学習により、潜伏距離が値関数の差と一致するように形成する。
論文 参考訳(メタデータ) (2026-01-29T21:52:06Z) - SEMDICE: Off-policy State Entropy Maximization via Stationary Distribution Correction Estimation [54.537828696303286]
強化学習のための教師なし学習において、エージェントは、タスク固有の報酬関数に頼ることなく、下流タスクの事前ポリシーを学習することを目的としている。
我々は、状態の定常分布のエントロピーを最大化する政策を学ぶことを目標とする状態エントロピー(SEM)に焦点を当てる。
本稿では、任意のオフポリシーデータセットからSEMポリシーを計算する、原則付きオフポリシーアルゴリズムSEMDICEを紹介する。
論文 参考訳(メタデータ) (2025-12-10T19:50:21Z) - Learning Deterministic Policies with Policy Gradients in Constrained Markov Decision Processes [59.27926064817273]
我々はC-PGと呼ばれる探索非依存のアルゴリズムを導入し,支配的仮定の下でのグローバルな最終点収束保証を享受する。
制約制御タスクにおいて,アクションベース(C-PGAE)とパラメータベース(C-PGPE)の両方を実証的に検証する。
論文 参考訳(メタデータ) (2025-06-06T10:29:05Z) - Sequential Monte Carlo for Policy Optimization in Continuous POMDPs [10.675160254513615]
連続的な部分観測可能なマルコフ決定プロセスのための新しいポリシー最適化フレームワークを導入する。
本手法は,非マルコフ的ファインマン-カックモデルにおいて,政策学習を確率論的推論とみなす。
提案手法の有効性を,標準連続ポデムPベンチマークで実証する。
論文 参考訳(メタデータ) (2025-05-22T14:45:46Z) - Agent-state based policies in POMDPs: Beyond belief-state MDPs [1.918334858770111]
我々はPOMDPにおける学習に対するいくつかのアプローチを統一的に扱う。
エージェント状態に基づくポリシーの異なるクラスと、各クラスで良いポリシーを見つけるために文献で提案されている様々なアプローチを強調します。
そこで我々は, PMDPにおけるQ-ラーニングとアクター批判アルゴリズムの改善のために, 近似情報状態アプローチのアイデアがどのように使われているかを示す。
論文 参考訳(メタデータ) (2024-09-24T03:32:10Z) - Score-Aware Policy-Gradient and Performance Guarantees using Local Lyapunov Stability [2.180257135067774]
モデルベース強化学習(RL)のための政策段階的手法を提案する。
ネットワークにおけるマルコフ決定過程(MDP)から得られる定常分布のタイプを利用する。
我々は,SAGEに基づく政策段階が局所的に収束していることを示し,その後悔を得る。
論文 参考訳(メタデータ) (2023-12-05T14:44:58Z) - Time-Efficient Reinforcement Learning with Stochastic Stateful Policies [20.545058017790428]
我々は,ステートフルな政策を,後者をグラデーションな内部状態カーネルとステートレスなポリシーに分解して訓練するための新しいアプローチを提案する。
我々は、ステートフルなポリシー勾配定理の異なるバージョンを導入し、一般的な強化学習アルゴリズムのステートフルな変種を簡単にインスタンス化できるようにする。
論文 参考訳(メタデータ) (2023-11-07T15:48:07Z) - A Deep Reinforcement Learning Approach to Marginalized Importance
Sampling with the Successor Representation [61.740187363451746]
マージナライズド・プライバシ・サンプリング(MIS)は、ターゲットポリシーのステートアクション占有率とサンプリング分布の密度比を測定する。
我々は,MISと深層強化学習のギャップを,目標方針の後継表現から密度比を計算することによって埋める。
我々は,Atari環境とMuJoCo環境に対するアプローチの実証的性能を評価した。
論文 参考訳(メタデータ) (2021-06-12T20:21:38Z) - Stable Policy Optimization via Off-Policy Divergence Regularization [50.98542111236381]
信頼地域政策最適化(TRPO)とPPO(Pximal Policy Optimization)は、深層強化学習(RL)において最も成功した政策勾配アプローチの一つである。
本稿では, 連続的な政策によって引き起こされる割引状態-行動訪問分布を, 近接項で抑制し, 政策改善を安定化させる新しいアルゴリズムを提案する。
提案手法は, ベンチマーク高次元制御タスクの安定性と最終的な性能向上に有効である。
論文 参考訳(メタデータ) (2020-03-09T13:05:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。