論文の概要: Technical Report: The Policy Graph Improvement Algorithm
- arxiv url: http://arxiv.org/abs/2009.02164v1
- Date: Fri, 4 Sep 2020 13:00:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-22 02:10:14.171687
- Title: Technical Report: The Policy Graph Improvement Algorithm
- Title(参考訳): 技術報告:ポリシーグラフ改善アルゴリズム
- Authors: Joni Pajarinen
- Abstract要約: POMDPのポリシーグラフ改善(PGI)アルゴリズムは、ポリシーを固定サイズポリシーグラフとして表現し、ポリシーを単調に改善する。
本稿では,PMDPに対するPGI [1]と粒子ベースPGI [2]アルゴリズムの技術的詳細について述べる。
- 参考スコア(独自算出の注目度): 6.9788071083683585
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Optimizing a partially observable Markov decision process (POMDP) policy is
challenging. The policy graph improvement (PGI) algorithm for POMDPs represents
the policy as a fixed size policy graph and improves the policy monotonically.
Due to the fixed policy size, computation time for each improvement iteration
is known in advance. Moreover, the method allows for compact understandable
policies. This report describes the technical details of the PGI [1] and
particle based PGI [2] algorithms for POMDPs in a more accessible way than [1]
or [2] allowing practitioners and students to understand and implement the
algorithms.
- Abstract(参考訳): 部分可観測マルコフ決定プロセス(pomdp)ポリシーの最適化は困難である。
POMDPのポリシーグラフ改善(PGI)アルゴリズムは、ポリシーを固定サイズポリシーグラフとして表現し、ポリシーを単調に改善する。
固定されたポリシーサイズのため、各改善イテレーションの計算時間は事前に分かっている。
さらに、この方法は、コンパクトな理解可能なポリシーを可能にする。
本稿では,PMDPのPGI [1]とパーティクルベースPGI [2]アルゴリズムの技術的詳細について述べる。
関連論文リスト
- Deterministic Policy Gradient Primal-Dual Methods for Continuous-Space Constrained MDPs [82.34567890576423]
我々は,非漸近収束を伴う最適決定主義政策を求めるための決定主義的政策勾配原始双対法を開発した。
D-PGPDの一次-双対反復は、最適正則化原始-双対にサブ線形速度で収束することが証明された。
我々の知る限り、これは連続空間制約型MDPに対する決定論的ポリシー探索法を提案する最初の研究であると思われる。
論文 参考訳(メタデータ) (2024-08-19T14:11:04Z) - Last-Iterate Convergent Policy Gradient Primal-Dual Methods for
Constrained MDPs [107.28031292946774]
無限水平割引マルコフ決定過程(拘束型MDP)の最適ポリシの計算問題について検討する。
我々は, 最適制約付きポリシーに反復的に対応し, 非漸近収束性を持つ2つの単一スケールポリシーに基づく原始双対アルゴリズムを開発した。
我々の知る限り、この研究は制約付きMDPにおける単一時間スケールアルゴリズムの非漸近的な最後の収束結果となる。
論文 参考訳(メタデータ) (2023-06-20T17:27:31Z) - Acceleration in Policy Optimization [50.323182853069184]
我々は、楽観的かつ適応的な更新を通じて、政策改善のステップにフォレストを組み込むことにより、強化学習(RL)における政策最適化手法を加速するための統一パラダイムに向けて研究する。
我々は、楽観主義を、政策の将来行動の予測モデルとして定義し、適応性は、過度な予測や変化に対する遅延反応からエラーを軽減するために、即時かつ予測的な修正措置をとるものである。
我々は,メタグラディエント学習による適応型楽観的ポリシー勾配アルゴリズムを設計し,実証的なタスクにおいて,加速度に関連するいくつかの設計選択を実証的に強調する。
論文 参考訳(メタデータ) (2023-06-18T15:50:57Z) - Policy Gradient Algorithms Implicitly Optimize by Continuation [7.351769270728942]
我々は、政策段階的なアルゴリズムの探索は、目の前にある政策の回帰の継続であり、その回帰を最大化するよりも、政策は歴史に依存しているべきだと論じる。
論文 参考訳(メタデータ) (2023-05-11T14:50:20Z) - Multi-Objective Policy Gradients with Topological Constraints [108.10241442630289]
本稿では, PPOアルゴリズムの簡単な拡張により, TMDPにおけるポリシー勾配に対する新しいアルゴリズムを提案する。
シミュレーションと実ロボットの両方の目的を任意に並べた実世界の多目的ナビゲーション問題に対して,これを実証する。
論文 参考訳(メタデータ) (2022-09-15T07:22:58Z) - Anchor-Changing Regularized Natural Policy Gradient for Multi-Objective
Reinforcement Learning [17.916366827429034]
複数の報酬値関数を持つマルコフ決定プロセス(MDP)のポリシー最適化について検討する。
本稿では,順応的な一階法からアイデアを取り入れたアンカー変更型正規化自然政策グラディエントフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-10T21:09:44Z) - On-Line Policy Iteration for Infinite Horizon Dynamic Programming [0.0]
有限状態無限地平線割引動的プログラミングのためのオンラインポリシー反復(PI)アルゴリズムを提案する。
このアルゴリズムは有限個の段階に収束し、局所最適ポリシーの一種となる。
また、価値とポリシーを近似したオンラインPIアルゴリズムにも適している。
論文 参考訳(メタデータ) (2021-06-01T19:50:22Z) - Softmax Policy Gradient Methods Can Take Exponential Time to Converge [60.98700344526674]
Softmax Policy gradient(PG)メソッドは、現代の強化学習におけるポリシー最適化の事実上の実装の1つです。
ソフトマックス PG 法は、$mathcalS|$ および $frac11-gamma$ の観点から指数時間で収束できることを実証する。
論文 参考訳(メタデータ) (2021-02-22T18:56:26Z) - Proximal Policy Optimization Smoothed Algorithm [0.0]
我々はPPOの変種であるPPOS(Proximal Policy Optimization Smooth Algorithm)を提案する。
その重要な改善点は、フラットなクリッピング法の代わりに機能的なクリッピング法を使用することである。
連続制御タスクにおける性能と安定性の両面で、最新のPPOのバリエーションよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-12-04T07:43:50Z) - Implementation Matters in Deep Policy Gradients: A Case Study on PPO and
TRPO [90.90009491366273]
本稿では,2つの一般的なアルゴリズムのケーススタディにより,ディープポリシー勾配アルゴリズムにおけるアルゴリズムの進歩のルーツについて検討する。
具体的には,「コードレベルの最適化」の結果について検討する。
以上の結果から, (a) TRPOに対するPPOの累積報酬のほとんどを担っていることが示され, (b) RL メソッドの動作方法が根本的に変化していることが示唆された。
論文 参考訳(メタデータ) (2020-05-25T16:24:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。