論文の概要: SOAP-RL: Sequential Option Advantage Propagation for Reinforcement Learning in POMDP Environments
- arxiv url: http://arxiv.org/abs/2407.18913v2
- Date: Fri, 11 Oct 2024 15:35:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-08 14:50:05.072086
- Title: SOAP-RL: Sequential Option Advantage Propagation for Reinforcement Learning in POMDP Environments
- Title(参考訳): SOAP-RL:POMDP環境における強化学習のための逐次オプションアドバンテージプロパゲーション
- Authors: Shu Ishida, João F. Henriques,
- Abstract要約: この研究は、強化学習アルゴリズムを部分的に観測されたマルコフ決定プロセス(POMDP)に拡張する方法とオプションを比較する。
PPOEMとSOAPという2つのアルゴリズムが提案され、この問題に深く取り組むために研究されている。
- 参考スコア(独自算出の注目度): 18.081732498034047
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This work compares ways of extending Reinforcement Learning algorithms to Partially Observed Markov Decision Processes (POMDPs) with options. One view of options is as temporally extended action, which can be realized as a memory that allows the agent to retain historical information beyond the policy's context window. While option assignment could be handled using heuristics and hand-crafted objectives, learning temporally consistent options and associated sub-policies without explicit supervision is a challenge. Two algorithms, PPOEM and SOAP, are proposed and studied in depth to address this problem. PPOEM applies the forward-backward algorithm (for Hidden Markov Models) to optimize the expected returns for an option-augmented policy. However, this learning approach is unstable during on-policy rollouts. It is also unsuited for learning causal policies without the knowledge of future trajectories, since option assignments are optimized for offline sequences where the entire episode is available. As an alternative approach, SOAP evaluates the policy gradient for an optimal option assignment. It extends the concept of the generalized advantage estimation (GAE) to propagate option advantages through time, which is an analytical equivalent to performing temporal back-propagation of option policy gradients. This option policy is only conditional on the history of the agent, not future actions. Evaluated against competing baselines, SOAP exhibited the most robust performance, correctly discovering options for POMDP corridor environments, as well as on standard benchmarks including Atari and MuJoCo, outperforming PPOEM, as well as LSTM and Option-Critic baselines. The open-sourced code is available at https://github.com/shuishida/SoapRL.
- Abstract(参考訳): この研究は、強化学習アルゴリズムを部分的に観測されたマルコフ決定プロセス(POMDP)に拡張する方法とオプションを比較する。
オプションの1つの見解は、時間的に拡張されたアクションであり、エージェントがポリシーのコンテキストウィンドウを越えて歴史的な情報を保持できるメモリとして実現することができる。
オプションの割り当てはヒューリスティックスと手作りの目的を使って扱うことができるが、時間的に一貫した選択肢と関連するサブ政治を明示的な監督なしに学ぶことは困難である。
PPOEMとSOAPという2つのアルゴリズムが提案され、この問題に深く取り組むために研究されている。
PPOEM は (Hidden Markov Models の)フォワードバックワードアルゴリズムを適用して,オプション拡張ポリシに対する期待リターンを最適化する。
しかし、この学習アプローチは、オン・ポリティクスのロールアウト中に不安定である。
オプションの割り当ては、エピソード全体が利用可能なオフラインシーケンスに最適化されているため、将来の軌跡を知ることなく因果ポリシーを学ぶのにも適していない。
別のアプローチとして、SOAPは最適なオプション割り当てのためのポリシー勾配を評価します。
これは、GAE(Generalized advantage estimation)の概念を拡張して、オプションの利点を時間を通して伝播させ、オプションポリシー勾配の時間的バックプロパゲーションの実行と等価な分析を行う。
このオプションポリシーは、エージェントの歴史にのみ条件付きであり、将来のアクションではない。
競合するベースラインに対して評価され、SOAPは最も堅牢なパフォーマンスを示し、POMDPの廊下環境と、AtariやMuJoCoなどの標準ベンチマーク、PPOEM、LSTM、Option-Criticベースラインを正しく検出した。
オープンソースコードはhttps://github.com/shuishida/SoapRL.comで公開されている。
関連論文リスト
- SePPO: Semi-Policy Preference Optimization for Diffusion Alignment [67.8738082040299]
本稿では、報酬モデルやペアの人間注釈データに頼ることなく、DMと好みを一致させる選好最適化手法を提案する。
テキスト・ツー・イメージとテキスト・ツー・ビデオのベンチマークでSePPOを検証する。
論文 参考訳(メタデータ) (2024-10-07T17:56:53Z) - Efficient Learning of POMDPs with Known Observation Model in Average-Reward Setting [56.92178753201331]
我々は,POMDPパラメータを信念に基づくポリシを用いて収集したサンプルから学習することのできる観測・認識スペクトル(OAS)推定手法を提案する。
提案するOAS-UCRLアルゴリズムに対して,OASプロシージャの整合性を示し,$mathcalO(sqrtT log(T)$の残差保証を証明した。
論文 参考訳(メタデータ) (2024-10-02T08:46:34Z) - Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - Towards Efficient Exact Optimization of Language Model Alignment [93.39181634597877]
嗜好データから直接ポリシーを最適化するために、直接選好最適化(DPO)が提案された。
問題の最適解に基づいて導出されたDPOが,現実の最適解の妥協平均探索近似に繋がることを示す。
本稿では、アライメント目的の効率的な精度最適化(EXO)を提案する。
論文 参考訳(メタデータ) (2024-02-01T18:51:54Z) - A dynamical clipping approach with task feedback for Proximal Policy Optimization [29.855219523565786]
最適なPPOクリッピング境界がトレーニングプロセス全体を通して一貫していることの理論的証明はない。
過去の研究は、PPOクリッピングバウンドを動的に調整し、PPOの性能を向上させることを目的としている。
我々は、強化学習タスクの嗜好(最大回帰)をよりよく反映するために、Preference based Proximal Policy Optimization (Pb-PPO)を提案する。
論文 参考訳(メタデータ) (2023-12-12T06:35:56Z) - Multi-Task Option Learning and Discovery for Stochastic Path Planning [27.384742641275228]
本稿では,長距離経路計画問題の幅広いクラスを確実かつ効率的に解決する問題に対処する。
提案手法では,提案したオプションを構成する高レベルパスだけでなく,ポリシによる有用なオプションも計算する。
このアプローチが実行可能性と解決可能性の強い保証をもたらすことを示す。
論文 参考訳(メタデータ) (2022-09-30T19:57:52Z) - You May Not Need Ratio Clipping in PPO [117.03368180633463]
Proximal Policy Optimization (PPO) 法は、複数のミニバッチ最適化エポックを1組のサンプルデータで反復的に実行することでポリシーを学習する。
比率クリッピングPPOは、ターゲットポリシーとサンプル収集に使用されるポリシーの確率比をクリップする一般的な変種である。
本論文では, この比クリッピングが有効に結合できないため, 良好な選択ではないことを示す。
ESPOは、多くのワーカーによる分散トレーニングに簡単にスケールアップでき、パフォーマンスも高いことを示す。
論文 参考訳(メタデータ) (2022-01-31T20:26:56Z) - Near Optimal Policy Optimization via REPS [33.992374484681704]
emphrelative entropy policy search (reps) は多くのシミュレーションと実世界のロボットドメインでポリシー学習に成功した。
勾配に基づく解法を用いる場合、REPSの性能には保証がない。
最適規則化ポリシーに好適な収束を維持するためのパラメータ更新を計算するために,基礎となる決定プロセスへの表現的アクセスを利用する手法を提案する。
論文 参考訳(メタデータ) (2021-03-17T16:22:59Z) - Revisiting Design Choices in Proximal Policy Optimization [21.721075405670916]
Proximal Policy Optimization (PPO) は、一般的なディープポリシーアルゴリズムの勾配である。
これらの設計選択は広く受け入れられており、MuJoCoとAtariベンチマークの実証的な性能比較によって動機付けられている。
我々は、これらのプラクティスを現在のベンチマークの体制外に再検討し、標準PPOの3つの障害モードを公開する。
論文 参考訳(メタデータ) (2020-09-23T02:00:34Z) - On the Role of Weight Sharing During Deep Option Learning [21.216780543401235]
オプションフレームワークは、強化学習において時間的に拡張されたアクションを構築するための一般的なアプローチである。
過去の研究は、オプションクリティカルの各コンポーネントが独立したパラメータを持つというキーとなる仮定を下している。
我々は、各更新で完全なアーキテクチャを最適化するオプション批判的および階層的オプション批判的トレーニングのより一般的な拡張について検討する。
論文 参考訳(メタデータ) (2019-12-31T16:49:13Z) - Provably Efficient Exploration in Policy Optimization [117.09887790160406]
本稿では,最適化アルゴリズム(OPPO)の最適変種を提案する。
OPPO は $tildeO(sqrtd2 H3 T )$ regret を達成する。
我々の知る限りでは、OPPOは、探索する最初の証明可能な効率的なポリシー最適化アルゴリズムである。
論文 参考訳(メタデータ) (2019-12-12T08:40:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。