論文の概要: Learning to Plan via a Multi-Step Policy Regression Method
- arxiv url: http://arxiv.org/abs/2106.10075v1
- Date: Fri, 18 Jun 2021 11:51:49 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-21 14:14:21.643880
- Title: Learning to Plan via a Multi-Step Policy Regression Method
- Title(参考訳): 多段階政策回帰法による計画への学習
- Authors: Stefan Wagner and Michael Janschek and Tobias Uelwer and Stefan
Harmeling
- Abstract要約: 本稿では,特定の行動列を必要とする環境における推論性能を向上させるための新しい手法を提案する。
一つのステップでポリシーを学ぶ代わりに、事前にnアクションを予測できるポリシーを学びたいのです。
提案手法をMiniGridおよびPong環境上でテストし,単一観測における動作列の予測に成功して,推定時間における劇的な高速化を示す。
- 参考スコア(独自算出の注目度): 6.452233509848456
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a new approach to increase inference performance in environments
that require a specific sequence of actions in order to be solved. This is for
example the case for maze environments where ideally an optimal path is
determined. Instead of learning a policy for a single step, we want to learn a
policy that can predict n actions in advance. Our proposed method called policy
horizon regression (PHR) uses knowledge of the environment sampled by A2C to
learn an n dimensional policy vector in a policy distillation setup which
yields n sequential actions per observation. We test our method on the MiniGrid
and Pong environments and show drastic speedup during inference time by
successfully predicting sequences of actions on a single observation.
- Abstract(参考訳): 本稿では,特定の動作列を必要とする環境での推論性能を向上させるための新しい手法を提案する。
これは例えば、理想的には最適経路が決定される迷路環境の場合である。
一つのステップでポリシーを学ぶ代わりに、事前にnアクションを予測できるポリシーを学びたいのです。
提案手法は政策水平回帰(PHR)と呼ばれ,A2Cがサンプリングした環境の知識を用いて,n次元の政策ベクトルを観測毎に生成する政策蒸留装置で学習する。
本手法をminigridおよびpong環境でテストし,1回の観測で動作シーケンスの予測に成功し,推定時間中に劇的な高速化を示す。
関連論文リスト
- Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - POTEC: Off-Policy Learning for Large Action Spaces via Two-Stage Policy
Decomposition [40.851324484481275]
大規模離散行動空間における文脈的バンディット政策の非政治的学習について検討する。
本稿では,2段階ポリシー分解によるポリシー最適化という新しい2段階アルゴリズムを提案する。
特に大規模かつ構造化された行動空間において,POTECはOPLの有効性を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2024-02-09T03:01:13Z) - Control in Stochastic Environment with Delays: A Model-based
Reinforcement Learning Approach [3.130722489512822]
遅延フィードバックを伴う環境における制御問題に対する新しい強化学習手法を提案する。
具体的には,決定論的計画を用いた従来の手法に対して,計画を採用する。
この定式化は、決定論的遷移の問題に対する最適ポリシーを回復できることを示す。
論文 参考訳(メタデータ) (2024-02-01T03:53:56Z) - Statistically Efficient Variance Reduction with Double Policy Estimation
for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning [53.97273491846883]
本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。
D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
論文 参考訳(メタデータ) (2023-08-28T20:46:07Z) - Reparameterized Policy Learning for Multimodal Trajectory Optimization [61.13228961771765]
本研究では,高次元連続行動空間における強化学習のためのパラメータ化政策の課題について検討する。
本稿では,連続RLポリシーを最適軌道の生成モデルとしてモデル化する原理的フレームワークを提案する。
本稿では,マルチモーダルポリシーパラメータ化と学習世界モデルを活用した実用的モデルベースRL手法を提案する。
論文 参考訳(メタデータ) (2023-07-20T09:05:46Z) - Exploration via Planning for Information about the Optimal Trajectory [67.33886176127578]
我々は,タスクと現在の知識を考慮に入れながら,探索を計画できる手法を開発した。
本手法は, 探索基準値よりも2倍少ないサンプルで, 強いポリシーを学習できることを実証する。
論文 参考訳(メタデータ) (2022-10-06T20:28:55Z) - Sigmoidally Preconditioned Off-policy Learning:a new exploration method
for reinforcement learning [14.991913317341417]
政治以外のアクター・クリティカルアーキテクチャに着目し,P3O(Preconditioned Proximal Policy Optimization)と呼ばれる新しい手法を提案する。
P3Oは、保守政策反復(CPI)目標に事前条件を適用することにより、重要度サンプリングの高分散を制御できる。
その結果,P3Oはトレーニング過程においてPPOよりもCPI目標を最大化できることがわかった。
論文 参考訳(メタデータ) (2022-05-20T09:38:04Z) - Policy Gradient and Actor-Critic Learning in Continuous Time and Space:
Theory and Algorithms [1.776746672434207]
連続時間と空間における強化学習のための政策勾配(PG)について検討する。
本稿では,RLに対するアクタ批判アルゴリズムの2つのタイプを提案し,同時に値関数とポリシーを学習し,更新する。
論文 参考訳(メタデータ) (2021-11-22T14:27:04Z) - Multi-Objective SPIBB: Seldonian Offline Policy Improvement with Safety
Constraints in Finite MDPs [71.47895794305883]
オフライン強化学習環境における制約下での安全政策改善(SPI)の問題について検討する。
本稿では,異なる報酬信号に対するトレードオフを扱うアルゴリズムのユーザの好みを考慮した,このRL設定のためのSPIを提案する。
論文 参考訳(メタデータ) (2021-05-31T21:04:21Z) - Evolutionary Stochastic Policy Distillation [139.54121001226451]
本稿では,GCRS課題を解決するための進化的政策蒸留法(ESPD)を提案する。
ESPDは、政策蒸留(PD)技術により、ターゲットポリシーを一連の変種から学習することを可能にする
MuJoCo制御系に基づく実験により,提案手法の学習効率が向上した。
論文 参考訳(メタデータ) (2020-04-27T16:19:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。