論文の概要: Evolutionary Stochastic Policy Distillation
- arxiv url: http://arxiv.org/abs/2004.12909v2
- Date: Thu, 30 Apr 2020 11:00:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-09 04:36:39.740899
- Title: Evolutionary Stochastic Policy Distillation
- Title(参考訳): 進化的確率的政策蒸留
- Authors: Hao Sun, Xinyu Pan, Bo Dai, Dahua Lin, Bolei Zhou
- Abstract要約: 本稿では,GCRS課題を解決するための進化的政策蒸留法(ESPD)を提案する。
ESPDは、政策蒸留(PD)技術により、ターゲットポリシーを一連の変種から学習することを可能にする
MuJoCo制御系に基づく実験により,提案手法の学習効率が向上した。
- 参考スコア(独自算出の注目度): 139.54121001226451
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Solving the Goal-Conditioned Reward Sparse (GCRS) task is a challenging
reinforcement learning problem due to the sparsity of reward signals. In this
work, we propose a new formulation of GCRS tasks from the perspective of the
drifted random walk on the state space, and design a novel method called
Evolutionary Stochastic Policy Distillation (ESPD) to solve them based on the
insight of reducing the First Hitting Time of the stochastic process. As a
self-imitate approach, ESPD enables a target policy to learn from a series of
its stochastic variants through the technique of policy distillation (PD). The
learning mechanism of ESPD can be considered as an Evolution Strategy (ES) that
applies perturbations upon policy directly on the action space, with a SELECT
function to check the superiority of stochastic variants and then use PD to
update the policy. The experiments based on the MuJoCo robotics control suite
show the high learning efficiency of the proposed method.
- Abstract(参考訳): ゴール・コンディションド・リワード・スパース(GCRS)課題の解決は報奨信号の広さによって困難となる強化学習問題である。
本研究では, 状態空間上のドリフトされたランダムウォークの観点から, 新たなgcrsタスクの定式化を提案し, 確率過程の最初のヒット時間を短縮する知見に基づいて, 進化的確率政策蒸留 (espd) と呼ばれる新しい手法を考案する。
自己同化的なアプローチとして、ESPDは、ポリシー蒸留(PD)技術を通じて、その確率的変種からターゲットポリシーを学ぶことができる。
ESPDの学習メカニズムは、アクション空間に直接ポリシーに摂動を適用する進化戦略(ES)と見なすことができ、SELECT関数は確率的変異の優越性をチェックし、PDを使用してポリシーを更新する。
MuJoCoロボット制御スイートに基づく実験により,提案手法の学習効率が向上した。
関連論文リスト
- Guided Reinforcement Learning for Robust Multi-Contact Loco-Manipulation [12.377289165111028]
強化学習(Reinforcement Learning, RL)は、各タスクに合わせた細かなマルコフ決定プロセス(MDP)設計を必要とすることが多い。
本研究は,マルチコンタクトロコ操作タスクの動作合成と制御に対する体系的アプローチを提案する。
モデルベース軌道から生成されたタスク毎の1つの実演のみを用いて,RLポリシーを訓練するためのタスク非依存のMDPを定義する。
論文 参考訳(メタデータ) (2024-10-17T17:46:27Z) - Distilling Reinforcement Learning Policies for Interpretable Robot Locomotion: Gradient Boosting Machines and Symbolic Regression [53.33734159983431]
本稿では, ニューラルRLポリシをより解釈可能な形式に蒸留する新しい手法を提案する。
我々は、RLを用いて専門家のニューラルネットワークポリシーを訓練し、(i)GBM、(ii)EBM、(iii)シンボリックポリシーに蒸留する。
論文 参考訳(メタデータ) (2024-03-21T11:54:45Z) - Projected Off-Policy Q-Learning (POP-QL) for Stabilizing Offline
Reinforcement Learning [57.83919813698673]
Projected Off-Policy Q-Learning (POP-QL) は、政治外のサンプルを同時に重み付け、分散を防止し、価値近似誤差を減らすためにポリシーを制約する新しいアクタ批判アルゴリズムである。
我々の実験では、POP-QLは標準ベンチマーク上での競合性能を示すだけでなく、データ収集ポリシーがかなり最適化されていないタスクにおいて競合するメソッドよりも優れています。
論文 参考訳(メタデータ) (2023-11-25T00:30:58Z) - Statistically Efficient Variance Reduction with Double Policy Estimation
for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning [53.97273491846883]
本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。
D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
論文 参考訳(メタデータ) (2023-08-28T20:46:07Z) - On the Value of Myopic Behavior in Policy Reuse [67.37788288093299]
未知のシナリオで学習戦略を活用することは、人間の知性の基本である。
本稿では,Selectivemyopic bEhavior Control(SMEC)というフレームワークを提案する。
SMECは、事前ポリシーの共有可能な短期的行動とタスクポリシーの長期的行動を適応的に集約し、協調的な決定につながる。
論文 参考訳(メタデータ) (2023-05-28T03:59:37Z) - Coherent Soft Imitation Learning [17.345411907902932]
模倣学習法は、政策の行動クローニング(BC)や報酬の逆強化学習(IRL)を通じて専門家から学ぶ。
この研究は、BCとIRLの両方の強度を捉える模倣法に由来する。
論文 参考訳(メタデータ) (2023-05-25T21:54:22Z) - Learning to Plan via a Multi-Step Policy Regression Method [6.452233509848456]
本稿では,特定の行動列を必要とする環境における推論性能を向上させるための新しい手法を提案する。
一つのステップでポリシーを学ぶ代わりに、事前にnアクションを予測できるポリシーを学びたいのです。
提案手法をMiniGridおよびPong環境上でテストし,単一観測における動作列の予測に成功して,推定時間における劇的な高速化を示す。
論文 参考訳(メタデータ) (2021-06-18T11:51:49Z) - Evolutionary Selective Imitation: Interpretable Agents by Imitation
Learning Without a Demonstrator [1.370633147306388]
進化戦略(ES)を介してエージェントを訓練する新しい手法を提案する。
イテレーション毎に、サンプルのサブセットを、これまで発見された最高の軌跡のサンプルに置き換えます。
このセットの評価手順は、教師付き学習を通じて、ランダムに初期化されたニューラルネットワーク(NN)を訓練して、セットを模倣する。
論文 参考訳(メタデータ) (2020-09-17T16:25:31Z) - Strictly Batch Imitation Learning by Energy-based Distribution Matching [104.33286163090179]
すなわち、強化信号へのアクセスがなく、遷移力学の知識がなく、環境とのさらなる相互作用もない。
1つの解決策は、既存のアルゴリズムをオフライン環境で動作させるために、見習いの学習に適合させることである。
しかし、このようなアプローチは、政治外の評価やオフラインモデルの推定に大きく依存しており、間接的で非効率である可能性がある。
優れたソリューションは、ポリシーを明示的にパラメータ化し、ロールアウトダイナミクスから暗黙的に学習し、完全にオフラインで運用できるべきだ、と私たちは主張する。
論文 参考訳(メタデータ) (2020-06-25T03:27:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。