論文の概要: Improving the Exploration of Deep Reinforcement Learning in Continuous
Domains using Planning for Policy Search
- arxiv url: http://arxiv.org/abs/2010.12974v1
- Date: Sat, 24 Oct 2020 20:19:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-03 13:36:22.354072
- Title: Improving the Exploration of Deep Reinforcement Learning in Continuous
Domains using Planning for Policy Search
- Title(参考訳): 政策探索計画を用いた連続ドメインにおける深層強化学習の探索の改善
- Authors: Jakob J. Hollenstein, Erwan Renaudo, Matteo Saveriano, Justus Piater
- Abstract要約: 本研究では, キノダイナミックプランナを探索戦略に統合し, 生成された環境相互作用からオフラインで制御ポリシーを学習することを提案する。
不活性化システムを含む典型的なRL設定において,PSと最先端D-RL法を比較した。
これはPSPがより良いポリシーを発見するのに役立つトレーニングデータを生成する。
- 参考スコア(独自算出の注目度): 6.088695984060244
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Local policy search is performed by most Deep Reinforcement Learning (D-RL)
methods, which increases the risk of getting trapped in a local minimum.
Furthermore, the availability of a simulation model is not fully exploited in
D-RL even in simulation-based training, which potentially decreases efficiency.
To better exploit simulation models in policy search, we propose to integrate a
kinodynamic planner in the exploration strategy and to learn a control policy
in an offline fashion from the generated environment interactions. We call the
resulting model-based reinforcement learning method PPS (Planning for Policy
Search). We compare PPS with state-of-the-art D-RL methods in typical RL
settings including underactuated systems. The comparison shows that PPS, guided
by the kinodynamic planner, collects data from a wider region of the state
space. This generates training data that helps PPS discover better policies.
- Abstract(参考訳): ローカルポリシー検索は、ほとんどのDeep Reinforcement Learning (D-RL)メソッドによって行われ、ローカルな最小限に閉じ込められるリスクが増大する。
さらに,シミュレーションベーストレーニングにおいてもD-RLではシミュレーションモデルの可用性が十分に活用されないため,効率が低下する可能性がある。
政策探索におけるシミュレーションモデルをより活用するために,探索戦略にkinodynamic plannerを統合し,生成した環境相互作用からオフラインで制御ポリシーを学ぶことを提案する。
得られたモデルベース強化学習法pps (planning for policy search) と呼ぶ。
不活性化システムを含む典型的なRL設定において,PSと最先端D-RL法を比較した。
比較の結果、キノダイナミックプランナーによって導かれるPSは、状態空間の広い領域からデータを収集する。
これにより、ppsがより良いポリシーを見つけるのに役立つトレーニングデータを生成する。
関連論文リスト
- Theoretically Guaranteed Policy Improvement Distilled from Model-Based
Planning [64.10794426777493]
モデルベース強化学習(RL)は、様々な連続制御タスクにおいて顕著な成功を収めた。
近年のプラクティスでは、最適化されたアクションシーケンスをトレーニングフェーズ中にRLポリシーに蒸留する傾向にある。
我々は,モデルに基づく計画から政策への蒸留アプローチを開発する。
論文 参考訳(メタデータ) (2023-07-24T16:52:31Z) - Reparameterized Policy Learning for Multimodal Trajectory Optimization [61.13228961771765]
本研究では,高次元連続行動空間における強化学習のためのパラメータ化政策の課題について検討する。
本稿では,連続RLポリシーを最適軌道の生成モデルとしてモデル化する原理的フレームワークを提案する。
本稿では,マルチモーダルポリシーパラメータ化と学習世界モデルを活用した実用的モデルベースRL手法を提案する。
論文 参考訳(メタデータ) (2023-07-20T09:05:46Z) - Predictive Maneuver Planning with Deep Reinforcement Learning (PMP-DRL)
for comfortable and safe autonomous driving [7.3045725197814875]
本稿では,演習計画のためのPMP-DRLモデルを提案する。
その経験から学ぶことで、強化学習(RL)ベースの運転エージェントは、変化する運転条件に適応することができる。
その結果、PMP-DRLは複雑な現実世界のシナリオを処理でき、ルールベースや模倣の模倣よりも快適で安全な操作判断ができることがわかった。
論文 参考訳(メタデータ) (2023-06-15T11:27:30Z) - Diverse Policy Optimization for Structured Action Space [59.361076277997704]
エネルギーベースモデル(EBM)として構造化された行動空間における政策をモデル化するための多元的政策最適化(DPO)を提案する。
新しい強力な生成モデルであるGFlowNetは、効率よく多様なEMMベースのポリシーサンプリングとして導入されている。
ATSCとBattleベンチマークの実験では、DPOが驚くほど多様なポリシーを効率的に発見できることが示されている。
論文 参考訳(メタデータ) (2023-02-23T10:48:09Z) - Exploration via Planning for Information about the Optimal Trajectory [67.33886176127578]
我々は,タスクと現在の知識を考慮に入れながら,探索を計画できる手法を開発した。
本手法は, 探索基準値よりも2倍少ないサンプルで, 強いポリシーを学習できることを実証する。
論文 参考訳(メタデータ) (2022-10-06T20:28:55Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z) - Direct Random Search for Fine Tuning of Deep Reinforcement Learning
Policies [5.543220407902113]
直接ランダム検索は、決定論的ロールアウトを用いて直接最適化することにより、DRLポリシーを微調整するのに非常に効果的であることを示す。
その結果, 本手法は, テストした環境において, より一貫性があり, 高性能なエージェントが得られることがわかった。
論文 参考訳(メタデータ) (2021-09-12T20:12:46Z) - Learning Off-Policy with Online Planning [18.63424441772675]
本研究では,学習モデルと端末値関数を用いたHステップルックアヘッドの新たなインスタンス化について検討する。
ナビゲーション環境の集合に配置する際の安全性制約を組み込むLOOPの柔軟性を示す。
論文 参考訳(メタデータ) (2020-08-23T16:18:44Z) - MOPO: Model-based Offline Policy Optimization [183.6449600580806]
オフライン強化学習(英語: offline reinforcement learning, RL)とは、以前に収集された大量のデータから完全に学習ポリシーを学習する問題を指す。
既存のモデルベースRLアルゴリズムは,すでにオフライン設定において大きな利益を上げていることを示す。
本稿では,既存のモデルに基づくRL法を,力学の不確実性によって人為的に罰せられる報酬で適用することを提案する。
論文 参考訳(メタデータ) (2020-05-27T08:46:41Z) - Population-Guided Parallel Policy Search for Reinforcement Learning [17.360163137926]
都市外強化学習(RL)の性能向上を図るために,新たな人口誘導型並列学習手法を提案する。
提案手法では,複数の同一学習者が独自の値関数とポリシーを共用し,共通体験再生バッファを共有し,最良のポリシー情報のガイダンスと協調して適切なポリシーを探索する。
論文 参考訳(メタデータ) (2020-01-09T10:13:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。