論文の概要: PBCS : Efficient Exploration and Exploitation Using a Synergy between
Reinforcement Learning and Motion Planning
- arxiv url: http://arxiv.org/abs/2004.11667v1
- Date: Fri, 24 Apr 2020 11:37:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-10 02:50:51.152916
- Title: PBCS : Efficient Exploration and Exploitation Using a Synergy between
Reinforcement Learning and Motion Planning
- Title(参考訳): PBCS : 強化学習と運動計画の相乗効果を用いた効率的な探索と爆発
- Authors: Guillaume Matheron, Nicolas Perrin, Olivier Sigaud
- Abstract要約: 「プラン、バックプレイ、チェインスキル」は、運動計画と強化学習を組み合わせてハード探索環境を解決している。
本手法は, 様々な大きさの2次元迷路環境において, 最先端のRLアルゴリズムより優れていることを示す。
- 参考スコア(独自算出の注目度): 8.176152440971897
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The exploration-exploitation trade-off is at the heart of reinforcement
learning (RL). However, most continuous control benchmarks used in recent RL
research only require local exploration. This led to the development of
algorithms that have basic exploration capabilities, and behave poorly in
benchmarks that require more versatile exploration. For instance, as
demonstrated in our empirical study, state-of-the-art RL algorithms such as
DDPG and TD3 are unable to steer a point mass in even small 2D mazes. In this
paper, we propose a new algorithm called "Plan, Backplay, Chain Skills" (PBCS)
that combines motion planning and reinforcement learning to solve hard
exploration environments. In a first phase, a motion planning algorithm is used
to find a single good trajectory, then an RL algorithm is trained using a
curriculum derived from the trajectory, by combining a variant of the Backplay
algorithm and skill chaining. We show that this method outperforms
state-of-the-art RL algorithms in 2D maze environments of various sizes, and is
able to improve on the trajectory obtained by the motion planning phase.
- Abstract(参考訳): 探査・探査のトレードオフは強化学習(RL)の中心にある。
しかし、最近のRL研究で使われているほとんどの連続制御ベンチマークは局所的な探索のみを必要とする。
この結果、基本的な探索能力を持ち、より多用途な探索を必要とするベンチマークで振る舞うアルゴリズムの開発につながった。
例えば、実験的な研究で示されたように、DDPGやTD3のような最先端のRLアルゴリズムは、小さな2D迷路でもポイント質量を操れません。
本稿では, 動き計画と強化学習を組み合わせて, 硬い探索環境を解く, PBCS (Plan, Backplay, Chain Skills) と呼ばれる新しいアルゴリズムを提案する。
第1フェーズでは、1つの良い軌道を見つけるために動き計画アルゴリズムを使用し、その後、バックプレイアルゴリズムの変種とスキル連鎖を組み合わせることで、軌道から派生したカリキュラムを用いてrlアルゴリズムを訓練する。
本手法は,様々な大きさの2次元迷路環境において最先端のrlアルゴリズムを上回り,動作計画フェーズで得られた軌道を改善できることを示す。
関連論文リスト
- Active search and coverage using point-cloud reinforcement learning [50.741409008225766]
本稿では,目的探索とカバレッジのためのエンドツーエンドの深層強化学習ソリューションを提案する。
RLの深い階層的特徴学習は有効であり、FPS(Fastthest Point sample)を用いることで点数を削減できることを示す。
また、ポイントクラウドに対するマルチヘッドの注意がエージェントの学習を高速化する上で有効であるが、同じ結果に収束することを示す。
論文 参考訳(メタデータ) (2023-12-18T18:16:30Z) - Action and Trajectory Planning for Urban Autonomous Driving with
Hierarchical Reinforcement Learning [1.3397650653650457]
本稿では,階層型強化学習法(atHRL)を用いた行動・軌道プランナを提案する。
我々は、複雑な都市運転シナリオにおける広範な実験を通して、atHRLの有効性を実証的に検証した。
論文 参考訳(メタデータ) (2023-06-28T07:11:02Z) - CACTO: Continuous Actor-Critic with Trajectory Optimization -- Towards
global optimality [5.0915256711576475]
本稿では,Tlayy(TO)とReinforcement Learning(RL)を1つの軌道で組み合わせた,動的システムの連続制御のための新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-11-12T10:16:35Z) - Pretraining in Deep Reinforcement Learning: A Survey [17.38360092869849]
事前訓練は伝達可能な知識の獲得に有効であることが示されている。
強化学習の性質から, この分野でのプレトレーニングには, 独特な課題が伴う。
論文 参考訳(メタデータ) (2022-11-08T02:17:54Z) - Deep Black-Box Reinforcement Learning with Movement Primitives [15.184283143878488]
深部強化学習のための新しいアルゴリズムを提案する。
これは、政治的に成功したディープRLアルゴリズムである、微分可能な信頼領域層に基づいている。
複雑なロボット制御タスクにおいて,ERLアルゴリズムと最先端のステップベースアルゴリズムを比較した。
論文 参考訳(メタデータ) (2022-10-18T06:34:52Z) - Abstract Demonstrations and Adaptive Exploration for Efficient and
Stable Multi-step Sparse Reward Reinforcement Learning [44.968170318777105]
本稿では、人間の体験にインスパイアされた2つのコンポーネント、抽象的なデモンストレーションと適応的な探索を統合したDRL探査手法A2を提案する。
A2は、複雑なタスクをサブタスクに分解し、次に学習するサブタスクの正しい順序を提供する。
A2は、一般的なDRLアルゴリズムがこれらの環境でより効率的に安定して学習できることを示す。
論文 参考訳(メタデータ) (2022-07-19T12:56:41Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z) - Scalable Deep Reinforcement Learning Algorithms for Mean Field Games [60.550128966505625]
平均フィールドゲーム (MFGs) は、非常に多くの戦略エージェントを持つゲームを効率的に近似するために導入された。
近年,モデルフリー強化学習(RL)手法を用いて,MFGの学習均衡の課題が活発化している。
MFGを解くための既存のアルゴリズムは戦略や$q$-valuesのような近似量の混合を必要とする。
本稿では,この欠点に対処する2つの手法を提案する。まず,歴史データの蒸留からニューラルネットワークへの混合戦略を学習し,Factitious Playアルゴリズムに適用する。
2つ目はオンライン混合方式である。
論文 参考訳(メタデータ) (2022-03-22T18:10:32Z) - Accelerating Robotic Reinforcement Learning via Parameterized Action
Primitives [92.0321404272942]
強化学習は汎用ロボットシステムの構築に使用することができる。
しかし、ロボット工学の課題を解決するためにRLエージェントを訓練することは依然として困難である。
本研究では,ロボット行動プリミティブ(RAPS)のライブラリを手動で指定し,RLポリシーで学習した引数をパラメータ化する。
動作インターフェースへの簡単な変更は、学習効率とタスクパフォーマンスの両方を大幅に改善する。
論文 参考訳(メタデータ) (2021-10-28T17:59:30Z) - Evolving Reinforcement Learning Algorithms [186.62294652057062]
メタラーニング強化学習アルゴリズムの手法を提案する。
学習アルゴリズムはドメインに依存しないため、トレーニング中に見えない新しい環境に一般化することができる。
従来の制御タスク、gridworld型タスク、atariゲームよりも優れた一般化性能を得る2つの学習アルゴリズムに注目した。
論文 参考訳(メタデータ) (2021-01-08T18:55:07Z) - AutoML-Zero: Evolving Machine Learning Algorithms From Scratch [76.83052807776276]
基本数学的操作をビルディングブロックとして使うだけで,完全な機械学習アルゴリズムを自動的に発見できることが示される。
汎用的な検索空間を通じて人間のバイアスを大幅に低減する新しいフレームワークを導入することでこれを実証する。
機械学習アルゴリズムをゼロから発見する上で、これらの予備的な成功は、この分野における有望な新しい方向性を示していると信じている。
論文 参考訳(メタデータ) (2020-03-06T19:00:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。