論文の概要: Reinforcement Learning in Robotic Motion Planning by Combined
Experience-based Planning and Self-Imitation Learning
- arxiv url: http://arxiv.org/abs/2306.06754v1
- Date: Sun, 11 Jun 2023 19:47:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-13 16:57:59.663930
- Title: Reinforcement Learning in Robotic Motion Planning by Combined
Experience-based Planning and Self-Imitation Learning
- Title(参考訳): 体験型計画と自己帰納学習を組み合わせたロボット運動計画における強化学習
- Authors: Sha Luo, Lambert Schomaker
- Abstract要約: 高品質で代表的なデータは、Imitation Learning(IL)とReinforcement Learning(RL)ベースのモーションプランニングタスクに不可欠である。
本稿では,学習アーキテクチャに経験に基づくプランニングを組み込むSILP+アルゴリズムを提案する。
様々な実験結果から,SILP+は複雑な運動計画タスクにおいて,トレーニング効率が向上し,より安定した成功率が得られることが示された。
- 参考スコア(独自算出の注目度): 7.919213739992465
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: High-quality and representative data is essential for both Imitation Learning
(IL)- and Reinforcement Learning (RL)-based motion planning tasks. For real
robots, it is challenging to collect enough qualified data either as
demonstrations for IL or experiences for RL due to safety considerations in
environments with obstacles. We target this challenge by proposing the
self-imitation learning by planning plus (SILP+) algorithm, which efficiently
embeds experience-based planning into the learning architecture to mitigate the
data-collection problem. The planner generates demonstrations based on
successfully visited states from the current RL policy, and the policy improves
by learning from these demonstrations. In this way, we relieve the demand for
human expert operators to collect demonstrations required by IL and improve the
RL performance as well. Various experimental results show that SILP+ achieves
better training efficiency higher and more stable success rate in complex
motion planning tasks compared to several other methods. Extensive tests on
physical robots illustrate the effectiveness of SILP+ in a physical setting.
- Abstract(参考訳): 高品質で代表的なデータは、Imitation Learning(IL)とReinforcement Learning(RL)ベースのモーションプランニングタスクに不可欠である。
実際のロボットでは、障害物のある環境での安全上の配慮から、ILのデモンストレーションやRLの経験として十分な資格データを集めることは困難である。
この課題を,計画プラス(silp+)アルゴリズムによる自己模倣学習を提案することで,学習アーキテクチャに経験に基づく計画を効率的に組み込むことにより,データ収集問題を軽減する。
プランナーは、現在のrlポリシーから訪問した状態に基づいてデモを生成し、これらのデモから学習することで、ポリシーが改善される。
このようにして、人間エキスパートオペレーターがilに必要なデモを収集し、rlパフォーマンスを向上させるという要求を緩和します。
様々な実験結果から,silp+は複雑な動作計画作業において,他の手法に比べて高いトレーニング効率とより安定した成功率を達成できることがわかった。
物理ロボットの大規模なテストは、物理環境でのSILP+の有効性を示している。
関連論文リスト
- AdaDemo: Data-Efficient Demonstration Expansion for Generalist Robotic Agent [75.91274222142079]
本研究では,汎用ロボットエージェントの学習を容易にするために,データ効率のよい方法で実演をスケールアップすることを目的とする。
AdaDemoは、デモデータセットを積極的に継続的に拡張することで、マルチタスクポリシー学習を改善するように設計されたフレームワークである。
論文 参考訳(メタデータ) (2024-04-11T01:59:29Z) - Tactile Active Inference Reinforcement Learning for Efficient Robotic
Manipulation Skill Acquisition [10.072992621244042]
触覚能動推論強化学習(Tactile Active Inference Reinforcement Learning, Tactile-AIRL)と呼ばれるロボット操作におけるスキル学習手法を提案する。
強化学習(RL)の性能を高めるために,モデルに基づく手法と本質的な好奇心をRLプロセスに統合した能動推論を導入する。
本研究では,タスクをプッシュする非包括的オブジェクトにおいて,学習効率が著しく向上することが実証された。
論文 参考訳(メタデータ) (2023-11-19T10:19:22Z) - Imitation Bootstrapped Reinforcement Learning [31.916571349600684]
模擬ブートストラップ強化学習(IBRL)はサンプル効率強化学習のための新しいフレームワークである。
IBRLを6つのシミュレーションと3つの実世界のタスクで評価した。
論文 参考訳(メタデータ) (2023-11-03T19:03:20Z) - Efficient Learning of High Level Plans from Play [57.29562823883257]
本稿では,移動計画と深いRLを橋渡しするロボット学習のフレームワークであるELF-Pについて紹介する。
ELF-Pは、複数の現実的な操作タスクよりも、関連するベースラインよりもはるかに優れたサンプル効率を有することを示す。
論文 参考訳(メタデータ) (2023-03-16T20:09:47Z) - Hindsight States: Blending Sim and Real Task Elements for Efficient
Reinforcement Learning [61.3506230781327]
ロボット工学では、第一原理から導かれた力学モデルに基づくシミュレーションに基づいて、トレーニングデータを生成する方法がある。
ここでは、力学の複雑さの不均衡を利用して、より標本効率のよい学習を行う。
提案手法をいくつかの課題に対して検証し,既存の近視アルゴリズムと組み合わせた場合の学習改善を実証する。
論文 参考訳(メタデータ) (2023-03-03T21:55:04Z) - Lifelong Learning Metrics [63.8376359764052]
DARPA Lifelong Learning Machines (L2M) プログラムは、人工知能(AI)システムの進歩を目指している。
本論文は、生涯学習シナリオを実行するエージェントのパフォーマンスの構築と特徴付けのためのフォーマリズムを概説する。
論文 参考訳(メタデータ) (2022-01-20T16:29:14Z) - Creativity of AI: Hierarchical Planning Model Learning for Facilitating
Deep Reinforcement Learning [19.470693909025798]
シンボリックオプションを備えた新しい深層強化学習フレームワークを導入する。
当社のフレームワークは,政策改善の指針となるループトレーニングを特徴としている。
我々はモンテズマのRevengeとOffice Worldの2つの領域でそれぞれ実験を行っている。
論文 参考訳(メタデータ) (2021-12-18T03:45:28Z) - Demonstration-Guided Reinforcement Learning with Learned Skills [23.376115889936628]
実証誘導強化学習(RL)は複雑な行動を学ぶ上で有望なアプローチである。
本研究では、この共有サブタスク構造を利用して、実演誘導RLの効率を向上させることを目的とする。
本稿では,提案する実演を効率的に活用する実演誘導RLアルゴリズムであるSkiLD(Skill-based Learning with Demonstrations)を提案する。
論文 参考訳(メタデータ) (2021-07-21T17:59:34Z) - Self-Imitation Learning by Planning [3.996275177789895]
模擬学習(IL)により、熟練の知識を伝達することで、ロボットがスキルを素早く習得できます。
長期移動計画タスクでは、ILおよびRLメソッドのデプロイにおける課題は、大規模で広範囲に分散したデータの生成と収集方法である。
本研究では,現在の方針から訪問状態の計画により,実演データを自動収集する自己模倣学習(silp)を提案する。
SILPは、早期強化学習の段階で正常に訪問された状態がグラフ検索ベースのモーションプランナーの衝突のないノードであることに触発されます。
論文 参考訳(メタデータ) (2021-03-25T13:28:38Z) - A Framework for Efficient Robotic Manipulation [79.10407063260473]
単一のロボットアームがピクセルからスパースリワード操作ポリシーを学習できることを示します。
デモは10回しかなく、単一のロボットアームがピクセルからスパースリワード操作のポリシーを学習できることを示しています。
論文 参考訳(メタデータ) (2020-12-14T22:18:39Z) - AWAC: Accelerating Online Reinforcement Learning with Offline Datasets [84.94748183816547]
提案手法は,従来の実演データとオンライン体験を組み合わせることで,スキルの素早い学習を可能にする。
以上の結果から,事前データを組み込むことで,ロボット工学を実践的な時間スケールまで学習するのに要する時間を短縮できることが示唆された。
論文 参考訳(メタデータ) (2020-06-16T17:54:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。