論文の概要: Self-Imitation Learning by Planning
- arxiv url: http://arxiv.org/abs/2103.13834v2
- Date: Fri, 26 Mar 2021 21:41:14 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-30 11:42:12.162142
- Title: Self-Imitation Learning by Planning
- Title(参考訳): 計画による自発的学習
- Authors: Sha Luo, Hamidreza Kasaei, Lambert Schomaker
- Abstract要約: 模擬学習(IL)により、熟練の知識を伝達することで、ロボットがスキルを素早く習得できます。
長期移動計画タスクでは、ILおよびRLメソッドのデプロイにおける課題は、大規模で広範囲に分散したデータの生成と収集方法である。
本研究では,現在の方針から訪問状態の計画により,実演データを自動収集する自己模倣学習(silp)を提案する。
SILPは、早期強化学習の段階で正常に訪問された状態がグラフ検索ベースのモーションプランナーの衝突のないノードであることに触発されます。
- 参考スコア(独自算出の注目度): 3.996275177789895
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Imitation learning (IL) enables robots to acquire skills quickly by
transferring expert knowledge, which is widely adopted in reinforcement
learning (RL) to initialize exploration. However, in long-horizon motion
planning tasks, a challenging problem in deploying IL and RL methods is how to
generate and collect massive, broadly distributed data such that these methods
can generalize effectively. In this work, we solve this problem using our
proposed approach called {self-imitation learning by planning (SILP)}, where
demonstration data are collected automatically by planning on the visited
states from the current policy. SILP is inspired by the observation that
successfully visited states in the early reinforcement learning stage are
collision-free nodes in the graph-search based motion planner, so we can plan
and relabel robot's own trials as demonstrations for policy learning. Due to
these self-generated demonstrations, we relieve the human operator from the
laborious data preparation process required by IL and RL methods in solving
complex motion planning tasks. The evaluation results show that our SILP method
achieves higher success rates and enhances sample efficiency compared to
selected baselines, and the policy learned in simulation performs well in a
real-world placement task with changing goals and obstacles.
- Abstract(参考訳): イミテーションラーニング(IL)は、ロボットが専門家の知識を伝達することで、素早くスキルを習得することを可能にする。
しかし、長期移動計画タスクでは、IL法とRL法をデプロイする際の課題は、これらの手法が効果的に一般化できるように、大規模に分散したデータを生成・収集する方法である。
本研究では,提案手法であるSILP(Self-imitation Learning by Planning)を用いて,現在の政策から訪問した状態を計画することで,実演データを自動的に収集する手法を提案する。
SILPは,初期の強化学習段階の来訪状態がグラフ検索に基づく運動プランナの衝突のないノードであることから着想を得たものであり,政策学習の実証として,ロボット自身の試行を計画・実行することができる。
これらの自己生成デモにより、複雑な動作計画タスクの解決において、IL法やRL法が必要とする手間のかかるデータ準備プロセスから人間のオペレーターを解放する。
評価の結果,silp法は選択したベースラインよりも高い成功率を達成でき,サンプル効率が向上し,シミュレーションで学習したポリシーは,目標や障害が変化する実世界の配置課題において良好に機能することが示された。
関連論文リスト
- So You Think You Can Scale Up Autonomous Robot Data Collection? [22.7035324720716]
強化学習(RL)には、自律的なデータ収集を可能にするという約束がある。
環境設計と計測に要する多大な労力のために、現実世界でのスケーリングは依然として困難である。
イミテーション・ラーニング (IL) の手法は環境設計の努力をほとんど必要とせず、人的監督を必要とする。
論文 参考訳(メタデータ) (2024-11-04T05:31:35Z) - Meta-Gradient Search Control: A Method for Improving the Efficiency of Dyna-style Planning [8.552540426753]
本稿では,Dynaスタイルのプランニング中に状態がクエリされる確率を調整可能な,オンラインのメタグラディエントアルゴリズムを提案する。
その結果,提案手法は計画プロセスの効率化を図っている。
論文 参考訳(メタデータ) (2024-06-27T22:24:46Z) - SERL: A Software Suite for Sample-Efficient Robotic Reinforcement
Learning [85.21378553454672]
筆者らは,報酬の計算と環境のリセットを行う手法とともに,効率的なオフ・ポリティクス・ディープ・RL法を含むライブラリを開発した。
我々は,PCBボードアセンブリ,ケーブルルーティング,オブジェクトの移動に関するポリシを,非常に効率的な学習を実現することができることを発見した。
これらの政策は完全な成功率またはほぼ完全な成功率、摂動下でさえ極端な堅牢性を実現し、突発的な堅牢性回復と修正行動を示す。
論文 参考訳(メタデータ) (2024-01-29T10:01:10Z) - Reinforcement Learning in Robotic Motion Planning by Combined
Experience-based Planning and Self-Imitation Learning [7.919213739992465]
高品質で代表的なデータは、Imitation Learning(IL)とReinforcement Learning(RL)ベースのモーションプランニングタスクに不可欠である。
本稿では,学習アーキテクチャに経験に基づくプランニングを組み込むSILP+アルゴリズムを提案する。
様々な実験結果から,SILP+は複雑な運動計画タスクにおいて,トレーニング効率が向上し,より安定した成功率が得られることが示された。
論文 参考訳(メタデータ) (2023-06-11T19:47:46Z) - Efficient Learning of High Level Plans from Play [57.29562823883257]
本稿では,移動計画と深いRLを橋渡しするロボット学習のフレームワークであるELF-Pについて紹介する。
ELF-Pは、複数の現実的な操作タスクよりも、関連するベースラインよりもはるかに優れたサンプル効率を有することを示す。
論文 参考訳(メタデータ) (2023-03-16T20:09:47Z) - Don't Start From Scratch: Leveraging Prior Data to Automate Robotic
Reinforcement Learning [70.70104870417784]
強化学習(RL)アルゴリズムは、ロボットシステムの自律的なスキル獲得を可能にするという約束を持っている。
現実のロボットRLは、通常、環境をリセットするためにデータ収集と頻繁な人間の介入を必要とする。
本研究では,従来のタスクから収集した多様なオフラインデータセットを効果的に活用することで,これらの課題にどのように対処できるかを検討する。
論文 参考訳(メタデータ) (2022-07-11T08:31:22Z) - Efficient Robotic Manipulation Through Offline-to-Online Reinforcement
Learning and Goal-Aware State Information [5.604859261995801]
本稿では、遷移性能低下を解消するオフラインからオフラインまでの統一的なRLフレームワークを提案する。
目標認識状態情報をRLエージェントに導入することにより,タスクの複雑性を大幅に低減し,政策学習を加速することができる。
本フレームワークは,複数のロボット操作タスクにおける最先端手法と比較して,優れたトレーニング効率と性能を実現する。
論文 参考訳(メタデータ) (2021-10-21T05:34:25Z) - Active Learning of Abstract Plan Feasibility [17.689758291966502]
本稿では,タスクに依存しない,好奇心を抱くロボットの探索を通じて,APF予測器を効率的に取得するための能動的学習手法を提案する。
アクティブラーニング戦略において,本システムでは,本システムでより少ないデータから学習できるように,実用不可能なサブシーケンス特性を活用して,候補計画の立案を行う。
物体が一様でない質量分布を持つ積層領域において,本システムは,400個の自己教師による相互作用において,APFモデルの実際のロボット学習を可能にすることを示す。
論文 参考訳(メタデータ) (2021-07-01T18:17:01Z) - DEALIO: Data-Efficient Adversarial Learning for Imitation from
Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。
近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。
この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。
よりデータ効率の高いifOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-31T23:46:32Z) - A Framework for Efficient Robotic Manipulation [79.10407063260473]
単一のロボットアームがピクセルからスパースリワード操作ポリシーを学習できることを示します。
デモは10回しかなく、単一のロボットアームがピクセルからスパースリワード操作のポリシーを学習できることを示しています。
論文 参考訳(メタデータ) (2020-12-14T22:18:39Z) - AWAC: Accelerating Online Reinforcement Learning with Offline Datasets [84.94748183816547]
提案手法は,従来の実演データとオンライン体験を組み合わせることで,スキルの素早い学習を可能にする。
以上の結果から,事前データを組み込むことで,ロボット工学を実践的な時間スケールまで学習するのに要する時間を短縮できることが示唆された。
論文 参考訳(メタデータ) (2020-06-16T17:54:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。