論文の概要: Using Implicit Behavior Cloning and Dynamic Movement Primitive to
Facilitate Reinforcement Learning for Robot Motion Planning
- arxiv url: http://arxiv.org/abs/2307.16062v1
- Date: Sat, 29 Jul 2023 19:46:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-01 17:57:24.956732
- Title: Using Implicit Behavior Cloning and Dynamic Movement Primitive to
Facilitate Reinforcement Learning for Robot Motion Planning
- Title(参考訳): ロボット運動計画におけるインシシト行動クローンと動的運動プリミティブを用いた強化学習
- Authors: Zengjie Zhang, Jayden Hong, Amir Soufi Enayati, and Homayoun Najjaran
- Abstract要約: ロボットの運動計画のための強化学習(RL)は、遅い訓練速度と低い一般化性の観点から、低効率に苦しむ。
本稿では、暗黙的行動クローニング(IBC)と動的運動プリミティブ(DMP)を用いて、非政治的RLエージェントのトレーニング速度と一般化性を向上する新しいRLベースのフレームワークを提案する。
- 参考スコア(独自算出の注目度): 1.7901837062462316
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Reinforcement learning (RL) for motion planning of multi-degree-of-freedom
robots still suffers from low efficiency in terms of slow training speed and
poor generalizability. In this paper, we propose a novel RL-based robot motion
planning framework that uses implicit behavior cloning (IBC) and dynamic
movement primitive (DMP) to improve the training speed and generalizability of
an off-policy RL agent. IBC utilizes human demonstration data to leverage the
training speed of RL, and DMP serves as a heuristic model that transfers motion
planning into a simpler planning space. To support this, we also create a human
demonstration dataset using a pick-and-place experiment that can be used for
similar studies. Comparison studies in simulation reveal the advantage of the
proposed method over the conventional RL agents with faster training speed and
higher scores. A real-robot experiment indicates the applicability of the
proposed method to a simple assembly task. Our work provides a novel
perspective on using motion primitives and human demonstration to leverage the
performance of RL for robot applications.
- Abstract(参考訳): 多自由度ロボットの運動計画のための強化学習(RL)は、遅い訓練速度と低い一般化性の観点からも、依然として低効率に悩まされている。
本稿では、暗黙的行動クローニング(IBC)と動的運動プリミティブ(DMP)を用いて、非政治的RLエージェントのトレーニング速度と一般化性を向上する新しいRLベースのロボット動作計画フレームワークを提案する。
IBCは人間の実演データを利用してRLの訓練速度を活用し、DMPはより単純な計画空間に運動計画を転送するヒューリスティックモデルとして機能する。
これをサポートするために、同様の研究に使用できるピック・アンド・プレイス実験を使用して、人間のデモデータセットを作成する。
シミュレーションにおける比較研究により、従来のrlエージェントよりも高速で高いスコアの学習速度で提案手法の利点が明らかになった。
実ロボット実験は,提案手法が簡単な組立作業に適用可能であることを示す。
我々の研究は、ロボットアプリケーションにおけるRLの性能を活用するために、モーションプリミティブと人間のデモを利用する新しい視点を提供する。
関連論文リスト
- SERL: A Software Suite for Sample-Efficient Robotic Reinforcement
Learning [85.21378553454672]
筆者らは,報酬の計算と環境のリセットを行う手法とともに,効率的なオフ・ポリティクス・ディープ・RL法を含むライブラリを開発した。
我々は,PCBボードアセンブリ,ケーブルルーティング,オブジェクトの移動に関するポリシを,非常に効率的な学習を実現することができることを発見した。
これらの政策は完全な成功率またはほぼ完全な成功率、摂動下でさえ極端な堅牢性を実現し、突発的な堅牢性回復と修正行動を示す。
論文 参考訳(メタデータ) (2024-01-29T10:01:10Z) - Robot Fine-Tuning Made Easy: Pre-Training Rewards and Policies for
Autonomous Real-World Reinforcement Learning [58.3994826169858]
ロボット強化学習のためのリセット不要な微調整システムであるRoboFuMEを紹介する。
我々の洞察は、オフラインの強化学習技術を利用して、事前訓練されたポリシーの効率的なオンライン微調整を確保することである。
提案手法では,既存のロボットデータセットからのデータを組み込んで,目標タスクを3時間以内の自律現実体験で改善することができる。
論文 参考訳(メタデータ) (2023-10-23T17:50:08Z) - Reinforcement Learning in Robotic Motion Planning by Combined
Experience-based Planning and Self-Imitation Learning [7.919213739992465]
高品質で代表的なデータは、Imitation Learning(IL)とReinforcement Learning(RL)ベースのモーションプランニングタスクに不可欠である。
本稿では,学習アーキテクチャに経験に基づくプランニングを組み込むSILP+アルゴリズムを提案する。
様々な実験結果から,SILP+は複雑な運動計画タスクにおいて,トレーニング効率が向上し,より安定した成功率が得られることが示された。
論文 参考訳(メタデータ) (2023-06-11T19:47:46Z) - FastRLAP: A System for Learning High-Speed Driving via Deep RL and
Autonomous Practicing [71.76084256567599]
本稿では、自律型小型RCカーを強化学習(RL)を用いた視覚的観察から積極的に駆動するシステムを提案する。
我々のシステムであるFastRLAP (faster lap)は、人間の介入なしに、シミュレーションや専門家によるデモンストレーションを必要とせず、現実世界で自律的に訓練する。
結果として得られたポリシーは、タイミングブレーキや回転の加速度などの突発的な運転スキルを示し、ロボットの動きを妨げる領域を避け、トレーニングの途中で同様の1対1のインタフェースを使用して人間のドライバーのパフォーマンスにアプローチする。
論文 参考訳(メタデータ) (2023-04-19T17:33:47Z) - Karolos: An Open-Source Reinforcement Learning Framework for Robot-Task
Environments [0.3867363075280544]
強化学習(RL)研究において、シミュレーションはアルゴリズム間のベンチマークを可能にする。
本稿では,ロボット応用のためのフレームワークであるKarolosを紹介する。
コードはオープンソースでGitHubに公開されており、ロボット工学におけるRLアプリケーションの研究を促進することを目的としている。
論文 参考訳(メタデータ) (2022-12-01T23:14:02Z) - SAM-RL: Sensing-Aware Model-Based Reinforcement Learning via
Differentiable Physics-Based Simulation and Rendering [49.78647219715034]
本稿では,SAM-RL と呼ばれる感性認識モデルに基づく強化学習システムを提案する。
SAM-RLは、センサーを意識した学習パイプラインによって、ロボットがタスクプロセスを監視するための情報的視点を選択することを可能にする。
我々は,ロボット組立,ツール操作,変形可能なオブジェクト操作という3つの操作タスクを達成するための実世界の実験に,我々のフレームワークを適用した。
論文 参考訳(メタデータ) (2022-10-27T05:30:43Z) - Accelerating Robotic Reinforcement Learning via Parameterized Action
Primitives [92.0321404272942]
強化学習は汎用ロボットシステムの構築に使用することができる。
しかし、ロボット工学の課題を解決するためにRLエージェントを訓練することは依然として困難である。
本研究では,ロボット行動プリミティブ(RAPS)のライブラリを手動で指定し,RLポリシーで学習した引数をパラメータ化する。
動作インターフェースへの簡単な変更は、学習効率とタスクパフォーマンスの両方を大幅に改善する。
論文 参考訳(メタデータ) (2021-10-28T17:59:30Z) - Contextual Latent-Movements Off-Policy Optimization for Robotic
Manipulation Skills [41.140532647789456]
本稿では,低次元非線形潜在力学の獲得のために,実験軌道の扱いに関する新しい考え方を提案する。
LAAMPO (Latent-Movements Policy Optimization) と呼ばれる新しい文脈外RLアルゴリズムを導入する。
LAMPOは、文献における一般的なアプローチに対するサンプル効率のよいポリシーを提供する。
論文 参考訳(メタデータ) (2020-10-26T17:53:30Z) - ReLMoGen: Leveraging Motion Generation in Reinforcement Learning for
Mobile Manipulation [99.2543521972137]
ReLMoGenは、サブゴールを予測するための学習されたポリシーと、これらのサブゴールに到達するために必要な動作を計画し実行するためのモーションジェネレータを組み合わせたフレームワークである。
本手法は,フォトリアリスティック・シミュレーション環境における7つのロボットタスクの多種多様なセットをベンチマークする。
ReLMoGenは、テスト時に異なるモーションジェネレータ間で顕著な転送可能性を示し、実際のロボットに転送する大きな可能性を示している。
論文 参考訳(メタデータ) (2020-08-18T08:05:15Z) - Learning hierarchical behavior and motion planning for autonomous
driving [32.78069835190924]
本稿では,階層的行動計画(HBMP)を導入し,学習ベースソリューションの動作を明示的にモデル化する。
我々は、古典的なサンプリングベースのモーションプランナを統合することで、HBMP問題を変換する。
さらに,シミュレーションプラットフォームと実環境をまたいだ入力感覚データの共有可能な表現を提案する。
論文 参考訳(メタデータ) (2020-05-08T05:34:55Z) - ACNMP: Skill Transfer and Task Extrapolation through Learning from
Demonstration and Reinforcement Learning via Representation Sharing [5.06461227260756]
ACNMPは、異なる形態を持つロボット間のスキル伝達を実装するために使用できる。
本稿では,実際のロボット実験を通して,ACNMPの現実的適合性を示す。
論文 参考訳(メタデータ) (2020-03-25T11:28:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。