論文の概要: High Acceleration Reinforcement Learning for Real-World Juggling with
Binary Rewards
- arxiv url: http://arxiv.org/abs/2010.13483v3
- Date: Sat, 31 Oct 2020 18:15:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-02 18:29:01.165146
- Title: High Acceleration Reinforcement Learning for Real-World Juggling with
Binary Rewards
- Title(参考訳): 二元報酬による実世界ジャグリングのための高加速度強化学習
- Authors: Kai Ploeger, Michael Lutter, Jan Peters
- Abstract要約: 学習システムは,ロボットを傷つけることなく,現実世界でジャグリングすることを学ぶことができることを示す。
本システムは,56分間の経験から,高速なバレットWAMマニピュレータで2つのボールをジャグリングすることを可能にした。
最終方針は、最大33分間、または約4500回のキャッチを連続的にジャグリングする。
- 参考スコア(独自算出の注目度): 35.55280687116388
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Robots that can learn in the physical world will be important to en-able
robots to escape their stiff and pre-programmed movements. For dynamic
high-acceleration tasks, such as juggling, learning in the real-world is
particularly challenging as one must push the limits of the robot and its
actuation without harming the system, amplifying the necessity of sample
efficiency and safety for robot learning algorithms. In contrast to prior work
which mainly focuses on the learning algorithm, we propose a learning system,
that directly incorporates these requirements in the design of the policy
representation, initialization, and optimization. We demonstrate that this
system enables the high-speed Barrett WAM manipulator to learn juggling two
balls from 56 minutes of experience with a binary reward signal. The final
policy juggles continuously for up to 33 minutes or about 4500 repeated
catches. The videos documenting the learning process and the evaluation can be
found at https://sites.google.com/view/jugglingbot
- Abstract(参考訳): 物理的な世界で学べるロボットは、頑丈でプログラムされた動きから逃れられるロボットにとって重要だ。
ジャグリングのようなダイナミックなハイアクセラレーションタスクでは、ロボットの限界を押し上げ、システムを損なうことなく動作させ、サンプル効率とロボット学習アルゴリズムの安全性を高める必要があるため、現実世界での学習は特に困難である。
学習アルゴリズムを中心とした先行研究とは対照的に,政策表現,初期化,最適化の設計にこれらの要件を直接組み込む学習システムを提案する。
このシステムにより,バレット・ワムマニピュレータは,56分間の経験から2つのボールのジャグリングをバイナリ報酬信号で学習できることを実証する。
最終方針は33分間、または約4500回のキャッチを繰り返す。
学習プロセスと評価に関するビデオはhttps://sites.google.com/view/jugglingbotで見ることができる。
関連論文リスト
- Simulation-Aided Policy Tuning for Black-Box Robot Learning [47.83474891747279]
本稿では,データ効率の向上に着目した新しいブラックボックスポリシー探索アルゴリズムを提案する。
このアルゴリズムはロボット上で直接学習し、シミュレーションを追加の情報源として扱い、学習プロセスを高速化する。
ロボットマニピュレータ上でのタスク学習の高速化と成功を,不完全なシミュレータの助けを借りて示す。
論文 参考訳(メタデータ) (2024-11-21T15:52:23Z) - SPIRE: Synergistic Planning, Imitation, and Reinforcement Learning for Long-Horizon Manipulation [58.14969377419633]
タスクをより小さな学習サブプロブレムに分解し、第2に模倣と強化学習を組み合わせてその強みを最大化するシステムであるspireを提案する。
我々は、模倣学習、強化学習、計画を統合する従来の手法よりも平均タスク性能が35%から50%向上していることを発見した。
論文 参考訳(メタデータ) (2024-10-23T17:42:07Z) - Offline Imitation Learning Through Graph Search and Retrieval [57.57306578140857]
模倣学習は、ロボットが操作スキルを取得するための強力な機械学習アルゴリズムである。
本稿では,グラフ検索と検索により,最適下実験から学習する,シンプルで効果的なアルゴリズムGSRを提案する。
GSRは、ベースラインに比べて10%から30%高い成功率、30%以上の熟練を達成できる。
論文 参考訳(メタデータ) (2024-07-22T06:12:21Z) - Quality-Diversity Optimisation on a Physical Robot Through
Dynamics-Aware and Reset-Free Learning [4.260312058817663]
本研究では,リセットフリーQD(RF-QD)アルゴリズムを用いて,物理ロボット上で直接コントローラを学習する。
本手法は,ロボットと環境との相互作用から学習したダイナミクスモデルを用いて,ロボットの動作を予測する。
RF-QDには、ロボットが外を歩いたときに安全なゾーンに戻すリカバリポリシーも含まれており、継続的な学習を可能にしている。
論文 参考訳(メタデータ) (2023-04-24T13:24:00Z) - Self-Improving Robots: End-to-End Autonomous Visuomotor Reinforcement
Learning [54.636562516974884]
模倣と強化学習において、人間の監督コストは、ロボットが訓練できるデータの量を制限する。
本研究では,自己改善型ロボットシステムのための新しい設計手法であるMEDAL++を提案する。
ロボットは、タスクの実施と解除の両方を学ぶことで、自律的にタスクを練習し、同時にデモンストレーションから報酬関数を推論する。
論文 参考訳(メタデータ) (2023-03-02T18:51:38Z) - Accelerating Robot Learning of Contact-Rich Manipulations: A Curriculum
Learning Study [4.045850174820418]
本稿では,Domain Randomization(DR)と組み合わせたカリキュラム学習に基づく,コンタクトリッチな操作タスクのロボット学習の高速化に関する研究を行う。
挿入タスクのような位置制御ロボットによる複雑な産業組み立てタスクに対処する。
また,おもちゃのタスクを用いたシミュレーションでのみトレーニングを行う場合においても,現実のロボットに伝達可能なポリシーを学習できることが示唆された。
論文 参考訳(メタデータ) (2022-04-27T11:08:39Z) - Dual-Arm Adversarial Robot Learning [0.6091702876917281]
ロボット学習のためのプラットフォームとしてデュアルアーム設定を提案する。
このセットアップの潜在的なメリットと、追求できる課題と研究の方向性について論じる。
論文 参考訳(メタデータ) (2021-10-15T12:51:57Z) - Lifelong Robotic Reinforcement Learning by Retaining Experiences [61.79346922421323]
多くのマルチタスク強化学習は、ロボットが常にすべてのタスクからデータを収集できると仮定している。
本研究では,物理ロボットシステムの実用的制約を動機として,現実的なマルチタスクRL問題について検討する。
我々は、ロボットのスキルセットを累積的に成長させるために、過去のタスクで学んだデータとポリシーを効果的に活用するアプローチを導出する。
論文 参考訳(メタデータ) (2021-09-19T18:00:51Z) - The Ingredients of Real-World Robotic Reinforcement Learning [71.92831985295163]
実世界で収集されたデータによって継続的に自律的に改善できるロボット学習システムに必要な要素について論じる。
本稿では,このようなシステムの特異なインスタンス化を事例として,デクスタラスな操作を事例として提案する。
我々は人間の介入なしに学習できることを実証し、現実世界の3本指の手で様々な視覚ベースのスキルを習得する。
論文 参考訳(メタデータ) (2020-04-27T03:36:10Z) - Learning Agile Robotic Locomotion Skills by Imitating Animals [72.36395376558984]
動物の多様でアジャイルな運動スキルを再現することは、ロボット工学における長年の課題である。
そこで本研究では,現実世界の動物を模倣することで,足のロボットがアジャイルな運動能力を学ぶことができる模倣学習システムを提案する。
論文 参考訳(メタデータ) (2020-04-02T02:56:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。