論文の概要: Quality-Diversity Optimisation on a Physical Robot Through
Dynamics-Aware and Reset-Free Learning
- arxiv url: http://arxiv.org/abs/2304.12080v1
- Date: Mon, 24 Apr 2023 13:24:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-25 14:54:24.422070
- Title: Quality-Diversity Optimisation on a Physical Robot Through
Dynamics-Aware and Reset-Free Learning
- Title(参考訳): ダイナミックスアウェアとリセットフリー学習による物理ロボットの品質・多様性の最適化
- Authors: Sim\'on C. Smith, Bryan Lim, Hannah Janmohamed, Antoine Cully
- Abstract要約: 本研究では,リセットフリーQD(RF-QD)アルゴリズムを用いて,物理ロボット上で直接コントローラを学習する。
本手法は,ロボットと環境との相互作用から学習したダイナミクスモデルを用いて,ロボットの動作を予測する。
RF-QDには、ロボットが外を歩いたときに安全なゾーンに戻すリカバリポリシーも含まれており、継続的な学習を可能にしている。
- 参考スコア(独自算出の注目度): 4.260312058817663
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning algorithms, like Quality-Diversity (QD), can be used to acquire
repertoires of diverse robotics skills. This learning is commonly done via
computer simulation due to the large number of evaluations required. However,
training in a virtual environment generates a gap between simulation and
reality. Here, we build upon the Reset-Free QD (RF-QD) algorithm to learn
controllers directly on a physical robot. This method uses a dynamics model,
learned from interactions between the robot and the environment, to predict the
robot's behaviour and improve sample efficiency. A behaviour selection policy
filters out uninteresting or unsafe policies predicted by the model. RF-QD also
includes a recovery policy that returns the robot to a safe zone when it has
walked outside of it, allowing continuous learning. We demonstrate that our
method enables a physical quadruped robot to learn a repertoire of behaviours
in two hours without human supervision. We successfully test the solution
repertoire using a maze navigation task. Finally, we compare our approach to
the MAP-Elites algorithm. We show that dynamics awareness and a recovery policy
are required for training on a physical robot for optimal archive generation.
Video available at https://youtu.be/BgGNvIsRh7Q
- Abstract(参考訳): QD(Quality-Diversity)のような学習アルゴリズムは、多様なロボティクススキルのレパートリーを取得するために使用できる。
この学習は、多くの評価を必要とするため、コンピュータシミュレーションによって一般的に行われる。
しかし,仮想環境におけるトレーニングはシミュレーションと現実のギャップを生じさせる。
ここでは、リセット自由QD(RF-QD)アルゴリズムを用いて、物理ロボット上でコントローラを直接学習する。
この方法は,ロボットと環境の相互作用から学習したダイナミクスモデルを用いて,ロボットの挙動を予測し,サンプル効率を向上させる。
行動選択ポリシーは、モデルによって予測される不関心または安全でないポリシーをフィルタリングする。
RF-QDには、ロボットが外に出たときに安全なゾーンに戻すリカバリポリシーも含まれている。
本研究では,身体的四足歩行ロボットが人間の監督なしに2時間以内に行動のレパートリーを学習できることを実証する。
我々はmazeナビゲーションタスクを用いてソリューションレパートリーのテストに成功しました。
最後に,MAP-Elitesアルゴリズムとの比較を行った。
最適なアーカイブ生成のための物理ロボットのトレーニングには,動的認識と回復ポリシーが必要であることを示す。
https://youtu.be/BgGNvIsRh7Q
関連論文リスト
- Simulation-Aided Policy Tuning for Black-Box Robot Learning [47.83474891747279]
本稿では,データ効率の向上に着目した新しいブラックボックスポリシー探索アルゴリズムを提案する。
このアルゴリズムはロボット上で直接学習し、シミュレーションを追加の情報源として扱い、学習プロセスを高速化する。
ロボットマニピュレータ上でのタスク学習の高速化と成功を,不完全なシミュレータの助けを借りて示す。
論文 参考訳(メタデータ) (2024-11-21T15:52:23Z) - Robot Fine-Tuning Made Easy: Pre-Training Rewards and Policies for
Autonomous Real-World Reinforcement Learning [58.3994826169858]
ロボット強化学習のためのリセット不要な微調整システムであるRoboFuMEを紹介する。
我々の洞察は、オフラインの強化学習技術を利用して、事前訓練されたポリシーの効率的なオンライン微調整を確保することである。
提案手法では,既存のロボットデータセットからのデータを組み込んで,目標タスクを3時間以内の自律現実体験で改善することができる。
論文 参考訳(メタデータ) (2023-10-23T17:50:08Z) - Robot Learning with Sensorimotor Pre-training [98.7755895548928]
ロボット工学のための自己教師型感覚運動器事前学習手法を提案する。
我々のモデルはRTTと呼ばれ、センサモレータトークンのシーケンスで動作するトランスフォーマーである。
感覚運動の事前学習は、ゼロからトレーニングを一貫して上回り、優れたスケーリング特性を持ち、さまざまなタスク、環境、ロボット間での移動を可能にしている。
論文 参考訳(メタデータ) (2023-06-16T17:58:10Z) - Self-Improving Robots: End-to-End Autonomous Visuomotor Reinforcement
Learning [54.636562516974884]
模倣と強化学習において、人間の監督コストは、ロボットが訓練できるデータの量を制限する。
本研究では,自己改善型ロボットシステムのための新しい設計手法であるMEDAL++を提案する。
ロボットは、タスクの実施と解除の両方を学ぶことで、自律的にタスクを練習し、同時にデモンストレーションから報酬関数を推論する。
論文 参考訳(メタデータ) (2023-03-02T18:51:38Z) - Learning to Fold Real Garments with One Arm: A Case Study in Cloud-Based
Robotics Research [21.200764836237497]
物理ハードウェア上でのファブリック操作アルゴリズムのシステマティックなベンチマークを行う。
専門家の行動、キーポイント、報酬関数、動的動きをモデル化する4つの新しい学習ベースアルゴリズムを開発した。
データ収集、モデルトレーニング、およびポリシー評価のライフサイクル全体は、ロボットワークセルへの物理的アクセスなしに遠隔で実行される。
論文 参考訳(メタデータ) (2022-04-21T17:31:20Z) - Learning to Walk Autonomously via Reset-Free Quality-Diversity [73.08073762433376]
品質多様性アルゴリズムは、多様かつ高いパフォーマンスのスキルからなる大規模で複雑な行動レパートリーを発見することができる。
既存のQDアルゴリズムは、手動による人間の監督と介入を必要とするエピソードリセットと同様に、多数の評価を必要とする。
本稿では,オープンエンド環境におけるロボットの自律学習に向けたステップとして,リセットフリー品質多様性最適化(RF-QD)を提案する。
論文 参考訳(メタデータ) (2022-04-07T14:07:51Z) - REvolveR: Continuous Evolutionary Models for Robot-to-robot Policy
Transfer [57.045140028275036]
本研究では,運動学や形態学など,異なるパラメータを持つ2つの異なるロボット間でポリシーを伝達する問題を考察する。
模倣学習手法を含む動作や状態遷移の分布を一致させることで、新しいポリシーを訓練する既存のアプローチは、最適な動作や/または状態分布が異なるロボットでミスマッチしているために失敗する。
本稿では,物理シミュレータに実装されたロボット政策伝達に連続的進化モデルを用いることで,$RevolveR$という新しい手法を提案する。
論文 参考訳(メタデータ) (2022-02-10T18:50:25Z) - Learning Bipedal Robot Locomotion from Human Movement [0.791553652441325]
本研究では、実世界の二足歩行ロボットに、モーションキャプチャーデータから直接の動きを教えるための強化学習に基づく手法を提案する。
本手法は,シミュレーション環境下でのトレーニングから,物理ロボット上での実行へシームレスに移行する。
本研究では,ダイナミックウォークサイクルから複雑なバランスや手振りに至るまでの動作を内製したヒューマノイドロボットについて実演する。
論文 参考訳(メタデータ) (2021-05-26T00:49:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。