論文の概要: Online Damage Recovery for Physical Robots with Hierarchical
Quality-Diversity
- arxiv url: http://arxiv.org/abs/2210.09918v1
- Date: Tue, 18 Oct 2022 15:02:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-19 13:04:34.207760
- Title: Online Damage Recovery for Physical Robots with Hierarchical
Quality-Diversity
- Title(参考訳): 階層的品質多様性を有するロボットのオンライン損傷回復
- Authors: Maxime Allard, Sim\'on C. Smith, Konstantinos Chatzilygeroudis, Bryan
Lim, Antoine Cully
- Abstract要約: 階層的行動レパートリーを用いて多様なスキルを学習する階層的試行錯誤アルゴリズムを導入する。
階層的なスキルの分解により、ロボットはより複雑な振る舞いを学習し、レパートリーの学習を学習しやすくする。
- 参考スコア(独自算出の注目度): 3.899855581265355
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In real-world environments, robots need to be resilient to damages and robust
to unforeseen scenarios. Quality-Diversity (QD) algorithms have been
successfully used to make robots adapt to damages in seconds by leveraging a
diverse set of learned skills. A high diversity of skills increases the chances
of a robot to succeed at overcoming new situations since there are more
potential alternatives to solve a new task.However, finding and storing a large
behavioural diversity of multiple skills often leads to an increase in
computational complexity. Furthermore, robot planning in a large skill space is
an additional challenge that arises with an increased number of skills.
Hierarchical structures can help reducing this search and storage complexity by
breaking down skills into primitive skills. In this paper, we introduce the
Hierarchical Trial and Error algorithm, which uses a hierarchical behavioural
repertoire to learn diverse skills and leverages them to make the robot adapt
quickly in the physical world. We show that the hierarchical decomposition of
skills enables the robot to learn more complex behaviours while keeping the
learning of the repertoire tractable. Experiments with a hexapod robot show
that our method solves a maze navigation tasks with 20% less actions in
simulation, and 43% less actions in the physical world, for the most
challenging scenarios than the best baselines while having 78% less complete
failures.
- Abstract(参考訳): 現実世界の環境では、ロボットは損傷に対して弾力性を持ち、予期せぬシナリオに堅牢でなければならない。
品質多様性(QD)アルゴリズムは、さまざまな学習スキルを活用することで、ロボットを数秒で損傷に適応させるのに成功している。
高いスキルの多様性は、新しいタスクを解決できる可能性のある選択肢が増えるため、新しい状況を克服するロボットが成功する可能性を高めるが、複数のスキルの大規模な行動の多様性を見つけて保存することは、しばしば計算の複雑さを増加させる。
さらに、大きなスキル空間におけるロボット計画は、スキルの増加とともに生じる追加の課題である。
階層構造は、スキルをプリミティブなスキルに分解することで、この検索とストレージの複雑さを軽減するのに役立つ。
本稿では,階層的行動レパートリーを用いて多様なスキルを学習し,それらを活用してロボットを物理的世界に迅速に適応させる階層的試行錯誤アルゴリズムを提案する。
階層的なスキルの分解により、ロボットはより複雑な振る舞いを学習し、レパートリーの学習を学習しやすくする。
ヘキサポッドロボットを用いた実験では,シミュレーション時の動作が20%少なく,物理世界での動作が43%少ないmazeナビゲーションタスクが,最善のベースラインよりも難しいシナリオで解決され,完全な障害が78%少ないことが示されている。
関連論文リスト
- A Retrospective on the Robot Air Hockey Challenge: Benchmarking Robust, Reliable, and Safe Learning Techniques for Real-world Robotics [53.33976793493801]
私たちは、NeurIPS 2023カンファレンスでRobot Air Hockey Challengeを組織しました。
我々は、シム・トゥ・リアルギャップ、低レベルの制御問題、安全性問題、リアルタイム要件、実世界のデータの限られた可用性など、ロボット工学における実践的な課題に焦点を当てる。
その結果、学習に基づくアプローチと事前知識を組み合わせたソリューションは、実際のデプロイメントが困難である場合にデータのみに依存するソリューションよりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-11-08T17:20:47Z) - $π_0$: A Vision-Language-Action Flow Model for General Robot Control [77.32743739202543]
本稿では,インターネット規模のセマンティック知識を継承するために,事前学習された視覚言語モデル(VLM)上に構築された新しいフローマッチングアーキテクチャを提案する。
我々は,事前訓練後のタスクをゼロショットで実行し,人からの言語指導に追従し,微調整で新たなスキルを習得する能力の観点から,我々のモデルを評価した。
論文 参考訳(メタデータ) (2024-10-31T17:22:30Z) - HumanoidBench: Simulated Humanoid Benchmark for Whole-Body Locomotion and Manipulation [50.616995671367704]
そこで本研究では,人型ロボットが器用な手を備えた,高次元シミュレーション型ロボット学習ベンチマークHumanoidBenchを提案する。
その結果,現在最先端の強化学習アルゴリズムがほとんどのタスクに支障をきたすのに対して,階層的学習アプローチはロバストな低レベルポリシーに支えられた場合,優れた性能を達成できることがわかった。
論文 参考訳(メタデータ) (2024-03-15T17:45:44Z) - RSG: Fast Learning Adaptive Skills for Quadruped Robots by Skill Graph [26.861541495975686]
本稿では,ロボットの基本的スキルを体系化するための新しいフレームワークとして,ロボットスキルグラフ(RSG)を提案する。
RSGは知識グラフ(KG)の静的知識の代わりに、巨大な動的行動スキルで構成されている
大規模な実験結果から,RSGは新たなタスクや環境に対して合理的なスキル推論を提供する可能性が示唆された。
論文 参考訳(メタデータ) (2023-11-10T11:59:41Z) - RH20T: A Comprehensive Robotic Dataset for Learning Diverse Skills in
One-Shot [56.130215236125224]
オープンドメインでのロボット操作における重要な課題は、ロボットの多様性と一般化可能なスキルの獲得方法である。
単発模倣学習の最近の研究は、訓練されたポリシーを実証に基づく新しいタスクに移行する可能性を示唆している。
本稿では,エージェントがマルチモーダルな知覚で数百の現実世界のスキルを一般化する可能性を解き放つことを目的とする。
論文 参考訳(メタデータ) (2023-07-02T15:33:31Z) - Exploring the effects of robotic design on learning and neural control [0.0]
論文は神経制御装置ではなく ロボット体の開発に焦点を当てています
私は、マルチタスク設定でニューラルネットワークが直面する現在の落とし穴の多くを克服できるように、ロボットを設計できることを発見しました。
論文 参考訳(メタデータ) (2023-06-06T15:17:34Z) - Discovering Unsupervised Behaviours from Full-State Trajectories [1.827510863075184]
本稿では,自律的に行動特性を見出す品質多様性アルゴリズムとして,自律型ロボットの能力を実現する手法を提案する。
本手法は,ロボットが実状態の軌道から自律的にその能力を見いださなければならないシミュレーションロボット環境において評価する。
より具体的には、分析されたアプローチは、ロボットを多様な位置に移動させるポリシーを自律的に見つけるだけでなく、脚を多様な方法で活用し、ハーフロールも行う。
論文 参考訳(メタデータ) (2022-11-22T16:57:52Z) - Hierarchical Quality-Diversity for Online Damage Recovery [1.376408511310322]
階層的行動レパートリーを用いて多様なスキルを学習する階層的試行錯誤アルゴリズムを導入する。
階層的なスキルの分解により、ロボットはより複雑な振る舞いを学習し、レパートリーの学習を学習しやすくする。
論文 参考訳(メタデータ) (2022-04-12T11:44:01Z) - Lifelong Robotic Reinforcement Learning by Retaining Experiences [61.79346922421323]
多くのマルチタスク強化学習は、ロボットが常にすべてのタスクからデータを収集できると仮定している。
本研究では,物理ロボットシステムの実用的制約を動機として,現実的なマルチタスクRL問題について検討する。
我々は、ロボットのスキルセットを累積的に成長させるために、過去のタスクで学んだデータとポリシーを効果的に活用するアプローチを導出する。
論文 参考訳(メタデータ) (2021-09-19T18:00:51Z) - Discovering Generalizable Skills via Automated Generation of Diverse
Tasks [82.16392072211337]
本稿では,多種多様なタスクの自動生成による一般化可能なスキルの発見手法を提案する。
教師なしスキル発見の先行研究とは対照的に,本手法では各スキルをトレーニング可能なタスクジェネレータが生成するユニークなタスクとペアリングする。
生成したタスクにおけるロボットの動作に定義されたタスク判別器を共同で訓練し、多様性目標の低いエビデンスを推定する。
学習スキルは階層的な強化学習アルゴリズムで構成され、目に見えない目標タスクを解決する。
論文 参考訳(メタデータ) (2021-06-26T03:41:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。