論文の概要: Dynamics-Aware Quality-Diversity for Efficient Learning of Skill
Repertoires
- arxiv url: http://arxiv.org/abs/2109.08522v1
- Date: Thu, 16 Sep 2021 08:35:35 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-20 14:46:26.067540
- Title: Dynamics-Aware Quality-Diversity for Efficient Learning of Skill
Repertoires
- Title(参考訳): スキルレパートリーの効率的な学習のためのダイナミクスを考慮した品質多様性
- Authors: Bryan Lim, Luca Grillotti, Lorenzo Bernasconi and Antoine Cully
- Abstract要約: 品質多様性(QD)アルゴリズムは、ロボットが多種多様なハイパフォーマンススキルの大規模なレパートリーを発見できるようにする強力な探索アルゴリズムである。
本稿では,QDアルゴリズムのサンプル効率を向上させるためのフレームワークであるD-QD(Dynamics-Aware Quality-Diversity)を提案する。
- 参考スコア(独自算出の注目度): 4.943054375935878
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Quality-Diversity (QD) algorithms are powerful exploration algorithms that
allow robots to discover large repertoires of diverse and high-performing
skills. However, QD algorithms are sample inefficient and require millions of
evaluations. In this paper, we propose Dynamics-Aware Quality-Diversity
(DA-QD), a framework to improve the sample efficiency of QD algorithms through
the use of dynamics models. We also show how DA-QD can then be used for
continual acquisition of new skill repertoires. To do so, we incrementally
train a deep dynamics model from experience obtained when performing skill
discovery using QD. We can then perform QD exploration in imagination with an
imagined skill repertoire. We evaluate our approach on three robotic
experiments. First, our experiments show DA-QD is 20 times more sample
efficient than existing QD approaches for skill discovery. Second, we
demonstrate learning an entirely new skill repertoire in imagination to perform
zero-shot learning. Finally, we show how DA-QD is useful and effective for
solving a long horizon navigation task and for damage adaptation in the real
world. Videos and source code are available at:
https://sites.google.com/view/da-qd.
- Abstract(参考訳): quality-diversity(qd)アルゴリズムは、ロボットが多様で高性能なスキルの大きなレパートリーを見つけるための強力な探索アルゴリズムである。
しかし、QDアルゴリズムはサンプル非効率であり、何百万もの評価を必要とする。
本稿では,動的モデルを用いてQDアルゴリズムのサンプリング効率を向上させるためのフレームワークであるDQD(Dynamics-Aware Quality-Diversity)を提案する。
また,DA-QDが新たなスキルレパートリーの継続的な獲得にどのように役立つかを示す。
そこで我々は,QDを用いてスキル発見を行う際の経験から,深層力学モデルを漸進的に訓練する。
そして、想像力のあるスキルレパートリーでQD探究を行うことができます。
我々は3つのロボット実験に対するアプローチを評価する。
まず、da-qdは既存のスキル発見のqdアプローチの20倍のサンプル効率を示す実験を行った。
第2に、ゼロショット学習を行うための、全く新しいスキルレパートリーを想像で示す。
最後に,da-qdが現実世界における長方形ナビゲーション課題の解決や損傷適応に有用かつ効果的であることを示す。
ビデオとソースコードは、https://sites.google.com/view/da-qd.comで入手できる。
関連論文リスト
- Affordance-Guided Reinforcement Learning via Visual Prompting [51.361977466993345]
Keypoint-based Affordance Guidance for Improvements (KAGI) は、視覚言語モデル(VLM)によって形成される報酬を自律的なRLに活用する手法である。
自然言語記述によって指定された実世界の操作タスクにおいて、KAGIは自律的なRLのサンプル効率を改善し、20Kのオンライン微調整ステップでタスク完了を成功させる。
論文 参考訳(メタデータ) (2024-07-14T21:41:29Z) - Choreographer: Learning and Adapting Skills in Imagination [60.09911483010824]
我々は、その世界モデルを利用して想像力のスキルを学び、適応するモデルベースのエージェントであるChoreographerを紹介する。
提案手法は探索とスキル学習のプロセスを切り離し,モデルの潜在状態空間におけるスキルの発見を可能にする。
Choreographerはオフラインデータからスキルを学ぶことができ、探索ポリシーと同時にデータを集めることができる。
論文 参考訳(メタデータ) (2022-11-23T23:31:14Z) - Residual Skill Policies: Learning an Adaptable Skill-based Action Space
for Reinforcement Learning for Robotics [18.546688182454236]
スキルベース強化学習(RL)は、ロボット学習の加速に先行知識を活用するための有望な戦略として登場した。
本研究では,状態条件付き生成モデルを用いて,スキル空間における探索を高速化する手法を提案する。
我々は4つの困難な操作タスクにまたがってアプローチを検証する。
論文 参考訳(メタデータ) (2022-11-04T02:42:17Z) - Learning to Walk Autonomously via Reset-Free Quality-Diversity [73.08073762433376]
品質多様性アルゴリズムは、多様かつ高いパフォーマンスのスキルからなる大規模で複雑な行動レパートリーを発見することができる。
既存のQDアルゴリズムは、手動による人間の監督と介入を必要とするエピソードリセットと同様に、多数の評価を必要とする。
本稿では,オープンエンド環境におけるロボットの自律学習に向けたステップとして,リセットフリー品質多様性最適化(RF-QD)を提案する。
論文 参考訳(メタデータ) (2022-04-07T14:07:51Z) - Hierarchical Skills for Efficient Exploration [70.62309286348057]
強化学習において、事前訓練された低レベルスキルは、探索を大幅に促進する可能性がある。
下流タスクの以前の知識は、スキルデザインにおける一般性(きめ細かい制御)と特異性(より高速な学習)の適切なバランスをとるために必要である。
教師なしの方法で様々な複雑さのスキルを習得する階層的スキル学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-20T22:29:32Z) - Example-Driven Model-Based Reinforcement Learning for Solving
Long-Horizon Visuomotor Tasks [85.56153200251713]
長軸ビズモータタスクの完了に適したプリミティブスキルを学習するためのモデルベースRL手法EMBRを紹介する。
フランカ・エミカのロボットアームでは、EMBRによってロボットは85%の成功率で3つの長い水平視運動タスクを完了できることがわかった。
論文 参考訳(メタデータ) (2021-09-21T16:48:07Z) - An Improved Algorithm of Robot Path Planning in Complex Environment
Based on Double DQN [4.161177874372099]
本稿では、A*とRRT(Rapidly-Exploring Random Tree)を参考に、Double DQN(DDQN)の改良を提案する。
シミュレーション実験により, DDQNの有効性が検証された。
論文 参考訳(メタデータ) (2021-07-23T14:03:04Z) - Model-Based Quality-Diversity Search for Efficient Robot Learning [28.049034339935933]
新規性に基づく品質多様性(QD)アルゴリズム。
ネットワークはレパートリーと並行して訓練され、新規検索プロセスにおける非プロミッシングアクションの実行を避けるために使用される。
実験により,このような前方モデルによるQDアルゴリズムの強化により,進化過程のサンプル効率と性能,スキル適応性が向上することが示された。
論文 参考訳(メタデータ) (2020-08-11T09:02:18Z) - Emergent Real-World Robotic Skills via Unsupervised Off-Policy
Reinforcement Learning [81.12201426668894]
報奨関数を使わずに多様なスキルを習得し,これらのスキルを下流のタスクに再利用する効率的な強化学習手法を開発した。
提案アルゴリズムは学習効率を大幅に向上させ,報酬のない実世界のトレーニングを実現する。
また,学習スキルは,目標指向ナビゲーションのためのモデル予測制御を用いて,追加のトレーニングを伴わずに構成可能であることも実証した。
論文 参考訳(メタデータ) (2020-04-27T17:38:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。