論文の概要: Model-Based Quality-Diversity Search for Efficient Robot Learning
- arxiv url: http://arxiv.org/abs/2008.04589v1
- Date: Tue, 11 Aug 2020 09:02:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-31 10:38:25.129150
- Title: Model-Based Quality-Diversity Search for Efficient Robot Learning
- Title(参考訳): 効率的なロボット学習のためのモデルベース品質多様性探索
- Authors: Leon Keller, Daniel Tanneberg, Svenja Stark, Jan Peters
- Abstract要約: 新規性に基づく品質多様性(QD)アルゴリズム。
ネットワークはレパートリーと並行して訓練され、新規検索プロセスにおける非プロミッシングアクションの実行を避けるために使用される。
実験により,このような前方モデルによるQDアルゴリズムの強化により,進化過程のサンプル効率と性能,スキル適応性が向上することが示された。
- 参考スコア(独自算出の注目度): 28.049034339935933
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite recent progress in robot learning, it still remains a challenge to
program a robot to deal with open-ended object manipulation tasks. One approach
that was recently used to autonomously generate a repertoire of diverse skills
is a novelty based Quality-Diversity~(QD) algorithm. However, as most
evolutionary algorithms, QD suffers from sample-inefficiency and, thus, it is
challenging to apply it in real-world scenarios. This paper tackles this
problem by integrating a neural network that predicts the behavior of the
perturbed parameters into a novelty based QD algorithm. In the proposed
Model-based Quality-Diversity search (M-QD), the network is trained
concurrently to the repertoire and is used to avoid executing unpromising
actions in the novelty search process. Furthermore, it is used to adapt the
skills of the final repertoire in order to generalize the skills to different
scenarios. Our experiments show that enhancing a QD algorithm with such a
forward model improves the sample-efficiency and performance of the
evolutionary process and the skill adaptation.
- Abstract(参考訳): 最近のロボット学習の進歩にもかかわらず、ロボットがオープンなオブジェクト操作タスクを扱うようプログラムすることは依然として課題である。
最近、多様なスキルのレパートリーを自律的に生成するために使われたアプローチの1つは、新規性に基づく品質多様性~(QD)アルゴリズムである。
しかし、ほとんどの進化的アルゴリズムと同様に、QDはサンプル非効率に悩まされており、現実のシナリオに適用することは困難である。
本稿では,摂動パラメータの挙動を予測するニューラルネットワークを,新奇なqdアルゴリズムに統合することで,この問題に取り組む。
提案するモデルベース品質ダイバーシティサーチ(M-QD)において,ネットワークはレパートリーと並行して訓練され,新規な検索プロセスにおける不正な動作の回避に使用される。
さらに、そのスキルを異なるシナリオに一般化するために、最終レパートリーのスキルを適合させるためにも用いられる。
本実験では,このようなフォワードモデルによるqdアルゴリズムの強化により,進化過程のサンプル効率と性能,スキル適応性が向上することを示す。
関連論文リスト
- Switchable Decision: Dynamic Neural Generation Networks [98.61113699324429]
本稿では,各データインスタンスのリソースを動的に割り当てることで,推論を高速化するスイッチブルな決定を提案する。
提案手法は, 同一の精度を維持しながら, 推論時のコスト低減に有効である。
論文 参考訳(メタデータ) (2024-05-07T17:44:54Z) - Active Exploration in Bayesian Model-based Reinforcement Learning for Robot Manipulation [8.940998315746684]
ロボットアームのエンドタスクに対するモデルベース強化学習(RL)アプローチを提案する。
我々はベイズニューラルネットワークモデルを用いて、探索中に動的モデルに符号化された信念と情報の両方を確率論的に表現する。
実験により,ベイズモデルに基づくRL手法の利点が示された。
論文 参考訳(メタデータ) (2024-04-02T11:44:37Z) - SERL: A Software Suite for Sample-Efficient Robotic Reinforcement
Learning [85.21378553454672]
筆者らは,報酬の計算と環境のリセットを行う手法とともに,効率的なオフ・ポリティクス・ディープ・RL法を含むライブラリを開発した。
我々は,PCBボードアセンブリ,ケーブルルーティング,オブジェクトの移動に関するポリシを,非常に効率的な学習を実現することができることを発見した。
これらの政策は完全な成功率またはほぼ完全な成功率、摂動下でさえ極端な堅牢性を実現し、突発的な堅牢性回復と修正行動を示す。
論文 参考訳(メタデータ) (2024-01-29T10:01:10Z) - On Robust Numerical Solver for ODE via Self-Attention Mechanism [82.95493796476767]
我々は,内在性雑音障害を緩和し,AIによって強化された数値解法を,データサイズを小さくする訓練について検討する。
まず,教師付き学習における雑音を制御するための自己認識機構の能力を解析し,さらに微分方程式の数値解に付加的な自己認識機構を導入し,簡便かつ有効な数値解法であるAttrを提案する。
論文 参考訳(メタデータ) (2023-02-05T01:39:21Z) - Discovering Unsupervised Behaviours from Full-State Trajectories [1.827510863075184]
本稿では,自律的に行動特性を見出す品質多様性アルゴリズムとして,自律型ロボットの能力を実現する手法を提案する。
本手法は,ロボットが実状態の軌道から自律的にその能力を見いださなければならないシミュレーションロボット環境において評価する。
より具体的には、分析されたアプローチは、ロボットを多様な位置に移動させるポリシーを自律的に見つけるだけでなく、脚を多様な方法で活用し、ハーフロールも行う。
論文 参考訳(メタデータ) (2022-11-22T16:57:52Z) - Learning to Walk Autonomously via Reset-Free Quality-Diversity [73.08073762433376]
品質多様性アルゴリズムは、多様かつ高いパフォーマンスのスキルからなる大規模で複雑な行動レパートリーを発見することができる。
既存のQDアルゴリズムは、手動による人間の監督と介入を必要とするエピソードリセットと同様に、多数の評価を必要とする。
本稿では,オープンエンド環境におけるロボットの自律学習に向けたステップとして,リセットフリー品質多様性最適化(RF-QD)を提案する。
論文 参考訳(メタデータ) (2022-04-07T14:07:51Z) - Dynamics-Aware Quality-Diversity for Efficient Learning of Skill
Repertoires [4.943054375935878]
品質多様性(QD)アルゴリズムは、ロボットが多種多様なハイパフォーマンススキルの大規模なレパートリーを発見できるようにする強力な探索アルゴリズムである。
本稿では,QDアルゴリズムのサンプル効率を向上させるためのフレームワークであるD-QD(Dynamics-Aware Quality-Diversity)を提案する。
論文 参考訳(メタデータ) (2021-09-16T08:35:35Z) - Few-shot Quality-Diversity Optimization [50.337225556491774]
品質多様性(QD)の最適化は、強化学習における知覚的最小値とスパース報酬を扱う上で効果的なツールであることが示されている。
本稿では,タスク分布の例から,パラメータ空間の最適化によって得られる経路の情報を利用して,未知の環境でQD手法を初期化する場合,数発の適応が可能であることを示す。
ロボット操作とナビゲーションベンチマークを用いて、疎密な報酬設定と密集した報酬設定の両方で実施された実験は、これらの環境でのQD最適化に必要な世代数を著しく削減することを示している。
論文 参考訳(メタデータ) (2021-09-14T17:12:20Z) - Skill Preferences: Learning to Extract and Execute Robotic Skills from
Human Feedback [82.96694147237113]
Skill Preferencesは、人間の好みよりもモデルを学習し、オフラインデータから人間に沿ったスキルを抽出するアルゴリズムである。
SkiPは複雑なマルチステップ操作タスクをシミュレートしたキッチンロボットで実現できることを示す。
論文 参考訳(メタデータ) (2021-08-11T18:04:08Z) - Unsupervised Behaviour Discovery with Quality-Diversity Optimisation [1.0152838128195467]
品質多様性アルゴリズム(Quality-Diversity algorithm)は、与えられた問題に対する多様な高性能なソリューションの集合を見つけるために設計された進化的アルゴリズムのクラスを指す。
ロボット工学において、そのようなアルゴリズムはロボットの動作のほとんどをカバーするコントローラーの集合を生成するのに使用できる。
本稿では,自律型ロボットの能力を実現するアルゴリズムについて紹介する。
論文 参考訳(メタデータ) (2021-06-10T10:40:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。