論文の概要: REvolveR: Continuous Evolutionary Models for Robot-to-robot Policy
Transfer
- arxiv url: http://arxiv.org/abs/2202.05244v1
- Date: Thu, 10 Feb 2022 18:50:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-11 15:18:15.219370
- Title: REvolveR: Continuous Evolutionary Models for Robot-to-robot Policy
Transfer
- Title(参考訳): RevolveR:ロボットとロボットのポリシー伝達のための継続的進化モデル
- Authors: Xingyu Liu, Deepak Pathak, Kris M. Kitani
- Abstract要約: 本研究では,運動学や形態学など,異なるパラメータを持つ2つの異なるロボット間でポリシーを伝達する問題を考察する。
模倣学習手法を含む動作や状態遷移の分布を一致させることで、新しいポリシーを訓練する既存のアプローチは、最適な動作や/または状態分布が異なるロボットでミスマッチしているために失敗する。
本稿では,物理シミュレータに実装されたロボット政策伝達に連続的進化モデルを用いることで,$RevolveR$という新しい手法を提案する。
- 参考スコア(独自算出の注目度): 57.045140028275036
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A popular paradigm in robotic learning is to train a policy from scratch for
every new robot. This is not only inefficient but also often impractical for
complex robots. In this work, we consider the problem of transferring a policy
across two different robots with significantly different parameters such as
kinematics and morphology. Existing approaches that train a new policy by
matching the action or state transition distribution, including imitation
learning methods, fail due to optimal action and/or state distribution being
mismatched in different robots. In this paper, we propose a novel method named
$REvolveR$ of using continuous evolutionary models for robotic policy transfer
implemented in a physics simulator. We interpolate between the source robot and
the target robot by finding a continuous evolutionary change of robot
parameters. An expert policy on the source robot is transferred through
training on a sequence of intermediate robots that gradually evolve into the
target robot. Experiments show that the proposed continuous evolutionary model
can effectively transfer the policy across robots and achieve superior sample
efficiency on new robots using a physics simulator. The proposed method is
especially advantageous in sparse reward settings where exploration can be
significantly reduced.
- Abstract(参考訳): ロボット学習における一般的なパラダイムは、新しいロボットのすべてに対して、スクラッチからポリシーをトレーニングすることだ。
これは非効率なだけでなく、複雑なロボットには実用的ではない。
本研究では,運動学や形態学などのパラメータが著しく異なる2つの異なるロボット間で方針を伝達する問題を考える。
模倣学習法を含む動作または状態遷移分布をマッチングして新しいポリシーを訓練する既存のアプローチは、異なるロボットでミスマッチしている最適なアクションおよび/または状態分布のために失敗する。
本稿では,物理シミュレータに実装したロボット政策伝達のための連続進化モデルを用いた$revolver$という新しい手法を提案する。
対象ロボットと対象ロボットを相互に補間し,ロボットパラメータの連続的な進化変化を求める。
ソースロボットに関する専門家ポリシーは、ターゲットロボットへと徐々に進化する一連の中間ロボットの訓練を通じて伝達される。
実験により,提案する連続進化モデルは,ロボット間で効率的に方針を伝達し,物理シミュレータを用いて新しいロボットのサンプル効率を向上できることが示されている。
提案手法は,探索を著しく削減できるスパース報酬設定において特に有利である。
関連論文リスト
- Meta-Evolve: Continuous Robot Evolution for One-to-many Policy Transfer [68.10957584496866]
本研究では, 連続ロボットの進化を利用して, 各目標ロボットに効率よくポリシーを伝達する手法を提案する。
ロボット進化ツリーは、ロボット進化経路の共有を可能にするため、我々のアプローチは1対1のポリシー伝達を大幅に上回る。
論文 参考訳(メタデータ) (2024-05-06T14:52:23Z) - RoboGen: Towards Unleashing Infinite Data for Automated Robot Learning via Generative Simulation [68.70755196744533]
RoboGenはジェネレーティブなロボットエージェントで、ジェネレーティブなシミュレーションを通じて、さまざまなロボットのスキルを自動的に学習する。
我々の研究は、大規模モデルに埋め込まれた広範囲で多目的な知識を抽出し、それらをロボット工学の分野に移す試みである。
論文 参考訳(メタデータ) (2023-11-02T17:59:21Z) - Human-Robot Skill Transfer with Enhanced Compliance via Dynamic Movement
Primitives [1.7901837062462316]
本研究では,動的運動プリミティブ(Dynamic Movement Primitives)フレームワークにおいて,人間の実演から動的特徴を抽出し,パラメータを自動チューニングする体系的手法を提案する。
本手法は,LfDとRLの両方に追従するロボット軌道を再現するために,人間の動的特徴を抽出するための実際のロボット装置に実装した。
論文 参考訳(メタデータ) (2023-04-12T08:48:28Z) - Learning Bipedal Walking for Humanoids with Current Feedback [5.429166905724048]
アクチュエータレベルでの不正確なトルクトラッキングから生じるヒューマノイドロボットのシム2リアルギャップ問題を克服するためのアプローチを提案する。
提案手法は、実際のHRP-5Pヒューマノイドロボットに展開して二足歩行を実現するシミュレーションにおいて、一貫したエンドツーエンドのポリシーをトレーニングする。
論文 参考訳(メタデータ) (2023-03-07T08:16:46Z) - HERD: Continuous Human-to-Robot Evolution for Learning from Human
Demonstration [57.045140028275036]
本研究では,マイクロ進化的強化学習を用いて,操作スキルを人間からロボットに伝達可能であることを示す。
本稿では,ロボットの進化経路とポリシーを協調的に最適化する多次元進化経路探索アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-08T15:56:13Z) - GenLoco: Generalized Locomotion Controllers for Quadrupedal Robots [87.32145104894754]
四足歩行ロボットのための汎用ロコモーション(GenLoco)コントローラを訓練するためのフレームワークを提案する。
本フレームワークは,多種多様な四足歩行ロボットに展開可能な汎用ロコモーションコントローラを合成する。
我々のモデルは、より一般的な制御戦略を取得し、新しいシミュレーションロボットや実世界のロボットに直接移行できることを示す。
論文 参考訳(メタデータ) (2022-09-12T15:14:32Z) - Learning Bipedal Robot Locomotion from Human Movement [0.791553652441325]
本研究では、実世界の二足歩行ロボットに、モーションキャプチャーデータから直接の動きを教えるための強化学習に基づく手法を提案する。
本手法は,シミュレーション環境下でのトレーニングから,物理ロボット上での実行へシームレスに移行する。
本研究では,ダイナミックウォークサイクルから複雑なバランスや手振りに至るまでの動作を内製したヒューマノイドロボットについて実演する。
論文 参考訳(メタデータ) (2021-05-26T00:49:37Z) - Bayesian Meta-Learning for Few-Shot Policy Adaptation Across Robotic
Platforms [60.59764170868101]
強化学習手法は、重要な性能を達成できるが、同じロボットプラットフォームで収集される大量のトレーニングデータを必要とする。
私たちはそれを、さまざまなロボットプラットフォームで共有される共通の構造を捉えるモデルを見つけることを目標とする、数ショットのメタラーニング問題として定式化します。
我々は,400個のロボットを用いて,実ロボットピッキング作業とシミュレーションリーチの枠組みを実験的に評価した。
論文 参考訳(メタデータ) (2021-03-05T14:16:20Z) - Learning Locomotion Skills in Evolvable Robots [10.167123492952694]
本稿では,任意の形状のモジュール型ロボットが目標に向かって歩いたり,移動した場合にこの目標に従うことを学習できるようにするための,コントローラアーキテクチャと汎用学習手法を提案する。
我々のアプローチは、現実世界の3つのシナリオにおいて、クモ、ヤモリ、そしてその子孫の3つのロボットに対して検証されている。
論文 参考訳(メタデータ) (2020-10-19T14:01:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。