論文の概要: Learning Agile Skills via Adversarial Imitation of Rough Partial
Demonstrations
- arxiv url: http://arxiv.org/abs/2206.11693v1
- Date: Thu, 23 Jun 2022 13:34:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-24 13:11:06.801583
- Title: Learning Agile Skills via Adversarial Imitation of Rough Partial
Demonstrations
- Title(参考訳): 悪意のある部分的なデモの模倣によるアジャイルスキルの学習
- Authors: Chenhao Li, Marin Vlastelica, Sebastian Blaes, Jonas Frey, Felix
Grimminger, Georg Martius
- Abstract要約: アジャイルスキルの習得は,ロボティクスにおける大きな課題のひとつだ。
本稿では,部分的かつ物理的に互換性のない実演から報酬関数を推定するための生成的逆数法を提案する。
我々は、Wasserstein GANの定式化と、粗い情報と部分的な情報を入力とするデモからの遷移によって、堅牢で実証行動の模倣が可能なポリシーを抽出できることを示した。
- 参考スコア(独自算出の注目度): 19.257876507104868
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning agile skills is one of the main challenges in robotics. To this end,
reinforcement learning approaches have achieved impressive results. These
methods require explicit task information in terms of a reward function or an
expert that can be queried in simulation to provide a target control output,
which limits their applicability. In this work, we propose a generative
adversarial method for inferring reward functions from partial and potentially
physically incompatible demonstrations for successful skill acquirement where
reference or expert demonstrations are not easily accessible. Moreover, we show
that by using a Wasserstein GAN formulation and transitions from demonstrations
with rough and partial information as input, we are able to extract policies
that are robust and capable of imitating demonstrated behaviors. Finally, the
obtained skills such as a backflip are tested on an agile quadruped robot
called Solo 8 and present faithful replication of hand-held human
demonstrations.
- Abstract(参考訳): アジャイルスキルの習得は,ロボティクスにおける大きな課題のひとつだ。
この目的のために、強化学習アプローチは印象的な結果を得た。
これらの方法は、対象制御出力を提供するためにシミュレーションで照会できる報酬関数や専門家の観点で明示的なタスク情報を必要とするため、適用性は制限される。
本研究では,参照や専門家によるデモンストレーションが容易にアクセスできない技術習得のために,部分的かつ物理的に互換性のない実演から報酬関数を推定する生成的逆算法を提案する。
さらに,粗大かつ部分的な情報を入力として,wasserstein ganの定式化とデモからの遷移を用いて,実演行動の模倣が可能なロバストなポリシを抽出することができることを示した。
最後に、得られたバックフリップなどのスキルをsolo 8と呼ばれるアジャイルの四足ロボットでテストし、手持ちの人間のデモンストレーションを忠実に再現する。
関連論文リスト
- Adaptive Language-Guided Abstraction from Contrastive Explanations [53.48583372522492]
報酬を計算するためにこれらの特徴をどのように使うべきかを決定する前に、環境のどの特徴が関係しているかを決定する必要がある。
連立特徴と報奨学習のためのエンドツーエンドの手法は、しばしば、刺激的な状態特徴に敏感な脆い報酬関数をもたらす。
本稿では,言語モデルを用いて人間に意味のある特徴を反復的に識別するALGAEという手法について述べる。
論文 参考訳(メタデータ) (2024-09-12T16:51:58Z) - AdaDemo: Data-Efficient Demonstration Expansion for Generalist Robotic Agent [75.91274222142079]
本研究では,汎用ロボットエージェントの学習を容易にするために,データ効率のよい方法で実演をスケールアップすることを目的とする。
AdaDemoは、デモデータセットを積極的に継続的に拡張することで、マルチタスクポリシー学習を改善するように設計されたフレームワークである。
論文 参考訳(メタデータ) (2024-04-11T01:59:29Z) - SWBT: Similarity Weighted Behavior Transformer with the Imperfect
Demonstration for Robotic Manipulation [32.78083518963342]
SWBT(Simisity Weighted Behavior Transformer)という新しいフレームワークを提案する。
SWBTは、環境との相互作用なしに、専門家と不完全なデモンストレーションの両方から効果的に学習する。
我々は、ロボット操作タスクのオフライン模倣学習環境に不完全なデモンストレーションを統合する試みを初めて行った。
論文 参考訳(メタデータ) (2024-01-17T04:15:56Z) - RoboCLIP: One Demonstration is Enough to Learn Robot Policies [72.24495908759967]
RoboCLIPは、オンラインの模倣学習手法であり、ビデオデモの形式で1つのデモンストレーションまたはタスクのテキスト記述を使用して報酬を生成する。
RoboCLIPは、報酬生成のタスクを解決した人間のビデオや、同じデモやデプロイメントドメインを持つ必要を回避するなど、ドメイン外のデモも利用することができる。
論文 参考訳(メタデータ) (2023-10-11T21:10:21Z) - Skill Disentanglement for Imitation Learning from Suboptimal
Demonstrations [60.241144377865716]
我々は、小さなクリーンな実演セットと大きなノイズセットの両方で、準最適実演の模倣を考える。
本稿では,様々な品質のアクションプリミティブを異なるスキルに符号化し,サブデモレーションレベルの評価と模倣を行う手法を提案する。
論文 参考訳(メタデータ) (2023-06-13T17:24:37Z) - Learning Complicated Manipulation Skills via Deterministic Policy with
Limited Demonstrations [9.640594614636049]
深層強化学習はマニピュレータのポリシーを効率的に開発することができる。
実際に十分な高品質なデモを収集するのには時間がかかる。
人間のデモはロボットには適さないかもしれない。
論文 参考訳(メタデータ) (2023-03-29T05:56:44Z) - Versatile Skill Control via Self-supervised Adversarial Imitation of
Unlabeled Mixed Motions [19.626042478612572]
ラベルのないデータセットから制御可能なスキルセットを用いて多目的ポリシーを得るための協調的敵意的手法を提案する。
生成的模倣学習の枠組みにおいて教師なしのスキル発見を活用することで、新規で有用なスキルが実現し、タスク遂行が成功することを示す。
最後に、得られた多目的ポリシーは、Solo 8と呼ばれるアジャイル四足歩行ロボットでテストされ、デモで符号化された多様なスキルを忠実に再現する。
論文 参考訳(メタデータ) (2022-09-16T12:49:04Z) - Learning Feasibility to Imitate Demonstrators with Different Dynamics [23.239058855103067]
実演から学ぶことのゴールは、実演の動作を模倣してエージェント(模倣者)のポリシーを学ぶことである。
我々は、実演が模倣者によって実現可能である可能性を捉えた実現可能性指標を学習する。
シミュレーションされた4つの環境と実際のロボットを用いた実験により,本手法で学んだ方針が,従来よりも期待されたリターンを達成できることが判明した。
論文 参考訳(メタデータ) (2021-10-28T14:15:47Z) - Bottom-Up Skill Discovery from Unsegmented Demonstrations for
Long-Horizon Robot Manipulation [55.31301153979621]
我々は,実世界の長距離ロボット操作作業に,スキル発見による取り組みを行う。
未解決のデモンストレーションから再利用可能なスキルのライブラリを学ぶためのボトムアップアプローチを提案する。
提案手法は,多段階操作タスクにおける最先端の模倣学習手法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2021-09-28T16:18:54Z) - Demonstration-Guided Reinforcement Learning with Learned Skills [23.376115889936628]
実証誘導強化学習(RL)は複雑な行動を学ぶ上で有望なアプローチである。
本研究では、この共有サブタスク構造を利用して、実演誘導RLの効率を向上させることを目的とする。
本稿では,提案する実演を効率的に活用する実演誘導RLアルゴリズムであるSkiLD(Skill-based Learning with Demonstrations)を提案する。
論文 参考訳(メタデータ) (2021-07-21T17:59:34Z) - Visual Imitation Made Easy [102.36509665008732]
本稿では,ロボットへのデータ転送を容易にしながら,データ収集プロセスを単純化する,模倣のための代替インターフェースを提案する。
我々は、データ収集装置やロボットのエンドエフェクターとして、市販のリーチ・グラブラー補助具を使用する。
我々は,非包括的プッシュと包括的積み重ねという2つの課題について実験的に評価した。
論文 参考訳(メタデータ) (2020-08-11T17:58:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。