論文の概要: State-Only Imitation Learning for Dexterous Manipulation
- arxiv url: http://arxiv.org/abs/2004.04650v2
- Date: Wed, 29 Dec 2021 18:31:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-15 23:32:02.332877
- Title: State-Only Imitation Learning for Dexterous Manipulation
- Title(参考訳): Dexterous Manipulationのための状態のみの模倣学習
- Authors: Ilija Radosavovic, Xiaolong Wang, Lerrel Pinto, Jitendra Malik
- Abstract要約: 本稿では,国家のみの模倣学習について考察する。
我々は、逆ダイナミクスモデルをトレーニングし、状態のみのデモンストレーションのアクションを予測するためにそれを使用します。
我々の手法は状態-作用アプローチと同等に動作し、RL単独よりもかなり優れています。
- 参考スコア(独自算出の注目度): 63.03621861920732
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern model-free reinforcement learning methods have recently demonstrated
impressive results on a number of problems. However, complex domains like
dexterous manipulation remain a challenge due to the high sample complexity. To
address this, current approaches employ expert demonstrations in the form of
state-action pairs, which are difficult to obtain for real-world settings such
as learning from videos. In this paper, we move toward a more realistic setting
and explore state-only imitation learning. To tackle this setting, we train an
inverse dynamics model and use it to predict actions for state-only
demonstrations. The inverse dynamics model and the policy are trained jointly.
Our method performs on par with state-action approaches and considerably
outperforms RL alone. By not relying on expert actions, we are able to learn
from demonstrations with different dynamics, morphologies, and objects. Videos
available at https://people.eecs.berkeley.edu/~ilija/soil .
- Abstract(参考訳): 現代のモデルフリー強化学習法は,近年,多くの問題に対して顕著な成果を上げている。
しかし、厳密な操作のような複雑なドメインは、高いサンプルの複雑さのために依然として課題である。
この問題に対処するために、現在のアプローチでは、ビデオから学ぶような現実世界の設定では入手が難しいステートアクションペアという形で、専門家によるデモンストレーションを採用している。
本稿では,より現実的な環境へ移行し,状態のみの模倣学習を探求する。
この設定に取り組むために、逆ダイナミクスモデルをトレーニングし、状態のみのデモンストレーションのアクションを予測するために使用します。
逆ダイナミクスモデルとポリシーは共同で訓練される。
本手法は状態動作アプローチと同等に動作し,rl をかなり上回る性能を持つ。
専門家の行動に頼らずに、異なるダイナミクス、形態学、オブジェクトのデモから学ぶことができる。
ビデオはhttps://people.eecs.berkeley.edu/~ilija/soil.comで公開されている。
関連論文リスト
- Any-point Trajectory Modeling for Policy Learning [64.23861308947852]
我々は、ビデオフレーム内の任意の点の将来の軌跡を予測するために、ATM(Any-point Trajectory Modeling)を導入する。
ATMは、強力なビデオ事前トレーニングベースラインを平均80%上回っている。
本研究では,人間の動画やビデオからの操作スキルを,異なるロボット形態から効果的に伝達する学習方法を示す。
論文 参考訳(メタデータ) (2023-12-28T23:34:43Z) - Skill Disentanglement for Imitation Learning from Suboptimal
Demonstrations [60.241144377865716]
我々は、小さなクリーンな実演セットと大きなノイズセットの両方で、準最適実演の模倣を考える。
本稿では,様々な品質のアクションプリミティブを異なるスキルに符号化し,サブデモレーションレベルの評価と模倣を行う手法を提案する。
論文 参考訳(メタデータ) (2023-06-13T17:24:37Z) - Inverse Dynamics Pretraining Learns Good Representations for Multitask
Imitation [66.86987509942607]
このようなパラダイムを模倣学習でどのように行うべきかを評価する。
本稿では,事前学習コーパスがマルチタスクのデモンストレーションから成り立つ環境について考察する。
逆動力学モデリングはこの設定に適していると主張する。
論文 参考訳(メタデータ) (2023-05-26T14:40:46Z) - Out-of-Dynamics Imitation Learning from Multimodal Demonstrations [68.46458026983409]
本研究では,実演者と模倣者が同じ状態空間を持つという仮定を緩和する,動的外模擬学習(OOD-IL)について検討する。
OOD-ILは、様々なデモ参加者のデモを利用するための模倣学習を可能にするが、新しい挑戦を導入する。
我々は,この新たな課題に取り組むために,より優れた伝達可能性測定法を開発した。
論文 参考訳(メタデータ) (2022-11-13T07:45:06Z) - Robust Imitation of a Few Demonstrations with a Backwards Model [3.8530020696501794]
専門家によるデモンストレーションの行動クローニングは、強化学習よりもよりサンプル効率のよい学習ポリシーを高速化することができる。
実験の周囲のアトラクションの領域を拡大することで、エージェントがオフコースを走行した場合に、実証軌道に戻す方法を学ぶことができるようにすることで、この問題に対処する。
最適あるいは準最適の実証では、学習されたポリシーは、偏差に対して最適かつ堅牢であり、より広いアトラクション領域を持つ。
論文 参考訳(メタデータ) (2022-10-17T18:02:19Z) - Extraneousness-Aware Imitation Learning [25.60384350984274]
Extraneousness-Aware Learning (EIL)は、外部サブシーケンスを用いた第三者によるデモンストレーションから、ビズモタポリシーを学ぶ。
EILは、自己監督された方法で行動条件付き観察埋め込みを学習し、視覚的なデモンストレーション全体にわたってタスク関連観測を検索する。
実験の結果、EILは強いベースラインを上回り、完璧なデモで訓練した人たちと同等のポリシーを達成していることがわかった。
論文 参考訳(メタデータ) (2022-10-04T04:42:26Z) - Visual Adversarial Imitation Learning using Variational Models [60.69745540036375]
逆関数仕様は、深い強化学習を通しての学習行動にとって大きな障害であり続けている。
望ましい行動の視覚的なデモンストレーションは、エージェントを教えるためのより簡単で自然な方法を示すことが多い。
変動モデルに基づく対向的模倣学習アルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-07-16T00:15:18Z) - Learning from Imperfect Demonstrations from Agents with Varying Dynamics [29.94164262533282]
我々は,実演が模倣学習にどの程度有用かを測定するために,実現可能性スコアと最適度スコアからなる指標を開発した。
シミュレーションと実ロボットによる4つの環境実験により,学習方針の改善が期待された。
論文 参考訳(メタデータ) (2021-03-10T07:39:38Z) - Shaping Rewards for Reinforcement Learning with Imperfect Demonstrations
using Generative Models [18.195406135434503]
本稿では,報酬関数を状態と行動に依存したポテンシャルに形成することにより,強化と模倣学習を組み合わせた手法を提案する。
このことは,まず探索する価値のある状態空間と行動空間の高価値領域を指定することで,政策学習を加速させることを示す。
特に、これらのポテンシャルを表現するために、正規化フローとジェネレーティブ・アドバイサル・ネットワークの両方について検討する。
論文 参考訳(メタデータ) (2020-11-02T20:32:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。