論文の概要: The Surprising Effectiveness of Representation Learning for Visual
Imitation
- arxiv url: http://arxiv.org/abs/2112.01511v1
- Date: Thu, 2 Dec 2021 18:58:09 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-03 15:27:37.891863
- Title: The Surprising Effectiveness of Representation Learning for Visual
Imitation
- Title(参考訳): 視覚模倣における表現学習の驚くべき効果
- Authors: Jyothish Pari, Nur Muhammad (Mahi) Shafiullah, Sridhar Pandian
Arunachalam, Lerrel Pinto
- Abstract要約: 本稿では,視覚模倣のための行動学習から表現学習を分離することを提案する。
まず、標準教師付きおよび自己教師付き学習手法を用いて、オフラインデータから視覚表現エンコーダを学習する。
この単純なデカップリングにより、オフラインのデモデータセットと実ロボットドア開口の両方における視覚模倣モデルの性能が、以前の視覚模倣よりも向上することが実験的に示されている。
- 参考スコア(独自算出の注目度): 13.446502051609036
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While visual imitation learning offers one of the most effective ways of
learning from visual demonstrations, generalizing from them requires either
hundreds of diverse demonstrations, task specific priors, or large,
hard-to-train parametric models. One reason such complexities arise is because
standard visual imitation frameworks try to solve two coupled problems at once:
learning a succinct but good representation from the diverse visual data, while
simultaneously learning to associate the demonstrated actions with such
representations. Such joint learning causes an interdependence between these
two problems, which often results in needing large amounts of demonstrations
for learning. To address this challenge, we instead propose to decouple
representation learning from behavior learning for visual imitation. First, we
learn a visual representation encoder from offline data using standard
supervised and self-supervised learning methods. Once the representations are
trained, we use non-parametric Locally Weighted Regression to predict the
actions. We experimentally show that this simple decoupling improves the
performance of visual imitation models on both offline demonstration datasets
and real-robot door opening compared to prior work in visual imitation. All of
our generated data, code, and robot videos are publicly available at
https://jyopari.github.io/VINN/.
- Abstract(参考訳): 視覚的模倣学習は、視覚的なデモンストレーションから学ぶ最も効果的な方法の1つであるが、それらから一般化するには、何百もの多様なデモンストレーション、タスク固有の事前、あるいは大規模で訓練が難しいパラメトリックモデルが必要である。
このような複雑さの1つの理由は、標準的な視覚模倣フレームワークが、簡潔だが多様な視覚データから良い表現を学ぶと同時に、実証された行動とそのような表現を同時に関連付けるという、2つの結合した問題を一度に解決しようとするためである。
このような共同学習は、これらの2つの問題の間に相互依存を引き起こし、しばしば学習のために大量の実演を必要とする。
この課題に対処するために、視覚模倣のための行動学習から表現学習を分離することを提案する。
まず,標準教師あり,自己教師あり学習法を用いてオフラインデータから視覚表現エンコーダを学習する。
表現がトレーニングされると、非パラメトリックな局所重み付き回帰を使ってアクションを予測します。
我々は,この簡単な分離により,視覚模倣における先行作業と比較して,オフラインデモデータセットと実ロボットドアオープンの両方における視覚模倣モデルの性能が向上することを示す。
生成されたデータ、コード、ロボットビデオはすべてhttps://jyopari.github.io/VINN/で公開されています。
関連論文リスト
- A Dual Approach to Imitation Learning from Observations with Offline Datasets [19.856363985916644]
報酬関数の設計が困難な環境では、エージェントを学習するためのタスク仕様の効果的な代替手段である。
専門家の行動を必要とせずに任意の準最適データを利用してポリシーを模倣するアルゴリズムであるDILOを導出する。
論文 参考訳(メタデータ) (2024-06-13T04:39:42Z) - What Makes Pre-Trained Visual Representations Successful for Robust
Manipulation? [57.92924256181857]
照明やシーンテクスチャの微妙な変化の下では,操作や制御作業のために設計された視覚表現が必ずしも一般化されないことがわかった。
創発的セグメンテーション能力は,ViTモデルにおける分布外一般化の強い予測因子であることがわかった。
論文 参考訳(メタデータ) (2023-11-03T18:09:08Z) - Accelerating exploration and representation learning with offline
pre-training [52.6912479800592]
1つのオフラインデータセットから2つの異なるモデルを別々に学習することで、探索と表現の学習を改善することができることを示す。
ノイズコントラスト推定と補助報酬モデルを用いて状態表現を学習することで、挑戦的なNetHackベンチマークのサンプル効率を大幅に向上できることを示す。
論文 参考訳(メタデータ) (2023-03-31T18:03:30Z) - Playful Interactions for Representation Learning [82.59215739257104]
本稿では,下流タスクの視覚的表現を学習するために,遊び心のあるインタラクションを自己指導的に利用することを提案する。
19の多様な環境で2時間の遊び心のあるデータを収集し、自己予測学習を用いて視覚的表現を抽出する。
我々の表現は、標準的な行動クローニングよりも一般化され、必要なデモの半数しか必要とせず、同様の性能を達成できる。
論文 参考訳(メタデータ) (2021-07-19T17:54:48Z) - Visual Adversarial Imitation Learning using Variational Models [60.69745540036375]
逆関数仕様は、深い強化学習を通しての学習行動にとって大きな障害であり続けている。
望ましい行動の視覚的なデモンストレーションは、エージェントを教えるためのより簡単で自然な方法を示すことが多い。
変動モデルに基づく対向的模倣学習アルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-07-16T00:15:18Z) - CoCon: Cooperative-Contrastive Learning [52.342936645996765]
自己教師付き視覚表現学習は効率的な映像分析の鍵である。
最近の画像表現の学習の成功は、コントラスト学習がこの課題に取り組むための有望なフレームワークであることを示唆している。
コントラスト学習の協調的バリエーションを導入し、ビュー間の相補的な情報を活用する。
論文 参考訳(メタデータ) (2021-04-30T05:46:02Z) - Visual Imitation Made Easy [102.36509665008732]
本稿では,ロボットへのデータ転送を容易にしながら,データ収集プロセスを単純化する,模倣のための代替インターフェースを提案する。
我々は、データ収集装置やロボットのエンドエフェクターとして、市販のリーチ・グラブラー補助具を使用する。
我々は,非包括的プッシュと包括的積み重ねという2つの課題について実験的に評価した。
論文 参考訳(メタデータ) (2020-08-11T17:58:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。