論文の概要: Keyframe-Focused Visual Imitation Learning
- arxiv url: http://arxiv.org/abs/2106.06452v1
- Date: Fri, 11 Jun 2021 15:19:36 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-14 14:02:45.717926
- Title: Keyframe-Focused Visual Imitation Learning
- Title(参考訳): キーフレームに着目した視覚模倣学習
- Authors: Chuan Wen, Jierui Lin, Jianing Qian, Yang Gao, Dinesh Jayaraman
- Abstract要約: 模擬学習は、事前記録された専門家のデモンストレーションを模倣してポリシーを制御する。
因果グラフ学習から深部情報ボトルネックまで,近年のソリューションは有望な結果を示している。
専門家の行動変化点に対応する実験を重み付けすることで,これらの従来の手法より優れるソリューションを提案する。
- 参考スコア(独自算出の注目度): 20.783656269389382
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Imitation learning trains control policies by mimicking pre-recorded expert
demonstrations. In partially observable settings, imitation policies must rely
on observation histories, but many seemingly paradoxical results show better
performance for policies that only access the most recent observation. Recent
solutions ranging from causal graph learning to deep information bottlenecks
have shown promising results, but failed to scale to realistic settings such as
visual imitation. We propose a solution that outperforms these prior approaches
by upweighting demonstration keyframes corresponding to expert action
changepoints. This simple approach easily scales to complex visual imitation
settings. Our experimental results demonstrate consistent performance
improvements over all baselines on image-based Gym MuJoCo continuous control
tasks. Finally, on the CARLA photorealistic vision-based urban driving
simulator, we resolve a long-standing issue in behavioral cloning for driving
by demonstrating effective imitation from observation histories. Supplementary
materials and code at: \url{https://tinyurl.com/imitation-keyframes}.
- Abstract(参考訳): 模擬学習は、事前記録された専門家のデモンストレーションを模倣してポリシーを制御する。
部分的に観察可能な環境では、模倣ポリシーは観察履歴に依存する必要があるが、一見パラドックス的な結果の多くは、最新の観察にのみアクセスするポリシーのパフォーマンスを示している。
因果グラフ学習から深い情報のボトルネックまで,近年のソリューションは有望な結果を示しているが,視覚的模倣のような現実的な設定には達しなかった。
専門家のアクション・チェンジポイントに対応するキーフレームの重み付けを行うことにより,これらのアプローチに勝るソリューションを提案する。
この単純なアプローチは、複雑な視覚模倣設定に簡単にスケールできる。
画像ベースGym MuJoCo連続制御タスクにおいて,すべてのベースラインに対して一貫した性能向上を示す。
最後に,carla photorealistic vision-based urban driving simulatorにおいて,運転行動クローンの長期的課題を観察履歴から効果的に模倣して解決する。
補足資料とコード at: \url{https://tinyurl.com/imitation-keyframes}。
関連論文リスト
- DynaMo: In-Domain Dynamics Pretraining for Visuo-Motor Control [18.737628473949048]
模倣学習は、複雑なビジュモータポリシーを訓練するための強力なツールであることが証明されている。
現在の手法では、高次元の視覚的観察を扱うために数百から数千の専門家によるデモンストレーションが必要となることが多い。
視覚表現を学習するための新しいドメイン内自己教師型DynaMoを提案する。
論文 参考訳(メタデータ) (2024-09-18T17:59:43Z) - Premier-TACO is a Few-Shot Policy Learner: Pretraining Multitask Representation via Temporal Action-Driven Contrastive Loss [61.355272240758]
Premier-TACOはマルチタスクの特徴表現学習手法である。
シーケンシャルな意思決定タスクにおいて、数ショットのポリシー学習効率を改善するように設計されている。
論文 参考訳(メタデータ) (2024-02-09T05:04:40Z) - What Makes Pre-Trained Visual Representations Successful for Robust
Manipulation? [57.92924256181857]
照明やシーンテクスチャの微妙な変化の下では,操作や制御作業のために設計された視覚表現が必ずしも一般化されないことがわかった。
創発的セグメンテーション能力は,ViTモデルにおける分布外一般化の強い予測因子であることがわかった。
論文 参考訳(メタデータ) (2023-11-03T18:09:08Z) - VIBR: Learning View-Invariant Value Functions for Robust Visual Control [3.2307366446033945]
VIBR (View-Invariant Bellman Residuals) は、マルチビュートレーニングと不変予測を組み合わせて、RLベースのビジュモータ制御における分配ギャップを削減する手法である。
視覚摂動の高い複雑なビジュオモータ制御環境において,VIBRは既存の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-14T14:37:34Z) - Predictive Experience Replay for Continual Visual Control and
Forecasting [62.06183102362871]
視覚力学モデリングのための新しい連続学習手法を提案し,その視覚制御と予測における有効性について検討する。
まず,タスク固有のダイナミクスをガウスの混合で学習する混合世界モデルを提案し,その上で,破滅的な忘れを克服するための新たなトレーニング戦略を提案する。
我々のモデルは,DeepMind Control と Meta-World のベンチマークにおいて,既存の連続的学習アルゴリズムと視覚的RLアルゴリズムの単純な組み合わせよりも優れている。
論文 参考訳(メタデータ) (2023-03-12T05:08:03Z) - Leveraging Demonstrations with Latent Space Priors [90.56502305574665]
本稿では,スキル学習とシーケンスモデリングを組み合わせることで,実演データセットを活用することを提案する。
本研究では、国家のみのモーションキャプチャーの実証から、そのような先行情報をどうやって取得するかを示し、政策学習に組み込むためのいくつかの方法を探る。
実験結果から, 学習速度と最終性能において, 遅延空間が顕著に向上することが確認された。
論文 参考訳(メタデータ) (2022-10-26T13:08:46Z) - Practical Imitation Learning in the Real World via Task Consistency Loss [18.827979446629296]
本稿では,機能レベルと行動予測レベルの両方において,シミュレートと実際のアライメントを促進する自己監督的損失を提案する。
我々は、シミュレートとリアルで遠隔操作されたデモンストレーションを16.2時間しか使っていない10のシーンで80%の成功を達成した。
論文 参考訳(メタデータ) (2022-02-03T21:43:06Z) - The Surprising Effectiveness of Representation Learning for Visual
Imitation [12.60653315718265]
本稿では,視覚模倣のための行動学習から表現学習を分離することを提案する。
まず、標準教師付きおよび自己教師付き学習手法を用いて、オフラインデータから視覚表現エンコーダを学習する。
この単純なデカップリングにより、オフラインのデモデータセットと実ロボットドア開口の両方における視覚模倣モデルの性能が、以前の視覚模倣よりも向上することが実験的に示されている。
論文 参考訳(メタデータ) (2021-12-02T18:58:09Z) - Visual Adversarial Imitation Learning using Variational Models [60.69745540036375]
逆関数仕様は、深い強化学習を通しての学習行動にとって大きな障害であり続けている。
望ましい行動の視覚的なデモンストレーションは、エージェントを教えるためのより簡単で自然な方法を示すことが多い。
変動モデルに基づく対向的模倣学習アルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-07-16T00:15:18Z) - Crop-Transform-Paste: Self-Supervised Learning for Visual Tracking [137.26381337333552]
本研究では,十分なトレーニングデータを合成できるCrop-Transform-Paste演算を開発した。
オブジェクトの状態はすべての合成データで知られているので、既存のディープトラッカーは人間のアノテーションなしで日常的に訓練することができる。
論文 参考訳(メタデータ) (2021-06-21T07:40:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。