論文の概要: Visual Adversarial Imitation Learning using Variational Models
- arxiv url: http://arxiv.org/abs/2107.08829v1
- Date: Fri, 16 Jul 2021 00:15:18 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-21 14:15:44.277372
- Title: Visual Adversarial Imitation Learning using Variational Models
- Title(参考訳): 変分モデルを用いた視覚障害者模倣学習
- Authors: Rafael Rafailov, Tianhe Yu, Aravind Rajeswaran, Chelsea Finn
- Abstract要約: 逆関数仕様は、深い強化学習を通しての学習行動にとって大きな障害であり続けている。
望ましい行動の視覚的なデモンストレーションは、エージェントを教えるためのより簡単で自然な方法を示すことが多い。
変動モデルに基づく対向的模倣学習アルゴリズムを開発した。
- 参考スコア(独自算出の注目度): 60.69745540036375
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reward function specification, which requires considerable human effort and
iteration, remains a major impediment for learning behaviors through deep
reinforcement learning. In contrast, providing visual demonstrations of desired
behaviors often presents an easier and more natural way to teach agents. We
consider a setting where an agent is provided a fixed dataset of visual
demonstrations illustrating how to perform a task, and must learn to solve the
task using the provided demonstrations and unsupervised environment
interactions. This setting presents a number of challenges including
representation learning for visual observations, sample complexity due to high
dimensional spaces, and learning instability due to the lack of a fixed reward
or learning signal. Towards addressing these challenges, we develop a
variational model-based adversarial imitation learning (V-MAIL) algorithm. The
model-based approach provides a strong signal for representation learning,
enables sample efficiency, and improves the stability of adversarial training
by enabling on-policy learning. Through experiments involving several
vision-based locomotion and manipulation tasks, we find that V-MAIL learns
successful visuomotor policies in a sample-efficient manner, has better
stability compared to prior work, and also achieves higher asymptotic
performance. We further find that by transferring the learned models, V-MAIL
can learn new tasks from visual demonstrations without any additional
environment interactions. All results including videos can be found online at
\url{https://sites.google.com/view/variational-mail}.
- Abstract(参考訳): 人的努力と反復を必要とするリワード関数の仕様は、深い強化学習を通じて行動を学ぶ上で大きな障害となる。
対照的に、望ましい行動の視覚的なデモンストレーションを提供することは、エージェントを教えるためのより簡単で自然な方法を示すことが多い。
エージェントがタスクの実行方法を示すビジュアルデモンストレーションの固定データセットを提供し、提供されたデモと教師なしの環境インタラクションを使ってタスクの解決を学ばなければならない設定を考える。
この設定は、視覚的な観察のための表現学習、高次元空間によるサンプル複雑性、固定報酬や学習信号の欠如による学習不安定性など、多くの課題を提示している。
これらの課題に対処するために,変動モデルに基づく逆模倣学習(V-MAIL)アルゴリズムを開発した。
モデルに基づくアプローチは、表現学習のための強力なシグナルを提供し、サンプル効率を実現し、オンポリシー学習を可能にして、敵対的トレーニングの安定性を向上させる。
複数の視覚に基づくロコモーションと操作タスクに関する実験を通じて、v-mailはサンプル効率のよい方法でvisuomotorポリシーを学習し、以前の作業よりも安定性が向上し、非漸近的なパフォーマンスも達成できることがわかった。
さらに、学習したモデルを転送することで、V-MAILは、追加の環境相互作用なしに視覚的なデモンストレーションから新しいタスクを学習できることがわかった。
ビデオを含むすべての結果は、 \url{https://sites.google.com/view/variational-mail} で見ることができる。
関連論文リスト
- Visual In-Context Learning for Large Vision-Language Models [62.5507897575317]
大規模視覚言語モデル(LVLM)では、言語間相互作用や表現格差の課題により、ICL(In-Context Learning)の有効性が制限されている。
本稿では,視覚的記述型検索,意図的画像要約,意図的記述型合成を含む新しい視覚的記述型学習(VICL)手法を提案する。
提案手法は'Retrieval & Rerank'パラダイムを用いて画像を検索し,タスク意図とタスク固有の視覚的パーシングで画像を要約し,言語による実演を構成する。
論文 参考訳(メタデータ) (2024-02-18T12:43:38Z) - Visual Imitation Learning with Calibrated Contrastive Representation [44.63125396964309]
AIL(Adversarial Imitation Learning)は、エージェントが低次元の状態と行動で専門家の行動を再現することを可能にする。
本稿では、視覚的AILフレームワークにコントラスト型代表学習を組み込むことにより、シンプルで効果的な解を提案する。
論文 参考訳(メタデータ) (2024-01-21T04:18:30Z) - Learning to Discern: Imitating Heterogeneous Human Demonstrations with
Preference and Representation Learning [12.4468604987226]
本稿では、様々な品質とスタイルのデモンストレーションから学習するオフラインの模倣学習フレームワークであるL2Dについて紹介する。
本研究では,L2Dが様々な実演から効果的に評価・学習できることを示す。
論文 参考訳(メタデータ) (2023-10-22T06:08:55Z) - SeMAIL: Eliminating Distractors in Visual Imitation via Separated Models [22.472167814814448]
本稿では,SeMAIL(Separated Model-based Adversarial Imitation Learning)というモデルベース模倣学習アルゴリズムを提案する。
本手法は, 様々な視覚的制御タスクにおいて, 複雑な観察と, 専門的な観察から異なる背景を持つより困難なタスクにおいて, ほぼ専門的な性能を実現する。
論文 参考訳(メタデータ) (2023-06-19T04:33:44Z) - Accelerating exploration and representation learning with offline
pre-training [52.6912479800592]
1つのオフラインデータセットから2つの異なるモデルを別々に学習することで、探索と表現の学習を改善することができることを示す。
ノイズコントラスト推定と補助報酬モデルを用いて状態表現を学習することで、挑戦的なNetHackベンチマークのサンプル効率を大幅に向上できることを示す。
論文 参考訳(メタデータ) (2023-03-31T18:03:30Z) - Sample-efficient Adversarial Imitation Learning [45.400080101596956]
状態と行動表現を学習するための自己教師付き表現に基づく対向的模倣学習法を提案する。
本研究は,M MuJoCo上での既存対向模倣学習法に対して,100対の専門的状態-作用ペアに制限された設定で相対的に39%改善したことを示す。
論文 参考訳(メタデータ) (2023-03-14T12:36:01Z) - Task Formulation Matters When Learning Continually: A Case Study in
Visual Question Answering [58.82325933356066]
継続的な学習は、以前の知識を忘れずに、一連のタスクでモデルを漸進的にトレーニングすることを目的としている。
本稿では,視覚的質問応答において,異なる設定がパフォーマンスに与える影響について詳細に検討する。
論文 参考訳(メタデータ) (2022-09-30T19:12:58Z) - Task-Induced Representation Learning [14.095897879222672]
視覚的に複雑な環境における意思決定における表現学習手法の有効性を評価する。
表現学習は、視覚的に複雑なシーンであっても、目に見えないタスクのサンプル効率を向上する。
論文 参考訳(メタデータ) (2022-04-25T17:57:10Z) - Crop-Transform-Paste: Self-Supervised Learning for Visual Tracking [137.26381337333552]
本研究では,十分なトレーニングデータを合成できるCrop-Transform-Paste演算を開発した。
オブジェクトの状態はすべての合成データで知られているので、既存のディープトラッカーは人間のアノテーションなしで日常的に訓練することができる。
論文 参考訳(メタデータ) (2021-06-21T07:40:34Z) - Visual Imitation Made Easy [102.36509665008732]
本稿では,ロボットへのデータ転送を容易にしながら,データ収集プロセスを単純化する,模倣のための代替インターフェースを提案する。
我々は、データ収集装置やロボットのエンドエフェクターとして、市販のリーチ・グラブラー補助具を使用する。
我々は,非包括的プッシュと包括的積み重ねという2つの課題について実験的に評価した。
論文 参考訳(メタデータ) (2020-08-11T17:58:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。