論文の概要: Imitation Learning with Human Eye Gaze via Multi-Objective Prediction
- arxiv url: http://arxiv.org/abs/2102.13008v3
- Date: Sat, 22 Jul 2023 19:46:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-26 01:38:46.164783
- Title: Imitation Learning with Human Eye Gaze via Multi-Objective Prediction
- Title(参考訳): 多目的予測による人間の視線による模倣学習
- Authors: Ravi Kumar Thakur, MD-Nazmus Samin Sunbeam, Vinicius G. Goecks, Ellen
Novoseller, Ritwik Bera, Vernon J. Lawhern, Gregory M. Gremillion, John
Valasek, Nicholas R. Waytowich
- Abstract要約: 本稿では,新しい文脈認識型模倣学習アーキテクチャであるGaze Regularized Imitation Learning (GRIL)を提案する。
GRILは人間のデモンストレーションと視線の両方から同時に学習し、視覚的注意が重要なコンテキストを提供するタスクを解決する。
GRILは、最先端の視線に基づく模倣学習アルゴリズムよりも優れており、同時に人間の視覚的注意を予測し、トレーニングデータに存在しないシナリオに一般化する。
- 参考スコア(独自算出の注目度): 3.5779268406205618
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Approaches for teaching learning agents via human demonstrations have been
widely studied and successfully applied to multiple domains. However, the
majority of imitation learning work utilizes only behavioral information from
the demonstrator, i.e. which actions were taken, and ignores other useful
information. In particular, eye gaze information can give valuable insight
towards where the demonstrator is allocating visual attention, and holds the
potential to improve agent performance and generalization. In this work, we
propose Gaze Regularized Imitation Learning (GRIL), a novel context-aware,
imitation learning architecture that learns concurrently from both human
demonstrations and eye gaze to solve tasks where visual attention provides
important context. We apply GRIL to a visual navigation task, in which an
unmanned quadrotor is trained to search for and navigate to a target vehicle in
a photorealistic simulated environment. We show that GRIL outperforms several
state-of-the-art gaze-based imitation learning algorithms, simultaneously
learns to predict human visual attention, and generalizes to scenarios not
present in the training data. Supplemental videos and code can be found at
https://sites.google.com/view/gaze-regularized-il/.
- Abstract(参考訳): 人間のデモを通して学習エージェントを教えるためのアプローチは広く研究され、複数の領域にうまく適用されている。
しかし、模倣学習の作業の大半は、デモレーターからの行動情報、すなわちどの行動が取られたかのみを利用しており、他の有用な情報を無視している。
特に、目視情報は、ディストレーターが視覚的注意をどこに配置しているかについての貴重な洞察を与え、エージェントのパフォーマンスと一般化を改善する可能性を秘めている。
本研究では,視覚的注意が重要なコンテキストを提供するタスクを解決するために,人間の実演と視線の両方から同時に学習する新しい文脈認識型模倣学習アーキテクチャであるGaz Regularized Imitation Learning (GRIL)を提案する。
我々はGRILを視覚的ナビゲーションタスクに適用し、無人の四極子を訓練し、光現実的シミュレーション環境下で対象車両の探索とナビゲートを行う。
GRILは、最先端の視線に基づく模倣学習アルゴリズムよりも優れており、同時に人間の視覚的注意を予測し、トレーニングデータに存在しないシナリオに一般化する。
補足的なビデオとコードはhttps://sites.google.com/view/gaze-regularized-il/で見ることができる。
関連論文リスト
- Voila-A: Aligning Vision-Language Models with User's Gaze Attention [56.755993500556734]
視覚言語モデル(VLM)を導くために,人間の注意の代用として視線情報を導入する。
本稿では,視線アライメントのための新しいアプローチであるVoila-Aを提案する。
論文 参考訳(メタデータ) (2023-12-22T17:34:01Z) - What Makes Pre-Trained Visual Representations Successful for Robust
Manipulation? [57.92924256181857]
照明やシーンテクスチャの微妙な変化の下では,操作や制御作業のために設計された視覚表現が必ずしも一般化されないことがわかった。
創発的セグメンテーション能力は,ViTモデルにおける分布外一般化の強い予測因子であることがわかった。
論文 参考訳(メタデータ) (2023-11-03T18:09:08Z) - Human-oriented Representation Learning for Robotic Manipulation [64.59499047836637]
人間は本質的に、操作作業において環境を効率的に探索し、相互作用することを可能にする、一般化可能な視覚表現を持っている。
我々は、このアイデアを、事前訓練された視覚エンコーダの上に、人間指向のマルチタスク微調整のレンズを通してフォーマル化する。
我々のタスクフュージョンデコーダは、下流操作ポリシー学習のための最先端の3つのビジュアルエンコーダの表現を一貫して改善する。
論文 参考訳(メタデータ) (2023-10-04T17:59:38Z) - Brief Introduction to Contrastive Learning Pretext Tasks for Visual
Representation [0.0]
教師なし学習手法のサブセットであるコントラスト学習を導入する。
対照的な学習の目的は、互いに近くにある同じサンプルから強化されたサンプルを埋め込んで、そうでないサンプルを押し下げることである。
我々は、最近公開されたコントラスト学習の戦略をいくつか提示し、視覚表現のためのプレテキストタスクに焦点を当てている。
論文 参考訳(メタデータ) (2022-10-06T18:54:10Z) - Embodied Learning for Lifelong Visual Perception [33.02424587900808]
我々は、新しいモデルを開発し、建物内を航行する様々なエージェントを比較し、生涯の視覚知覚を具体化して研究する。
エージェントの目的は、探索とアクティブな視覚学習を組み合わせたプロセスの最後に、建物全体のオブジェクトやその他のセマンティッククラスを認識することである。
論文 参考訳(メタデータ) (2021-12-28T10:47:13Z) - Playful Interactions for Representation Learning [82.59215739257104]
本稿では,下流タスクの視覚的表現を学習するために,遊び心のあるインタラクションを自己指導的に利用することを提案する。
19の多様な環境で2時間の遊び心のあるデータを収集し、自己予測学習を用いて視覚的表現を抽出する。
我々の表現は、標準的な行動クローニングよりも一般化され、必要なデモの半数しか必要とせず、同様の性能を達成できる。
論文 参考訳(メタデータ) (2021-07-19T17:54:48Z) - Curious Representation Learning for Embodied Intelligence [81.21764276106924]
近年,自己指導型表現学習は顕著な成功を収めている。
しかし、真にインテリジェントなエージェントを構築するためには、環境から学習できる表現学習アルゴリズムを構築する必要がある。
本稿では,強化学習方針と視覚的表現モデルを同時に学習する,好奇心をそそる表現学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-05-03T17:59:20Z) - What Can You Learn from Your Muscles? Learning Visual Representation
from Human Interactions [50.435861435121915]
視覚のみの表現よりも優れた表現を学べるかどうかを調べるために,人間のインタラクションとアテンション・キューを用いている。
実験の結果,我々の「音楽監督型」表現は,視覚のみの最先端手法であるMoCoよりも優れていた。
論文 参考訳(メタデータ) (2020-10-16T17:46:53Z) - Active Perception and Representation for Robotic Manipulation [0.8315801422499861]
本稿では、能動的知覚の利点を利用して操作タスクを遂行するフレームワークを提案する。
我々のエージェントは、視点変化を利用してオブジェクトをローカライズし、状態表現を自己監督的に学習し、ゴール指向のアクションを実行する。
バニラ深度Q-ラーニングアルゴリズムと比較して、我々のモデルは少なくとも4倍のサンプリング効率がある。
論文 参考訳(メタデータ) (2020-03-15T01:43:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。