論文の概要: Gaze-Informed Multi-Objective Imitation Learning from Human
Demonstrations
- arxiv url: http://arxiv.org/abs/2102.13008v1
- Date: Thu, 25 Feb 2021 17:13:13 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-26 13:35:53.986582
- Title: Gaze-Informed Multi-Objective Imitation Learning from Human
Demonstrations
- Title(参考訳): 視線による多目的模倣学習
- Authors: Ritwik Bera, Vinicius G. Goecks, Gregory M. Gremillion, Vernon J.
Lawhern, John Valasek, Nicholas R. Waytowich
- Abstract要約: 本研究では,人間の行動実証と視線追跡データから同時に学習する新しい模倣学習アーキテクチャを提案する。
その結果、提案された視線拡張模擬学習モデルにより、タスク完了率が大幅に向上するポリシーを学習できることが示された。
本研究では,人間の入力モダリティを付加した視覚注意情報のマルチモーダル学習の重要性を強調する。
- 参考スコア(独自算出の注目度): 5.795351821119053
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the field of human-robot interaction, teaching learning agents from human
demonstrations via supervised learning has been widely studied and successfully
applied to multiple domains such as self-driving cars and robot manipulation.
However, the majority of the work on learning from human demonstrations
utilizes only behavioral information from the demonstrator, i.e. what actions
were taken, and ignores other useful information. In particular, eye gaze
information can give valuable insight towards where the demonstrator is
allocating their visual attention, and leveraging such information has the
potential to improve agent performance. Previous approaches have only studied
the utilization of attention in simple, synchronous environments, limiting
their applicability to real-world domains. This work proposes a novel imitation
learning architecture to learn concurrently from human action demonstration and
eye tracking data to solve tasks where human gaze information provides
important context. The proposed method is applied to a visual navigation task,
in which an unmanned quadrotor is trained to search for and navigate to a
target vehicle in a real-world, photorealistic simulated environment. When
compared to a baseline imitation learning architecture, results show that the
proposed gaze augmented imitation learning model is able to learn policies that
achieve significantly higher task completion rates, with more efficient paths,
while simultaneously learning to predict human visual attention. This research
aims to highlight the importance of multimodal learning of visual attention
information from additional human input modalities and encourages the community
to adopt them when training agents from human demonstrations to perform
visuomotor tasks.
- Abstract(参考訳): 人間とロボットの相互作用の分野では、教師付き学習による人間のデモンストレーションから学習エージェントを教えることが広く研究され、自動運転車やロボット操作などの複数の領域に適用されました。
しかし、人間のデモンストレーションから学ぶ作業の大部分は、デモ参加者からの行動情報のみを利用する。
どんな行動がとられたか 他の有用な情報を無視します
特に、目視情報は、デモンストレーション者が視覚的注意を割り当てている場所に対する貴重な洞察を与えることができ、そのような情報を活用すると、エージェントのパフォーマンスを向上させる可能性があります。
従来のアプローチでは、単純な同期環境での注目の活用のみを研究しており、現実世界のドメインへの適用性が制限されている。
本研究では、人間の行動実証とアイトラッキングデータから同時に学習し、人間の視線情報が重要なコンテキストを提供するタスクを解決するための新しい模倣学習アーキテクチャを提案する。
提案手法は,無人の四回転子が現実世界,光リアルなシミュレート環境で対象車両を探索し,移動するように訓練される視覚ナビゲーションタスクに適用される。
基本模倣学習アーキテクチャと比較すると,提案する視線拡張模倣学習モデルは,人間の視覚注意を予測するために同時に学習しながら,より効率的な経路で,はるかに高いタスク完了率を達成するポリシーを学習できることが示される。
本研究の目的は、人間の入力モダリティを付加した視覚的注意情報のマルチモーダル学習の重要性を強調し、人間のデモンストレーションからエージェントを訓練して視覚運動を行う際に、コミュニティがそれらを採用することを奨励することである。
関連論文リスト
- Voila-A: Aligning Vision-Language Models with User's Gaze Attention [56.755993500556734]
視覚言語モデル(VLM)を導くために,人間の注意の代用として視線情報を導入する。
本稿では,視線アライメントのための新しいアプローチであるVoila-Aを提案する。
論文 参考訳(メタデータ) (2023-12-22T17:34:01Z) - What Makes Pre-Trained Visual Representations Successful for Robust
Manipulation? [57.92924256181857]
照明やシーンテクスチャの微妙な変化の下では,操作や制御作業のために設計された視覚表現が必ずしも一般化されないことがわかった。
創発的セグメンテーション能力は,ViTモデルにおける分布外一般化の強い予測因子であることがわかった。
論文 参考訳(メタデータ) (2023-11-03T18:09:08Z) - Human-oriented Representation Learning for Robotic Manipulation [64.59499047836637]
人間は本質的に、操作作業において環境を効率的に探索し、相互作用することを可能にする、一般化可能な視覚表現を持っている。
我々は、このアイデアを、事前訓練された視覚エンコーダの上に、人間指向のマルチタスク微調整のレンズを通してフォーマル化する。
我々のタスクフュージョンデコーダは、下流操作ポリシー学習のための最先端の3つのビジュアルエンコーダの表現を一貫して改善する。
論文 参考訳(メタデータ) (2023-10-04T17:59:38Z) - Brief Introduction to Contrastive Learning Pretext Tasks for Visual
Representation [0.0]
教師なし学習手法のサブセットであるコントラスト学習を導入する。
対照的な学習の目的は、互いに近くにある同じサンプルから強化されたサンプルを埋め込んで、そうでないサンプルを押し下げることである。
我々は、最近公開されたコントラスト学習の戦略をいくつか提示し、視覚表現のためのプレテキストタスクに焦点を当てている。
論文 参考訳(メタデータ) (2022-10-06T18:54:10Z) - Embodied Learning for Lifelong Visual Perception [33.02424587900808]
我々は、新しいモデルを開発し、建物内を航行する様々なエージェントを比較し、生涯の視覚知覚を具体化して研究する。
エージェントの目的は、探索とアクティブな視覚学習を組み合わせたプロセスの最後に、建物全体のオブジェクトやその他のセマンティッククラスを認識することである。
論文 参考訳(メタデータ) (2021-12-28T10:47:13Z) - Playful Interactions for Representation Learning [82.59215739257104]
本稿では,下流タスクの視覚的表現を学習するために,遊び心のあるインタラクションを自己指導的に利用することを提案する。
19の多様な環境で2時間の遊び心のあるデータを収集し、自己予測学習を用いて視覚的表現を抽出する。
我々の表現は、標準的な行動クローニングよりも一般化され、必要なデモの半数しか必要とせず、同様の性能を達成できる。
論文 参考訳(メタデータ) (2021-07-19T17:54:48Z) - Curious Representation Learning for Embodied Intelligence [81.21764276106924]
近年,自己指導型表現学習は顕著な成功を収めている。
しかし、真にインテリジェントなエージェントを構築するためには、環境から学習できる表現学習アルゴリズムを構築する必要がある。
本稿では,強化学習方針と視覚的表現モデルを同時に学習する,好奇心をそそる表現学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-05-03T17:59:20Z) - What Can You Learn from Your Muscles? Learning Visual Representation
from Human Interactions [50.435861435121915]
視覚のみの表現よりも優れた表現を学べるかどうかを調べるために,人間のインタラクションとアテンション・キューを用いている。
実験の結果,我々の「音楽監督型」表現は,視覚のみの最先端手法であるMoCoよりも優れていた。
論文 参考訳(メタデータ) (2020-10-16T17:46:53Z) - Active Perception and Representation for Robotic Manipulation [0.8315801422499861]
本稿では、能動的知覚の利点を利用して操作タスクを遂行するフレームワークを提案する。
我々のエージェントは、視点変化を利用してオブジェクトをローカライズし、状態表現を自己監督的に学習し、ゴール指向のアクションを実行する。
バニラ深度Q-ラーニングアルゴリズムと比較して、我々のモデルは少なくとも4倍のサンプリング効率がある。
論文 参考訳(メタデータ) (2020-03-15T01:43:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。