論文の概要: Selective Eye-gaze Augmentation To Enhance Imitation Learning In Atari
Games
- arxiv url: http://arxiv.org/abs/2012.03145v1
- Date: Sat, 5 Dec 2020 23:35:55 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-22 12:11:56.188756
- Title: Selective Eye-gaze Augmentation To Enhance Imitation Learning In Atari
Games
- Title(参考訳): atariゲームにおける模倣学習強化のための選択的アイ・ガゼ強化
- Authors: Chaitanya Thammineni, Hemanth Manjunatha, Ehsan T. Esfahani
- Abstract要約: 本稿では,アタリゲームにおける人間の行動学習における視線情報の選択的利用について述べる。
本稿では、視線情報を利用するタイミングを学習する選択的な視線拡張ネットワークを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents the selective use of eye-gaze information in learning
human actions in Atari games. Vast evidence suggests that our eye movement
convey a wealth of information about the direction of our attention and mental
states and encode the information necessary to complete a task. Based on this
evidence, we hypothesize that selective use of eye-gaze, as a clue for
attention direction, will enhance the learning from demonstration. For this
purpose, we propose a selective eye-gaze augmentation (SEA) network that learns
when to use the eye-gaze information. The proposed network architecture
consists of three sub-networks: gaze prediction, gating, and action prediction
network. Using the prior 4 game frames, a gaze map is predicted by the gaze
prediction network which is used for augmenting the input frame. The gating
network will determine whether the predicted gaze map should be used in
learning and is fed to the final network to predict the action at the current
frame. To validate this approach, we use publicly available Atari Human
Eye-Tracking And Demonstration (Atari-HEAD) dataset consists of 20 Atari games
with 28 million human demonstrations and 328 million eye-gazes (over game
frames) collected from four subjects. We demonstrate the efficacy of selective
eye-gaze augmentation in comparison with state of the art Attention Guided
Imitation Learning (AGIL), Behavior Cloning (BC). The results indicate that the
selective augmentation approach (the SEA network) performs significantly better
than the AGIL and BC. Moreover, to demonstrate the significance of selective
use of gaze through the gating network, we compare our approach with the random
selection of the gaze. Even in this case, the SEA network performs
significantly better validating the advantage of selectively using the gaze in
demonstration learning.
- Abstract(参考訳): 本稿では,アタリゲームにおける人間の行動学習における視線情報の選択的利用について述べる。
我々の眼球運動は、我々の注意と精神状態の方向性に関する豊富な情報を伝達し、タスクを完了させるために必要な情報を符号化している。
この証拠に基づき,注意方向の手がかりとしてアイガゼを選択的に使用することで,実演からの学習を促進すると仮定した。
そこで本稿では,眼球情報の利用時期を学習するSEA(elective eye-gaze augmentation)ネットワークを提案する。
提案するネットワークアーキテクチャは,視線予測,ゲーティング,行動予測ネットワークの3つのサブネットワークで構成される。
前の4つのゲームフレームを用いて、入力フレームの増大に使用される視線予測ネットワークにより視線マップを予測する。
ゲーティングネットワークは、予測された視線マップが学習に使用されるかどうかを判断し、最終ネットワークに供給して現在のフレームでの動作を予測する。
このアプローチを検証するために、atari human eye-tracking and demonstration (atari-head)データセットは、20のatariゲームから成り、4つの被験者から収集された3億2800万のeye-gazes (over game frames) からなる。
本研究は,Attention Guided Imitation Learning (AGIL), Behavior Cloning (BC) に比較して,選択的視線増強の有効性を示す。
以上の結果から,選択的拡張アプローチ (SEAネットワーク) はAGILやBCよりも高い性能を示した。
さらに、ゲーティングネットワークを介して視線を選択的に利用することの重要性を示すために、我々のアプローチと視線のランダムな選択を比較した。
この場合でさえ、sea networkは、デモンストレーション学習における視線を選択的に利用する利点を著しく検証している。
関連論文リスト
- What Makes Pre-Trained Visual Representations Successful for Robust
Manipulation? [57.92924256181857]
照明やシーンテクスチャの微妙な変化の下では,操作や制御作業のために設計された視覚表現が必ずしも一般化されないことがわかった。
創発的セグメンテーション能力は,ViTモデルにおける分布外一般化の強い予測因子であることがわかった。
論文 参考訳(メタデータ) (2023-11-03T18:09:08Z) - Predicting Eye Gaze Location on Websites [4.8633100732964705]
本稿では,画像とテキストの空間的位置を併用した効果的な深層学習モデルを提案する。
我々は,眼球運動予測の精度を向上させるため,統合データセットを用いた注意深い微調整の利点を示す。
論文 参考訳(メタデータ) (2022-11-15T11:55:46Z) - Active Gaze Control for Foveal Scene Exploration [124.11737060344052]
本研究では,葉型カメラを用いた人間とロボットが現場を探索する方法をエミュレートする手法を提案する。
提案手法は,同数の視線シフトに対してF1スコアを2~3ポイント増加させる。
論文 参考訳(メタデータ) (2022-08-24T14:59:28Z) - RAZE: Region Guided Self-Supervised Gaze Representation Learning [5.919214040221055]
RAZEは、非注釈の顔画像データを利用する地域誘導型自己教師型gAZE表現学習フレームワークである。
Ize-Netはカプセル層ベースのCNNアーキテクチャで、リッチアイ表現を効率的に捉えることができる。
論文 参考訳(メタデータ) (2022-08-04T06:23:49Z) - Rectify ViT Shortcut Learning by Visual Saliency [40.55418820114868]
ショートカット学習は一般的だが、ディープラーニングモデルには有害である。
本研究では,ショートカット学習の精度向上を目的とした,新規かつ効果的なサリエンシ誘導型視覚変換器(SGT)モデルを提案する。
論文 参考訳(メタデータ) (2022-06-17T05:54:07Z) - GIMO: Gaze-Informed Human Motion Prediction in Context [75.52839760700833]
本研究では、高品質なボディポーズシーケンス、シーンスキャン、目視によるエゴ中心のビューを提供する大規模な人体動作データセットを提案する。
私たちのデータ収集は特定のシーンに縛られません。
視線の全可能性を実現するために,視線と運動枝の双方向通信を可能にする新しいネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-04-20T13:17:39Z) - L2CS-Net: Fine-Grained Gaze Estimation in Unconstrained Environments [2.5234156040689237]
制約のない環境での視線予測のための頑健なCNNモデルを提案する。
我々は、ネットワーク学習を改善し、一般化を高めるために、各角度に2つの同一の損失を用いる。
提案モデルでは,MPIIGazeデータセットとGaze360データセットを用いて3.92degと10.41degの最先端精度を実現する。
論文 参考訳(メタデータ) (2022-03-07T12:35:39Z) - Towards End-to-end Video-based Eye-Tracking [50.0630362419371]
画像のみから視線を推定することは、観察不可能な人固有の要因のために難しい課題である。
本稿では,これらの意味的関係と時間的関係を明確に学習することを目的とした,新しいデータセットとアタッチメント手法を提案する。
視覚刺激からの情報と視線画像の融合が,文献に記録された人物と同じような性能を達成することにつながることを実証した。
論文 参考訳(メタデータ) (2020-07-26T12:39:15Z) - WW-Nets: Dual Neural Networks for Object Detection [48.67090730174743]
ネットワーク接続重みの暗黙的なオブジェクト位置知識を用いて、オブジェクト検出タスクにおける選択的注意を誘導する、新しいディープ畳み込みニューラルネットワークフレームワークを提案する。
我々のアプローチはWhat-Where Nets (WW-Nets)と呼ばれ、人間の視覚経路の構造にインスパイアされている。
論文 参考訳(メタデータ) (2020-05-15T21:16:22Z) - Disentangling Controllable Object through Video Prediction Improves
Visual Reinforcement Learning [82.25034245150582]
多くの視覚に基づく強化学習問題において、エージェントは視野内の可動物体を制御する。
制御可能なオブジェクトを観測信号から切り離すためのエンドツーエンド学習フレームワークを提案する。
不整合表現は、RLがエージェントに追加の観察チャネルとして有用であることが示されている。
論文 参考訳(メタデータ) (2020-02-21T05:43:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。