論文の概要: Efficiently Guiding Imitation Learning Agents with Human Gaze
- arxiv url: http://arxiv.org/abs/2002.12500v4
- Date: Wed, 21 Apr 2021 21:39:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-28 01:28:57.277338
- Title: Efficiently Guiding Imitation Learning Agents with Human Gaze
- Title(参考訳): 人間の視線で模倣学習エージェントを効率的に誘導する
- Authors: Akanksha Saran, Ruohan Zhang, Elaine Schaertl Short and Scott Niekum
- Abstract要約: 我々は,3つの模擬学習手法を用いて訓練されたエージェントの性能を高めるために,人間のデモ隊の視線手がかりを使用する。
強化学習エージェントの注意とヒトの視線との類似性に基づいて, 視線データを計算的に効率的に活用するための新しいアプローチを提案する。
提案手法は,BCでは95%,BCOでは343%,T-REXでは390%,Atariゲームでは平均20以上のパフォーマンス向上を実現している。
- 参考スコア(独自算出の注目度): 28.7222865388462
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human gaze is known to be an intention-revealing signal in human
demonstrations of tasks. In this work, we use gaze cues from human
demonstrators to enhance the performance of agents trained via three popular
imitation learning methods -- behavioral cloning (BC), behavioral cloning from
observation (BCO), and Trajectory-ranked Reward EXtrapolation (T-REX). Based on
similarities between the attention of reinforcement learning agents and human
gaze, we propose a novel approach for utilizing gaze data in a computationally
efficient manner, as part of an auxiliary loss function, which guides a network
to have higher activations in image regions where the human's gaze fixated.
This work is a step towards augmenting any existing convolutional imitation
learning agent's training with auxiliary gaze data. Our auxiliary
coverage-based gaze loss (CGL) guides learning toward a better reward function
or policy, without adding any additional learnable parameters and without
requiring gaze data at test time. We find that our proposed approach improves
the performance by 95% for BC, 343% for BCO, and 390% for T-REX, averaged over
20 different Atari games. We also find that compared to a prior
state-of-the-art imitation learning method assisted by human gaze (AGIL), our
method achieves better performance, and is more efficient in terms of learning
with fewer demonstrations. We further interpret trained CGL agents with a
saliency map visualization method to explain their performance. At last, we
show that CGL can help alleviate a well-known causal confusion problem in
imitation learning.
- Abstract(参考訳): 人間の視線は、人間のタスクのデモンストレーションにおける意図的な信号として知られている。
本研究では,人間の実証者による視線検査を用いて,行動クローニング(BC),観察からの行動クローニング(BCO),軌跡追跡(T-REX)という3つの一般的な模倣学習手法を用いて訓練されたエージェントのパフォーマンスを向上させる。
強化学習エージェントの注意と人間の視線の類似性に基づいて,人間の視線が固定された画像領域において,ネットワークがより高いアクティベーションを持つように誘導する補助損失関数の一部として,視線データを計算効率良く利用する新しい手法を提案する。
この研究は、既存の畳み込み模倣学習エージェントのトレーニングを補助的な視線データで強化するためのステップである。
我々の補助的カバレッジベースの視線損失(CGL)は、学習可能なパラメータを追加せずに、テスト時に視線データを必要とせず、より良い報酬関数やポリシーに学習を導く。
提案手法は,BCでは95%,BCOでは343%,T-REXでは390%,Atariゲームでは平均20以上のパフォーマンス向上を実現している。
また,人間の視線(agil)を補助する前段階の模倣学習手法と比較して,より優れた性能を実現し,より少ない実演で学習する方が効率的であることが判明した。
さらに,訓練されたcglエージェントをサリエンシーマップ可視化手法で解釈し,その性能について述べる。
最後に,cglは模倣学習においてよく知られた因果的混乱の軽減に役立つことを示す。
関連論文リスト
- "Give Me an Example Like This": Episodic Active Reinforcement Learning from Demonstrations [3.637365301757111]
専門家デモ(RLED)からの強化学習(Reinforcement Learning from Expert Demonstrations)のような手法は、学習プロセス中のエージェント探索を促進するために外部の専門家によるデモンストレーションを導入します。
学習にとって最も有益な人間のデモのベストセットをどうやって選ぶかが、大きな関心事になります。
本稿では,学習エージェントが軌跡に基づく特徴空間において,専門家による実演を最適化したクエリを生成できるアルゴリズムEARLYを提案する。
論文 参考訳(メタデータ) (2024-06-05T08:52:21Z) - MA2CL:Masked Attentive Contrastive Learning for Multi-Agent
Reinforcement Learning [128.19212716007794]
我々はtextbfMulti-textbfAgent textbfMasked textbfAttentive textbfContrastive textbfLearning (MA2CL) という効果的なフレームワークを提案する。
MA2CLは、潜伏空間におけるマスクされたエージェント観察を再構築することにより、時間的およびエージェントレベルの予測の両方の学習表現を奨励する。
提案手法は,様々なMARLアルゴリズムの性能とサンプル効率を大幅に向上させ,様々な視覚的,状態的シナリオにおいて,他の手法よりも優れる。
論文 参考訳(メタデータ) (2023-06-03T05:32:19Z) - Basis for Intentions: Efficient Inverse Reinforcement Learning using
Past Experience [89.30876995059168]
逆強化学習(IRL) - エージェントの報酬関数をその振る舞いを観察することから推測する。
本稿では、エージェントの報酬関数を観察することのできないIRLの問題に対処する。
論文 参考訳(メタデータ) (2022-08-09T17:29:49Z) - Improving Learning from Demonstrations by Learning from Experience [4.605233477425785]
我々は、専門家から経験から学びへスムーズに移行できるTD3fGという新しいアルゴリズムを提案する。
本アルゴリズムは,MUJOCO環境において,限定的かつ準最適な実演を行い,優れた性能を実現する。
論文 参考訳(メタデータ) (2021-11-16T00:40:31Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z) - Imitation Learning with Human Eye Gaze via Multi-Objective Prediction [3.5779268406205618]
本稿では,新しい文脈認識型模倣学習アーキテクチャであるGaze Regularized Imitation Learning (GRIL)を提案する。
GRILは人間のデモンストレーションと視線の両方から同時に学習し、視覚的注意が重要なコンテキストを提供するタスクを解決する。
GRILは、最先端の視線に基づく模倣学習アルゴリズムよりも優れており、同時に人間の視覚的注意を予測し、トレーニングデータに存在しないシナリオに一般化する。
論文 参考訳(メタデータ) (2021-02-25T17:13:13Z) - PsiPhi-Learning: Reinforcement Learning with Demonstrations using
Successor Features and Inverse Temporal Difference Learning [102.36450942613091]
時間差学習(ITD)と呼ばれる逆強化学習アルゴリズムを提案する。
Psi Phi$-learningと呼ばれるデモで強化学習のための新しいアルゴリズムに到達し、オンライン環境の相互作用から学習とITDをシームレスに統合する方法を示します。
論文 参考訳(メタデータ) (2021-02-24T21:12:09Z) - Self-supervised Co-training for Video Representation Learning [103.69904379356413]
実例に基づく情報ノイズコントラスト推定訓練に意味クラス正の付加を施すことの利点について検討する。
本稿では,インフォネッションNCEの損失を改善するための,自己指導型協調学習手法を提案する。
本研究では,2つの下流タスク(行動認識とビデオ検索)における学習表現の質を評価する。
論文 参考訳(メタデータ) (2020-10-19T17:59:01Z) - Boosting Image-based Mutual Gaze Detection using Pseudo 3D Gaze [19.10872208787867]
相互視線検出は、人間の相互作用を理解する上で重要な役割を果たす。
本稿では,訓練期間中に補助的な3D視線推定タスクを用いて,性能向上のための簡易かつ効果的な手法を提案する。
相互の視線ラベルから推定される擬似3次元視線ラベルを用いて、3次元視線推定枝を訓練することにより、追加の表示コストなしで性能向上を実現する。
論文 参考訳(メタデータ) (2020-10-15T15:01:41Z) - Learning Invariant Representations for Reinforcement Learning without
Reconstruction [98.33235415273562]
本研究では,表現学習が画像などのリッチな観察からの強化学習を,ドメイン知識や画素再構成に頼ることなく促進する方法について検討する。
シミュレーションメトリクスは、連続MDPの状態間の振る舞いの類似性を定量化する。
修正された視覚的 MuJoCo タスクを用いてタスク関連情報を無視する手法の有効性を実証する。
論文 参考訳(メタデータ) (2020-06-18T17:59:35Z) - Towards Learning to Imitate from a Single Video Demonstration [11.15358253586118]
我々は,映像観察を模倣して学習できる強化学習エージェントを開発した。
我々は、Siameseリカレントニューラルネットワークアーキテクチャを使用して、モーションクリップ間の空間と時間における報酬を学習する。
シミュレーションされたヒューマノイド, 犬, ラプターエージェントを2D, 四足歩行, ヒューマノイドを3Dで示す。
論文 参考訳(メタデータ) (2019-01-22T06:46:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。