論文の概要: Predicting Goal-directed Human Attention Using Inverse Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2005.14310v2
- Date: Thu, 25 Jun 2020 10:56:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-27 05:28:34.902637
- Title: Predicting Goal-directed Human Attention Using Inverse Reinforcement
Learning
- Title(参考訳): 逆強化学習による目標指向型人間注意の予測
- Authors: Zhibo Yang, Lihan Huang, Yupei Chen, Zijun Wei, Seoyoung Ahn, Gregory
Zelinsky, Dimitris Samaras, Minh Hoai
- Abstract要約: 視覚探索においてヒトが使用する報酬関数とポリシーを学習するための最初の逆強化学習モデルを提案する。
IRLモデルをトレーニングし、評価するために、私たちはCOCO-Search18を作成しました。
- 参考スコア(独自算出の注目度): 44.774961463015245
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Being able to predict human gaze behavior has obvious importance for
behavioral vision and for computer vision applications. Most models have mainly
focused on predicting free-viewing behavior using saliency maps, but these
predictions do not generalize to goal-directed behavior, such as when a person
searches for a visual target object. We propose the first inverse reinforcement
learning (IRL) model to learn the internal reward function and policy used by
humans during visual search. The viewer's internal belief states were modeled
as dynamic contextual belief maps of object locations. These maps were learned
by IRL and then used to predict behavioral scanpaths for multiple target
categories. To train and evaluate our IRL model we created COCO-Search18, which
is now the largest dataset of high-quality search fixations in existence.
COCO-Search18 has 10 participants searching for each of 18 target-object
categories in 6202 images, making about 300,000 goal-directed fixations. When
trained and evaluated on COCO-Search18, the IRL model outperformed baseline
models in predicting search fixation scanpaths, both in terms of similarity to
human search behavior and search efficiency. Finally, reward maps recovered by
the IRL model reveal distinctive target-dependent patterns of object
prioritization, which we interpret as a learned object context.
- Abstract(参考訳): 人間の視線行動を予測することは、行動視覚やコンピュータビジョンアプリケーションにとって明らかに重要である。
ほとんどのモデルは、主にサリエンシーマップを用いた自由視聴行動の予測に焦点を当てているが、これらの予測は、視覚対象オブジェクトを探索するなど、ゴール指向の行動に一般化していない。
視覚探索においてヒトが使用する報酬関数とポリシーを学習するための最初の逆強化学習(IRL)モデルを提案する。
視聴者の内部信念状態は、オブジェクトの位置の動的文脈的信念マップとしてモデル化された。
これらのマップはIRLによって学習され、複数のターゲットカテゴリに対する行動スキャンパスの予測に使用された。
IRLモデルをトレーニングし、評価するために、私たちはCOCO-Search18を作成しました。
COCO-Search18には18のターゲットオブジェクトカテゴリを6202のイメージで検索する参加者が10人いて、約30万の目標指向の修正が行われている。
COCO-Search18でトレーニングおよび評価を行うと、IRLモデルは人間の検索行動と検索効率の両方において、探索固定スキャンパスを予測するベースラインモデルよりも優れていた。
最後に、IRLモデルにより復元された報酬写像は、学習対象コンテキストとして解釈される対象優先の特異な目標依存パターンを明らかにする。
関連論文リスト
- UniAR: Unifying Human Attention and Response Prediction on Visual
Content [12.281060227170792]
UniAR - 異なるタイプの視覚コンテンツにわたって暗黙的および明示的な人間の振る舞いを予測する統一モデル。
自然画像、Webページ、グラフィックデザインにまたがるさまざまなパブリックデータセットに基づいて、UniARをトレーニングします。
論文 参考訳(メタデータ) (2023-12-15T19:57:07Z) - What Makes Pre-Trained Visual Representations Successful for Robust
Manipulation? [57.92924256181857]
照明やシーンテクスチャの微妙な変化の下では,操作や制御作業のために設計された視覚表現が必ずしも一般化されないことがわかった。
創発的セグメンテーション能力は,ViTモデルにおける分布外一般化の強い予測因子であることがわかった。
論文 参考訳(メタデータ) (2023-11-03T18:09:08Z) - Predicting Visual Attention and Distraction During Visual Search Using
Convolutional Neural Networks [2.7920304852537527]
視覚探索において,視覚的注意をモデル化し,観察者の注意を逸脱させる2つの手法を提案する。
我々の最初のアプローチは、人間の目の視線密度マップを検索画像のピクセル上で予測するために、軽量な自由視度モデルに適応する。
第2のアプローチはオブジェクトベースであり、視覚検索中の乱れや対象物を予測する。
論文 参考訳(メタデータ) (2022-10-27T00:39:43Z) - Target-absent Human Attention [44.10971508325032]
探索終端問題に対処する最初のデータ駆動型計算モデルを提案する。
我々は、新しい状態表現を用いて、視聴者が固定によって取得する内部知識を表現する。
我々は,COCO-Search18データセット上での人的目標依存探索行動の予測における技術の現状を改善した。
論文 参考訳(メタデータ) (2022-07-04T02:32:04Z) - SEAL: Self-supervised Embodied Active Learning using Exploration and 3D
Consistency [122.18108118190334]
本稿では,SEAL(Self-Embodied Embodied Active Learning)というフレームワークを提案する。
インターネットイメージ上で訓練された知覚モデルを使用して、積極的な探索ポリシーを学ぶ。
我々は3Dセマンティックマップを用いて、行動と知覚の両方を、完全に自己管理された方法で学習する。
論文 参考訳(メタデータ) (2021-12-02T06:26:38Z) - Model-Based Visual Planning with Self-Supervised Functional Distances [104.83979811803466]
モデルに基づく視覚的目標達成のための自己監視手法を提案する。
私たちのアプローチは、オフラインでラベルなしのデータを使って完全に学習します。
このアプローチは,モデルフリーとモデルベース先行手法の両方で大幅に性能が向上することがわかった。
論文 参考訳(メタデータ) (2020-12-30T23:59:09Z) - What Can You Learn from Your Muscles? Learning Visual Representation
from Human Interactions [50.435861435121915]
視覚のみの表現よりも優れた表現を学べるかどうかを調べるために,人間のインタラクションとアテンション・キューを用いている。
実験の結果,我々の「音楽監督型」表現は,視覚のみの最先端手法であるMoCoよりも優れていた。
論文 参考訳(メタデータ) (2020-10-16T17:46:53Z) - Modeling human visual search: A combined Bayesian searcher and saliency
map approach for eye movement guidance in natural scenes [0.0]
そこで本稿では,従量性マップによる視覚検索を事前情報として統合したベイズモデルを提案する。
視覚検索タスクにおける最初の2つの修正の予測において,最先端のサリエンシモデルが良好に機能することを示すが,その後,その性能は低下する。
これは、サリエンシマップだけでボトムアップファーストインプレッションをモデル化できるが、トップダウンタスク情報が重要な場合、スキャンパスを説明するのに十分ではないことを示唆している。
論文 参考訳(メタデータ) (2020-09-17T15:38:23Z) - Predicting Goal-directed Attention Control Using Inverse-Reinforcement
Learning [25.721096184051724]
機械学習と心理的に意味のある報酬原理を用いて、ゴール指向の注意制御で使用される視覚的特徴を学習することができる。
我々は4,366枚の画像(MS-COCO)のデータセットで、マイクロ波または時計のどちらかを探す人々から16,184個の固定品を収集した。
我々は、この行動アノテートデータセットと逆強化学習(IRL)の機械学習手法を用いて、これらの2つの目標に対する目標固有報酬関数とポリシーを学習した。
論文 参考訳(メタデータ) (2020-01-31T15:53:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。