Fugu-MT 論文翻訳(概要): Predicting Goal-directed Human Attention Using Inverse Reinforcement Learning

論文の概要: Predicting Goal-directed Human Attention Using Inverse Reinforcement Learning

arxiv url: http://arxiv.org/abs/2005.14310v2
Date: Thu, 25 Jun 2020 10:56:15 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-27 05:28:34.902637
Title: Predicting Goal-directed Human Attention Using Inverse Reinforcement Learning
Title（参考訳）: 逆強化学習による目標指向型人間注意の予測
Authors: Zhibo Yang, Lihan Huang, Yupei Chen, Zijun Wei, Seoyoung Ahn, Gregory Zelinsky, Dimitris Samaras, Minh Hoai
Abstract要約: 視覚探索においてヒトが使用する報酬関数とポリシーを学習するための最初の逆強化学習モデルを提案する。 IRLモデルをトレーニングし、評価するために、私たちはCOCO-Search18を作成しました。
参考スコア（独自算出の注目度）: 44.774961463015245
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Being able to predict human gaze behavior has obvious importance for behavioral vision and for computer vision applications. Most models have mainly focused on predicting free-viewing behavior using saliency maps, but these predictions do not generalize to goal-directed behavior, such as when a person searches for a visual target object. We propose the first inverse reinforcement learning (IRL) model to learn the internal reward function and policy used by humans during visual search. The viewer's internal belief states were modeled as dynamic contextual belief maps of object locations. These maps were learned by IRL and then used to predict behavioral scanpaths for multiple target categories. To train and evaluate our IRL model we created COCO-Search18, which is now the largest dataset of high-quality search fixations in existence. COCO-Search18 has 10 participants searching for each of 18 target-object categories in 6202 images, making about 300,000 goal-directed fixations. When trained and evaluated on COCO-Search18, the IRL model outperformed baseline models in predicting search fixation scanpaths, both in terms of similarity to human search behavior and search efficiency. Finally, reward maps recovered by the IRL model reveal distinctive target-dependent patterns of object prioritization, which we interpret as a learned object context.
Abstract（参考訳）: 人間の視線行動を予測することは、行動視覚やコンピュータビジョンアプリケーションにとって明らかに重要である。ほとんどのモデルは、主にサリエンシーマップを用いた自由視聴行動の予測に焦点を当てているが、これらの予測は、視覚対象オブジェクトを探索するなど、ゴール指向の行動に一般化していない。視覚探索においてヒトが使用する報酬関数とポリシーを学習するための最初の逆強化学習(IRL)モデルを提案する。視聴者の内部信念状態は、オブジェクトの位置の動的文脈的信念マップとしてモデル化された。これらのマップはIRLによって学習され、複数のターゲットカテゴリに対する行動スキャンパスの予測に使用された。 IRLモデルをトレーニングし、評価するために、私たちはCOCO-Search18を作成しました。 COCO-Search18には18のターゲットオブジェクトカテゴリを6202のイメージで検索する参加者が10人いて、約30万の目標指向の修正が行われている。 COCO-Search18でトレーニングおよび評価を行うと、IRLモデルは人間の検索行動と検索効率の両方において、探索固定スキャンパスを予測するベースラインモデルよりも優れていた。最後に、IRLモデルにより復元された報酬写像は、学習対象コンテキストとして解釈される対象優先の特異な目標依存パターンを明らかにする。

関連論文リスト

Evaluating Multiview Object Consistency in Humans and Image Models [68.36073530804296]
我々は、物体の形状に関するゼロショット視覚的推論を必要とする認知科学の実験的設計を活用する。我々は500人以上の参加者から行動データの35万件の試行を収集した。次に、一般的な視覚モデルの性能を評価する。
論文参考訳（メタデータ） (2024-09-09T17:59:13Z)
Zero-Shot Object-Centric Representation Learning [72.43369950684057]
ゼロショット一般化のレンズによる現在の対象中心法について検討する。 8つの異なる合成および実世界のデータセットからなるベンチマークを導入する。多様な実世界の画像のトレーニングにより、見えないシナリオへの転送性が向上することがわかった。
論文参考訳（メタデータ） (2024-08-17T10:37:07Z)
Unified Dynamic Scanpath Predictors Outperform Individually Trained Neural Models [18.327960366321655]
本研究では,ビデオ中のスキャンパスを予測するために,ディープラーニングに基づくソーシャルキュー統合モデルを構築した。我々は,自由視聴条件下で観察された動的な社会シーンの視線に対するアプローチを評価した。結果は、すべての観察者のスキャンパスに基づいて訓練された単一の統一モデルが、個別に訓練されたモデルよりも同等以上のパフォーマンスを示すことを示している。
論文参考訳（メタデータ） (2024-05-05T13:15:11Z)
Semantic-Based Active Perception for Humanoid Visual Tasks with Foveal Sensors [49.99728312519117]
この研究の目的は、最近の意味に基づくアクティブな知覚モデルが、人間が定期的に行う視覚的なタスクをいかに正確に達成できるかを確立することである。このモデルは、現在のオブジェクト検出器が多数のオブジェクトクラスをローカライズし、分類し、複数の固定にまたがるシーンのセマンティック記述を更新する能力を利用する。シーン探索の課題では、セマンティック・ベースの手法は従来のサリエンシ・ベース・モデルよりも優れた性能を示す。
論文参考訳（メタデータ） (2024-04-16T18:15:57Z)
Predicting Visual Attention and Distraction During Visual Search Using Convolutional Neural Networks [2.7920304852537527]
視覚探索において,視覚的注意をモデル化し,観察者の注意を逸脱させる2つの手法を提案する。我々の最初のアプローチは、人間の目の視線密度マップを検索画像のピクセル上で予測するために、軽量な自由視度モデルに適応する。第2のアプローチはオブジェクトベースであり、視覚検索中の乱れや対象物を予測する。
論文参考訳（メタデータ） (2022-10-27T00:39:43Z)
Target-absent Human Attention [44.10971508325032]
探索終端問題に対処する最初のデータ駆動型計算モデルを提案する。我々は、新しい状態表現を用いて、視聴者が固定によって取得する内部知識を表現する。我々は,COCO-Search18データセット上での人的目標依存探索行動の予測における技術の現状を改善した。
論文参考訳（メタデータ） (2022-07-04T02:32:04Z)
SEAL: Self-supervised Embodied Active Learning using Exploration and 3D Consistency [122.18108118190334]
本稿では,SEAL(Self-Embodied Embodied Active Learning)というフレームワークを提案する。インターネットイメージ上で訓練された知覚モデルを使用して、積極的な探索ポリシーを学ぶ。我々は3Dセマンティックマップを用いて、行動と知覚の両方を、完全に自己管理された方法で学習する。
論文参考訳（メタデータ） (2021-12-02T06:26:38Z)
Modeling human visual search: A combined Bayesian searcher and saliency map approach for eye movement guidance in natural scenes [0.0]
そこで本稿では,従量性マップによる視覚検索を事前情報として統合したベイズモデルを提案する。視覚検索タスクにおける最初の2つの修正の予測において,最先端のサリエンシモデルが良好に機能することを示すが,その後,その性能は低下する。これは、サリエンシマップだけでボトムアップファーストインプレッションをモデル化できるが、トップダウンタスク情報が重要な場合、スキャンパスを説明するのに十分ではないことを示唆している。
論文参考訳（メタデータ） (2020-09-17T15:38:23Z)
Predicting Goal-directed Attention Control Using Inverse-Reinforcement Learning [25.721096184051724]
機械学習と心理的に意味のある報酬原理を用いて、ゴール指向の注意制御で使用される視覚的特徴を学習することができる。我々は4,366枚の画像(MS-COCO)のデータセットで、マイクロ波または時計のどちらかを探す人々から16,184個の固定品を収集した。我々は、この行動アノテートデータセットと逆強化学習(IRL)の機械学習手法を用いて、これらの2つの目標に対する目標固有報酬関数とポリシーを学習した。
論文参考訳（メタデータ） (2020-01-31T15:53:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。