論文の概要: Target-absent Human Attention
- arxiv url: http://arxiv.org/abs/2207.01166v1
- Date: Mon, 4 Jul 2022 02:32:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-05 12:33:14.126798
- Title: Target-absent Human Attention
- Title(参考訳): ターゲット・アブシスタント・ヒューマン・アテンション
- Authors: Zhibo Yang, Sounak Mondal, Seoyoung Ahn, Gregory Zelinsky, Minh Hoai,
Dimitris Samaras
- Abstract要約: 探索終端問題に対処する最初のデータ駆動型計算モデルを提案する。
我々は、新しい状態表現を用いて、視聴者が固定によって取得する内部知識を表現する。
我々は,COCO-Search18データセット上での人的目標依存探索行動の予測における技術の現状を改善した。
- 参考スコア(独自算出の注目度): 44.10971508325032
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The prediction of human gaze behavior is important for building
human-computer interactive systems that can anticipate a user's attention.
Computer vision models have been developed to predict the fixations made by
people as they search for target objects. But what about when the image has no
target? Equally important is to know how people search when they cannot find a
target, and when they would stop searching. In this paper, we propose the first
data-driven computational model that addresses the search-termination problem
and predicts the scanpath of search fixations made by people searching for
targets that do not appear in images. We model visual search as an imitation
learning problem and represent the internal knowledge that the viewer acquires
through fixations using a novel state representation that we call Foveated
Feature Maps (FFMs). FFMs integrate a simulated foveated retina into a
pretrained ConvNet that produces an in-network feature pyramid, all with
minimal computational overhead. Our method integrates FFMs as the state
representation in inverse reinforcement learning. Experimentally, we improve
the state of the art in predicting human target-absent search behavior on the
COCO-Search18 dataset
- Abstract(参考訳): 人間の視線行動の予測は、ユーザーの注意を予測できるヒューマンコンピュータ対話システムを構築する上で重要である。
コンピュータビジョンモデルは、ターゲットオブジェクトを探索する際に人々が行う修正を予測するために開発された。
しかし、画像にターゲットがない場合はどうだろう?
同様に重要なのは、ターゲットを見つけることができず、いつ検索をやめるのかを知ることだ。
本稿では,画像に現れない対象を探索する者が行う探索固定のスキャンパスを予測し,探索終端問題に対処する最初のデータ駆動計算モデルを提案する。
我々は,視覚探索を模倣学習問題としてモデル化し,foveated feature map (ffm) と呼ぶ新しい状態表現を用いて,視聴者が獲得する内部知識を表現する。
FFMは、シミュレーションされたフェーブされた網膜を事前訓練されたConvNetに統合する。
逆強化学習における状態表現としてFFMを統合する。
実験により,COCO-Search18データセット上での人的対象物探索行動の予測技術の改善について検討した。
関連論文リスト
- Predicting Visual Attention and Distraction During Visual Search Using
Convolutional Neural Networks [2.7920304852537527]
視覚探索において,視覚的注意をモデル化し,観察者の注意を逸脱させる2つの手法を提案する。
我々の最初のアプローチは、人間の目の視線密度マップを検索画像のピクセル上で予測するために、軽量な自由視度モデルに適応する。
第2のアプローチはオブジェクトベースであり、視覚検索中の乱れや対象物を予測する。
論文 参考訳(メタデータ) (2022-10-27T00:39:43Z) - Target Features Affect Visual Search, A Study of Eye Fixations [2.7920304852537527]
視覚探索における被験者のパフォーマンスが,異なるパラメータによってどう影響されるかを検討する。
我々の研究では、より大きく偏心的なターゲットが、より少ない数の固定でより高速に見つかることが示されている。
論文 参考訳(メタデータ) (2022-09-28T01:53:16Z) - MECCANO: A Multimodal Egocentric Dataset for Humans Behavior
Understanding in the Industrial-like Domain [23.598727613908853]
本稿では,産業的な環境下での人間の行動理解を目的とした,エゴセントリックなビデオのデータセットMECCANOを提案する。
マルチモダリティの特徴は、視線信号、深度マップ、RGBビデオとカスタムヘッドセットが同時に取得される点である。
データセットは、人間の行動理解の文脈における基本的なタスクに対して、一人称視点から明示的にラベル付けされている。
論文 参考訳(メタデータ) (2022-09-19T00:52:42Z) - TRiPOD: Human Trajectory and Pose Dynamics Forecasting in the Wild [77.59069361196404]
TRiPODは、グラフの注目ネットワークに基づいて身体のダイナミクスを予測する新しい方法です。
実世界の課題を取り入れるために,各フレームで推定された身体関節が可視・視認可能かどうかを示す指標を学習する。
評価の結果,TRiPODは,各軌道に特化して設計され,予測タスクに特化している。
論文 参考訳(メタデータ) (2021-04-08T20:01:00Z) - What Can You Learn from Your Muscles? Learning Visual Representation
from Human Interactions [50.435861435121915]
視覚のみの表現よりも優れた表現を学べるかどうかを調べるために,人間のインタラクションとアテンション・キューを用いている。
実験の結果,我々の「音楽監督型」表現は,視覚のみの最先端手法であるMoCoよりも優れていた。
論文 参考訳(メタデータ) (2020-10-16T17:46:53Z) - Modeling human visual search: A combined Bayesian searcher and saliency
map approach for eye movement guidance in natural scenes [0.0]
そこで本稿では,従量性マップによる視覚検索を事前情報として統合したベイズモデルを提案する。
視覚検索タスクにおける最初の2つの修正の予測において,最先端のサリエンシモデルが良好に機能することを示すが,その後,その性能は低下する。
これは、サリエンシマップだけでボトムアップファーストインプレッションをモデル化できるが、トップダウンタスク情報が重要な場合、スキャンパスを説明するのに十分ではないことを示唆している。
論文 参考訳(メタデータ) (2020-09-17T15:38:23Z) - Predicting Goal-directed Human Attention Using Inverse Reinforcement
Learning [44.774961463015245]
視覚探索においてヒトが使用する報酬関数とポリシーを学習するための最初の逆強化学習モデルを提案する。
IRLモデルをトレーニングし、評価するために、私たちはCOCO-Search18を作成しました。
論文 参考訳(メタデータ) (2020-05-28T21:46:27Z) - Self-Supervised Viewpoint Learning From Image Collections [116.56304441362994]
本稿では,解析・合成パラダイムを取り入れた新たな学習フレームワークを提案する。
提案手法は,人間の顔,車,バス,電車など,複数の対象カテゴリに対して,完全に教師されたアプローチに対して競争力を発揮することを示す。
論文 参考訳(メタデータ) (2020-04-03T22:01:41Z) - Learning Human-Object Interaction Detection using Interaction Points [140.0200950601552]
本研究では,人間と物体の相互作用を直接検出する新しい完全畳み込み手法を提案する。
我々のネットワークは相互作用点を予測し、その相互作用を直接ローカライズし、分類する。
V-COCOとHICO-DETの2つの人気のあるベンチマークで実験が行われる。
論文 参考訳(メタデータ) (2020-03-31T08:42:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。