論文の概要: Target-absent Human Attention
- arxiv url: http://arxiv.org/abs/2207.01166v1
- Date: Mon, 4 Jul 2022 02:32:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-05 12:33:14.126798
- Title: Target-absent Human Attention
- Title(参考訳): ターゲット・アブシスタント・ヒューマン・アテンション
- Authors: Zhibo Yang, Sounak Mondal, Seoyoung Ahn, Gregory Zelinsky, Minh Hoai,
Dimitris Samaras
- Abstract要約: 探索終端問題に対処する最初のデータ駆動型計算モデルを提案する。
我々は、新しい状態表現を用いて、視聴者が固定によって取得する内部知識を表現する。
我々は,COCO-Search18データセット上での人的目標依存探索行動の予測における技術の現状を改善した。
- 参考スコア(独自算出の注目度): 44.10971508325032
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The prediction of human gaze behavior is important for building
human-computer interactive systems that can anticipate a user's attention.
Computer vision models have been developed to predict the fixations made by
people as they search for target objects. But what about when the image has no
target? Equally important is to know how people search when they cannot find a
target, and when they would stop searching. In this paper, we propose the first
data-driven computational model that addresses the search-termination problem
and predicts the scanpath of search fixations made by people searching for
targets that do not appear in images. We model visual search as an imitation
learning problem and represent the internal knowledge that the viewer acquires
through fixations using a novel state representation that we call Foveated
Feature Maps (FFMs). FFMs integrate a simulated foveated retina into a
pretrained ConvNet that produces an in-network feature pyramid, all with
minimal computational overhead. Our method integrates FFMs as the state
representation in inverse reinforcement learning. Experimentally, we improve
the state of the art in predicting human target-absent search behavior on the
COCO-Search18 dataset
- Abstract(参考訳): 人間の視線行動の予測は、ユーザーの注意を予測できるヒューマンコンピュータ対話システムを構築する上で重要である。
コンピュータビジョンモデルは、ターゲットオブジェクトを探索する際に人々が行う修正を予測するために開発された。
しかし、画像にターゲットがない場合はどうだろう?
同様に重要なのは、ターゲットを見つけることができず、いつ検索をやめるのかを知ることだ。
本稿では,画像に現れない対象を探索する者が行う探索固定のスキャンパスを予測し,探索終端問題に対処する最初のデータ駆動計算モデルを提案する。
我々は,視覚探索を模倣学習問題としてモデル化し,foveated feature map (ffm) と呼ぶ新しい状態表現を用いて,視聴者が獲得する内部知識を表現する。
FFMは、シミュレーションされたフェーブされた網膜を事前訓練されたConvNetに統合する。
逆強化学習における状態表現としてFFMを統合する。
実験により,COCO-Search18データセット上での人的対象物探索行動の予測技術の改善について検討した。
関連論文リスト
- Human-Robot Collaborative Minimum Time Search through Sub-priors in Ant Colony Optimization [3.04478108783992]
本稿では,最小時間探索(MTS)課題を解決するため,ACOメタヒューリスティックの拡張を提案する。
提案したモデルは2つの主要ブロックから構成される。第1のモデルは畳み込みニューラルネットワーク(CNN)で、オブジェクトがセグメント化された画像からどこにあるかという事前確率を提供する。
2つ目は、サブプライアのMTS-ACOアルゴリズム(SP-MTS-ACO)である。
論文 参考訳(メタデータ) (2024-10-01T08:57:28Z) - OAT: Object-Level Attention Transformer for Gaze Scanpath Prediction [0.2796197251957245]
本稿では,OAT(Object-level Attention Transformer)を紹介する。
OATは人間のスキャンパスを予測し、散らかった邪魔者のシーンで対象物を検索する。
我々は、Amazonの書籍カバーデータセットと、収集したビジュアル検索のための新しいデータセットに基づいて、OATを評価した。
論文 参考訳(メタデータ) (2024-07-18T09:33:17Z) - Closely Interactive Human Reconstruction with Proxemics and Physics-Guided Adaption [64.07607726562841]
既存の人間再建アプローチは主に、正確なポーズの回復や侵入を避けることに焦点を当てている。
本研究では,モノクロ映像から密に対話的な人間を再構築する作業に取り組む。
本稿では,視覚情報の欠如を補うために,確率的行動や物理からの知識を活用することを提案する。
論文 参考訳(メタデータ) (2024-04-17T11:55:45Z) - Predicting Visual Attention and Distraction During Visual Search Using
Convolutional Neural Networks [2.7920304852537527]
視覚探索において,視覚的注意をモデル化し,観察者の注意を逸脱させる2つの手法を提案する。
我々の最初のアプローチは、人間の目の視線密度マップを検索画像のピクセル上で予測するために、軽量な自由視度モデルに適応する。
第2のアプローチはオブジェクトベースであり、視覚検索中の乱れや対象物を予測する。
論文 参考訳(メタデータ) (2022-10-27T00:39:43Z) - MECCANO: A Multimodal Egocentric Dataset for Humans Behavior
Understanding in the Industrial-like Domain [23.598727613908853]
本稿では,産業的な環境下での人間の行動理解を目的とした,エゴセントリックなビデオのデータセットMECCANOを提案する。
マルチモダリティの特徴は、視線信号、深度マップ、RGBビデオとカスタムヘッドセットが同時に取得される点である。
データセットは、人間の行動理解の文脈における基本的なタスクに対して、一人称視点から明示的にラベル付けされている。
論文 参考訳(メタデータ) (2022-09-19T00:52:42Z) - TRiPOD: Human Trajectory and Pose Dynamics Forecasting in the Wild [77.59069361196404]
TRiPODは、グラフの注目ネットワークに基づいて身体のダイナミクスを予測する新しい方法です。
実世界の課題を取り入れるために,各フレームで推定された身体関節が可視・視認可能かどうかを示す指標を学習する。
評価の結果,TRiPODは,各軌道に特化して設計され,予測タスクに特化している。
論文 参考訳(メタデータ) (2021-04-08T20:01:00Z) - What Can You Learn from Your Muscles? Learning Visual Representation
from Human Interactions [50.435861435121915]
視覚のみの表現よりも優れた表現を学べるかどうかを調べるために,人間のインタラクションとアテンション・キューを用いている。
実験の結果,我々の「音楽監督型」表現は,視覚のみの最先端手法であるMoCoよりも優れていた。
論文 参考訳(メタデータ) (2020-10-16T17:46:53Z) - Predicting Goal-directed Human Attention Using Inverse Reinforcement
Learning [44.774961463015245]
視覚探索においてヒトが使用する報酬関数とポリシーを学習するための最初の逆強化学習モデルを提案する。
IRLモデルをトレーニングし、評価するために、私たちはCOCO-Search18を作成しました。
論文 参考訳(メタデータ) (2020-05-28T21:46:27Z) - Learning Human-Object Interaction Detection using Interaction Points [140.0200950601552]
本研究では,人間と物体の相互作用を直接検出する新しい完全畳み込み手法を提案する。
我々のネットワークは相互作用点を予測し、その相互作用を直接ローカライズし、分類する。
V-COCOとHICO-DETの2つの人気のあるベンチマークで実験が行われる。
論文 参考訳(メタデータ) (2020-03-31T08:42:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。