Fugu-MT 論文翻訳(概要): Target-absent Human Attention

論文の概要: Target-absent Human Attention

arxiv url: http://arxiv.org/abs/2207.01166v1
Date: Mon, 4 Jul 2022 02:32:04 GMT
ステータス: 翻訳完了
システム内更新日: 2022-07-05 12:33:14.126798
Title: Target-absent Human Attention
Title（参考訳）: ターゲット・アブシスタント・ヒューマン・アテンション
Authors: Zhibo Yang, Sounak Mondal, Seoyoung Ahn, Gregory Zelinsky, Minh Hoai, Dimitris Samaras
Abstract要約: 探索終端問題に対処する最初のデータ駆動型計算モデルを提案する。我々は、新しい状態表現を用いて、視聴者が固定によって取得する内部知識を表現する。我々は,COCO-Search18データセット上での人的目標依存探索行動の予測における技術の現状を改善した。
参考スコア（独自算出の注目度）: 44.10971508325032
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The prediction of human gaze behavior is important for building human-computer interactive systems that can anticipate a user's attention. Computer vision models have been developed to predict the fixations made by people as they search for target objects. But what about when the image has no target? Equally important is to know how people search when they cannot find a target, and when they would stop searching. In this paper, we propose the first data-driven computational model that addresses the search-termination problem and predicts the scanpath of search fixations made by people searching for targets that do not appear in images. We model visual search as an imitation learning problem and represent the internal knowledge that the viewer acquires through fixations using a novel state representation that we call Foveated Feature Maps (FFMs). FFMs integrate a simulated foveated retina into a pretrained ConvNet that produces an in-network feature pyramid, all with minimal computational overhead. Our method integrates FFMs as the state representation in inverse reinforcement learning. Experimentally, we improve the state of the art in predicting human target-absent search behavior on the COCO-Search18 dataset
Abstract（参考訳）: 人間の視線行動の予測は、ユーザーの注意を予測できるヒューマンコンピュータ対話システムを構築する上で重要である。コンピュータビジョンモデルは、ターゲットオブジェクトを探索する際に人々が行う修正を予測するために開発された。しかし、画像にターゲットがない場合はどうだろう? 同様に重要なのは、ターゲットを見つけることができず、いつ検索をやめるのかを知ることだ。本稿では,画像に現れない対象を探索する者が行う探索固定のスキャンパスを予測し,探索終端問題に対処する最初のデータ駆動計算モデルを提案する。我々は,視覚探索を模倣学習問題としてモデル化し,foveated feature map (ffm) と呼ぶ新しい状態表現を用いて,視聴者が獲得する内部知識を表現する。 FFMは、シミュレーションされたフェーブされた網膜を事前訓練されたConvNetに統合する。逆強化学習における状態表現としてFFMを統合する。実験により,COCO-Search18データセット上での人的対象物探索行動の予測技術の改善について検討した。

関連論文リスト

Implicit Search Intent Recognition using EEG and Eye Tracking: Novel Dataset and Cross-User Prediction [21.59167760456658]
本稿では,脳波と視線追跡記録からの検索意図のクロスユーザー予測法を提案する。ユーザ1回の評価では84.5%の精度に達しています。
論文参考訳（メタデータ） (2025-08-03T17:27:32Z)
Human Scanpath Prediction in Target-Present Visual Search with Semantic-Foveal Bayesian Attention [49.99728312519117]
SemBA-FASTは、ターゲットの視覚検索における人間の視覚的注意を予測するためのトップダウンフレームワークである。我々は、COCO-Search18ベンチマークデータセット上でSemBA-FASTを評価し、その性能を他のスキャンパス予測モデルと比較した。これらの知見は、人間のような注意モデリングのためのセマンティック・フレーバー・確率的フレームワークの能力に関する貴重な知見を提供する。
論文参考訳（メタデータ） (2025-07-24T15:19:23Z)
Emergent Active Perception and Dexterity of Simulated Humanoids from Visual Reinforcement Learning [69.71072181304066]
本稿では,擬似ヒューマノイドを用いた視覚駆動全身制御フレームワークであるPerceptive Dexterous Control (PDC)を紹介する。 PDCは、タスク仕様のためのエゴセントリックなビジョンのみを運用し、ビジュアルキューによるオブジェクト検索、ターゲット配置、スキル選択を可能にする。強化学習によるスクラッチからのトレーニングは,能動探索などの創発的な行動を引き起こす可能性があることを示す。
論文参考訳（メタデータ） (2025-05-18T07:33:31Z)
A Data-Centric Revisit of Pre-Trained Vision Models for Robot Learning [67.72413262980272]
事前訓練された視覚モデル(PVM)は現代のロボティクスの基本であるが、その最適構成は定かではない。セマンティック・ボトルネックを導入してオブジェクト中心の表現を誘導する手法であるSlotMIMを開発した。提案手法は,画像認識,シーン理解,ロボット学習評価において,従来の作業よりも大幅に改善されている。
論文参考訳（メタデータ） (2025-03-10T06:18:31Z)
Human-Robot Collaborative Minimum Time Search through Sub-priors in Ant Colony Optimization [3.04478108783992]
本稿では,最小時間探索(MTS)課題を解決するため,ACOメタヒューリスティックの拡張を提案する。提案したモデルは2つの主要ブロックから構成される。第1のモデルは畳み込みニューラルネットワーク(CNN)で、オブジェクトがセグメント化された画像からどこにあるかという事前確率を提供する。 2つ目は、サブプライアのMTS-ACOアルゴリズム(SP-MTS-ACO)である。
論文参考訳（メタデータ） (2024-10-01T08:57:28Z)
OAT: Object-Level Attention Transformer for Gaze Scanpath Prediction [0.2796197251957245]
本稿では,OAT(Object-level Attention Transformer)を紹介する。 OATは人間のスキャンパスを予測し、散らかった邪魔者のシーンで対象物を検索する。我々は、Amazonの書籍カバーデータセットと、収集したビジュアル検索のための新しいデータセットに基づいて、OATを評価した。
論文参考訳（メタデータ） (2024-07-18T09:33:17Z)
Closely Interactive Human Reconstruction with Proxemics and Physics-Guided Adaption [64.07607726562841]
既存の人間再建アプローチは主に、正確なポーズの回復や侵入を避けることに焦点を当てている。本研究では,モノクロ映像から密に対話的な人間を再構築する作業に取り組む。本稿では,視覚情報の欠如を補うために,確率的行動や物理からの知識を活用することを提案する。
論文参考訳（メタデータ） (2024-04-17T11:55:45Z)
Predicting Visual Attention and Distraction During Visual Search Using Convolutional Neural Networks [2.7920304852537527]
視覚探索において,視覚的注意をモデル化し,観察者の注意を逸脱させる2つの手法を提案する。我々の最初のアプローチは、人間の目の視線密度マップを検索画像のピクセル上で予測するために、軽量な自由視度モデルに適応する。第2のアプローチはオブジェクトベースであり、視覚検索中の乱れや対象物を予測する。
論文参考訳（メタデータ） (2022-10-27T00:39:43Z)
MECCANO: A Multimodal Egocentric Dataset for Humans Behavior Understanding in the Industrial-like Domain [23.598727613908853]
本稿では,産業的な環境下での人間の行動理解を目的とした,エゴセントリックなビデオのデータセットMECCANOを提案する。マルチモダリティの特徴は、視線信号、深度マップ、RGBビデオとカスタムヘッドセットが同時に取得される点である。データセットは、人間の行動理解の文脈における基本的なタスクに対して、一人称視点から明示的にラベル付けされている。
論文参考訳（メタデータ） (2022-09-19T00:52:42Z)
TRiPOD: Human Trajectory and Pose Dynamics Forecasting in the Wild [77.59069361196404]
TRiPODは、グラフの注目ネットワークに基づいて身体のダイナミクスを予測する新しい方法です。実世界の課題を取り入れるために,各フレームで推定された身体関節が可視・視認可能かどうかを示す指標を学習する。評価の結果,TRiPODは,各軌道に特化して設計され,予測タスクに特化している。
論文参考訳（メタデータ） (2021-04-08T20:01:00Z)
What Can You Learn from Your Muscles? Learning Visual Representation from Human Interactions [50.435861435121915]
視覚のみの表現よりも優れた表現を学べるかどうかを調べるために,人間のインタラクションとアテンション・キューを用いている。実験の結果,我々の「音楽監督型」表現は,視覚のみの最先端手法であるMoCoよりも優れていた。
論文参考訳（メタデータ） (2020-10-16T17:46:53Z)
Predicting Goal-directed Human Attention Using Inverse Reinforcement Learning [44.774961463015245]
視覚探索においてヒトが使用する報酬関数とポリシーを学習するための最初の逆強化学習モデルを提案する。 IRLモデルをトレーニングし、評価するために、私たちはCOCO-Search18を作成しました。
論文参考訳（メタデータ） (2020-05-28T21:46:27Z)
Learning Human-Object Interaction Detection using Interaction Points [140.0200950601552]
本研究では,人間と物体の相互作用を直接検出する新しい完全畳み込み手法を提案する。我々のネットワークは相互作用点を予測し、その相互作用を直接ローカライズし、分類する。 V-COCOとHICO-DETの2つの人気のあるベンチマークで実験が行われる。
論文参考訳（メタデータ） (2020-03-31T08:42:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。