論文の概要: Decoding Attention from Gaze: A Benchmark Dataset and End-to-End Models
- arxiv url: http://arxiv.org/abs/2211.10966v1
- Date: Sun, 20 Nov 2022 12:24:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-22 18:44:46.664702
- Title: Decoding Attention from Gaze: A Benchmark Dataset and End-to-End Models
- Title(参考訳): Gazeからのアテンションのデコード:ベンチマークデータセットとエンドツーエンドモデル
- Authors: Karan Uppal, Jaeah Kim, Shashank Singh
- Abstract要約: 視線追跡は、生態学的に有効な環境において、人間の認知に関する豊富な行動データを提供する可能性がある。
本稿では,コンピュータビジョンツールを用いて,時間とともに参加者の過度な視覚的注意の軌跡を評価する作業である「アテンション・デコーディング」について検討する。
- 参考スコア(独自算出の注目度): 6.642042615005632
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Eye-tracking has potential to provide rich behavioral data about human
cognition in ecologically valid environments. However, analyzing this rich data
is often challenging. Most automated analyses are specific to simplistic
artificial visual stimuli with well-separated, static regions of interest,
while most analyses in the context of complex visual stimuli, such as most
natural scenes, rely on laborious and time-consuming manual annotation. This
paper studies using computer vision tools for "attention decoding", the task of
assessing the locus of a participant's overt visual attention over time. We
provide a publicly available Multiple Object Eye-Tracking (MOET) dataset,
consisting of gaze data from participants tracking specific objects, annotated
with labels and bounding boxes, in crowded real-world videos, for training and
evaluating attention decoding algorithms. We also propose two end-to-end deep
learning models for attention decoding and compare these to state-of-the-art
heuristic methods.
- Abstract(参考訳): 視線追跡は、生態学的に有効な環境で人間の認知に関する豊富な行動データを提供する可能性がある。
しかし、このリッチなデータを分析することはしばしば困難である。
ほとんどの自動分析は、高度に分離された静的な領域を持つ単純人工視覚刺激に特有であり、多くの自然なシーンのような複雑な視覚刺激の文脈におけるほとんどの分析は、手間と時間を要するマニュアルアノテーションに依存している。
本稿では,コンピュータビジョンツールを用いて,時間とともに参加者の過度な視覚的注意の軌跡を評価する「アテンションデコーディング」について検討する。
このデータセットは、特定のオブジェクトをトラッキングし、ラベルやバウンディングボックスをアノテートした参加者の視線データからなり、混み合った実世界のビデオでアテンションデコーディングアルゴリズムのトレーニングと評価を行う。
また,アテンションデコードのための2つのエンドツーエンドディープラーニングモデルを提案し,それらを最先端ヒューリスティック手法と比較する。
関連論文リスト
- Gaze2AOI: Open Source Deep-learning Based System for Automatic Area of Interest Annotation with Eye Tracking Data [0.0]
本稿では,関心領域の自動アノテート・ラベリング(AOIs)によるビデオストリームの拡張により,ユーザの行動と注意の分析を強化する新しい手法を提案する。
このツールは、最初の修正までの時間、居住時間、AOIリビジットの頻度などの重要な機能を提供する。
論文 参考訳(メタデータ) (2024-11-20T14:17:23Z) - Exploiting Contextual Uncertainty of Visual Data for Efficient Training of Deep Models [0.65268245109828]
アクティブラーニングCDALにおける文脈多様性の概念を導入する。
モデルバイアスを低減するために、文脈的に公正なデータをキュレートするデータ修復アルゴリズムを提案する。
我々は、野生生物カメラトラップ画像の画像検索システムと、質の悪い農村道路に対する信頼性の高い警告システムの開発に取り組んでいる。
論文 参考訳(メタデータ) (2024-11-04T09:43:33Z) - I-MPN: Inductive Message Passing Network for Efficient Human-in-the-Loop Annotation of Mobile Eye Tracking Data [4.487146086221174]
本稿では,移動眼球追跡設定における物体の自動認識のための新しい人間中心学習アルゴリズムを提案する。
提案手法は,オブジェクト検出器と空間的関係を考慮した誘導型メッセージパッシングネットワーク(I-MPN)をシームレスに統合し,ノードプロファイル情報を活用し,オブジェクト相関を捉える。
論文 参考訳(メタデータ) (2024-06-10T13:08:31Z) - Semantic-Based Active Perception for Humanoid Visual Tasks with Foveal Sensors [49.99728312519117]
この研究の目的は、最近の意味に基づくアクティブな知覚モデルが、人間が定期的に行う視覚的なタスクをいかに正確に達成できるかを確立することである。
このモデルは、現在のオブジェクト検出器が多数のオブジェクトクラスをローカライズし、分類し、複数の固定にまたがるシーンのセマンティック記述を更新する能力を利用する。
シーン探索の課題では、セマンティック・ベースの手法は従来のサリエンシ・ベース・モデルよりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-04-16T18:15:57Z) - A Deep Learning Approach for the Segmentation of Electroencephalography
Data in Eye Tracking Applications [56.458448869572294]
脳波データの時系列セグメンテーションのための新しいフレームワークDETRtimeを紹介する。
エンドツーエンドのディープラーニングベースのフレームワークは、コンピュータビジョンの進歩を前面に立たせています。
我々のモデルは脳波睡眠ステージセグメンテーションのタスクにおいてよく一般化される。
論文 参考訳(メタデータ) (2022-06-17T10:17:24Z) - Finding Facial Forgery Artifacts with Parts-Based Detectors [73.08584805913813]
顔の個々の部分に焦点を絞った一連の偽造検知システムを設計する。
これらの検出器を用いて、FaceForensics++、Celeb-DF、Facebook Deepfake Detection Challengeデータセットの詳細な実験分析を行う。
論文 参考訳(メタデータ) (2021-09-21T16:18:45Z) - Visual Distant Supervision for Scene Graph Generation [66.10579690929623]
シーングラフモデルは通常、大量のラベル付きデータを人間のアノテーションで教師付き学習する必要がある。
本研究では,人間ラベルデータを用いずにシーングラフモデルを訓練できる視覚関係学習の新しいパラダイムである視覚遠方監視を提案する。
包括的な実験結果から、我々の遠隔監視モデルは、弱い監督と半監督のベースラインよりも優れています。
論文 参考訳(メタデータ) (2021-03-29T06:35:24Z) - What Can You Learn from Your Muscles? Learning Visual Representation
from Human Interactions [50.435861435121915]
視覚のみの表現よりも優れた表現を学べるかどうかを調べるために,人間のインタラクションとアテンション・キューを用いている。
実験の結果,我々の「音楽監督型」表現は,視覚のみの最先端手法であるMoCoよりも優れていた。
論文 参考訳(メタデータ) (2020-10-16T17:46:53Z) - Co-training for On-board Deep Object Detection [0.0]
人間のラベル付きバウンディングボックスを頼りにすることにより、最高のディープビジョンベースのオブジェクト検出器を教師付きで訓練する。
共同学習は、未ラベル画像における自己ラベルオブジェクトの半教師付き学習手法である。
我々は、協調学習がオブジェクトのラベル付けを緩和し、タスクに依存しないドメイン適応と単独で作業するためのパラダイムであることを示す。
論文 参考訳(メタデータ) (2020-08-12T19:08:59Z) - Spatio-Temporal Graph for Video Captioning with Knowledge Distillation [50.034189314258356]
空間と時間におけるオブジェクトの相互作用を利用したビデオキャプションのためのグラフモデルを提案する。
我々のモデルは解釈可能なリンクを構築し、明示的な視覚的グラウンドを提供することができる。
オブジェクト数の変動による相関を回避するため,オブジェクト認識型知識蒸留機構を提案する。
論文 参考訳(メタデータ) (2020-03-31T03:58:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。