論文の概要: Eyes on Target: Gaze-Aware Object Detection in Egocentric Video
- arxiv url: http://arxiv.org/abs/2511.01237v1
- Date: Mon, 03 Nov 2025 05:21:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:27.126155
- Title: Eyes on Target: Gaze-Aware Object Detection in Egocentric Video
- Title(参考訳): 目標の目:エゴセントリックビデオにおける視線認識物体検出
- Authors: Vishakha Lall, Yisi Liu,
- Abstract要約: 我々は、エゴセントリックビデオのための新しい奥行き認識および視線誘導オブジェクト検出フレームワークであるEyes on Targetを提案する。
提案手法は視覚変換器(ViT)の注意機構に視線由来の特徴を注入し,空間的特徴選択を人間に適応した領域へ効果的にバイアスする。
我々は,人間の視覚的注意が課題評価に重要であるエゴセントリック・シミュレーター・データセット上で本手法の有効性を検証した。
- 参考スコア(独自算出の注目度): 1.3320917259299652
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Human gaze offers rich supervisory signals for understanding visual attention in complex visual environments. In this paper, we propose Eyes on Target, a novel depth-aware and gaze-guided object detection framework designed for egocentric videos. Our approach injects gaze-derived features into the attention mechanism of a Vision Transformer (ViT), effectively biasing spatial feature selection toward human-attended regions. Unlike traditional object detectors that treat all regions equally, our method emphasises viewer-prioritised areas to enhance object detection. We validate our method on an egocentric simulator dataset where human visual attention is critical for task assessment, illustrating its potential in evaluating human performance in simulation scenarios. We evaluate the effectiveness of our gaze-integrated model through extensive experiments and ablation studies, demonstrating consistent gains in detection accuracy over gaze-agnostic baselines on both the custom simulator dataset and public benchmarks, including Ego4D Ego-Motion and Ego-CH-Gaze datasets. To interpret model behaviour, we also introduce a gaze-aware attention head importance metric, revealing how gaze cues modulate transformer attention dynamics.
- Abstract(参考訳): 人間の視線は、複雑な視覚環境における視覚的注意を理解するための豊富な監視信号を提供する。
本稿では,エゴセントリックビデオのための新しい深度認識・視線誘導型物体検出フレームワークであるEyes on Targetを提案する。
提案手法は視覚変換器(ViT)の注意機構に視線由来の特徴を注入し,空間的特徴選択を人間に適応した領域へ効果的にバイアスする。
全ての領域を均等に扱う従来の物体検出装置とは異なり、本手法は対象検出を強化するために視聴者優先の領域を強調する。
本研究では,課題評価に人間の視覚的注意が不可欠であるエゴセントリック・シミュレーター・データセットを用いて,シミュレーションシナリオにおける人的パフォーマンス評価の可能性について検証する。
Ego4D Ego-MotionデータセットやEgo-CH-Gazeデータセットを含む,カスタムシミュレータデータセットと公開ベンチマークの両方において,視線に依存しないベースラインに対する検出精度が一貫した向上を示した。
モデル行動の解釈には,視線に注意を向ける指標も導入し,視線がトランスフォーマーの注意をどう調節するかを明らかにした。
関連論文リスト
- HAGI++: Head-Assisted Gaze Imputation and Generation [19.626054627997778]
本稿では,マルチモーダル拡散に基づく視線データ計算手法であるHAGI++を紹介する。
頭と眼の動きの関連性を利用するために、統合された頭向きセンサーを使用している。
本手法は,より完全で正確な視線記録を現実の環境で行う方法である。
論文 参考訳(メタデータ) (2025-11-04T10:51:34Z) - Gaze-VLM:Bridging Gaze and VLMs through Attention Regularization for Egocentric Understanding [7.281396624646809]
視線は注意、短期的意図、将来の行動に関する貴重な手がかりを提供する。
本稿では,2つの重要な自我中心的理解タスクに対して,VLMを強化した視線規則化フレームワークを提案する。
本稿では,人間の視線とモデル焦点を一致させる視線調整型注意機構を提案する。
論文 参考訳(メタデータ) (2025-10-24T11:33:03Z) - Enhancing Saliency Prediction in Monitoring Tasks: The Role of Visual Highlights [4.0361765428523135]
我々は、ハイライト条件における視覚的注意の変化を推測する新しいサリエンシモデルを開発した。
本研究は,視覚的ハイライトがユーザの注意力を高める効果を示し,これらの手がかりを有能性予測モデルに組み込むことの可能性を示した。
論文 参考訳(メタデータ) (2024-05-15T20:43:57Z) - GazeFusion: Saliency-Guided Image Generation [50.37783903347613]
拡散モデルは、テキストプロンプトだけを前提として、前例のない画像生成能力を提供する。
本稿では,人間の視覚的注意機構のデータ先行を生成プロセスに組み込むためのサリエンシ誘導フレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-16T21:01:35Z) - Enhancing HOI Detection with Contextual Cues from Large Vision-Language Models [56.257840490146]
ConCueは、HOI検出における視覚的特徴抽出を改善するための新しいアプローチである。
コンテクストキューをインスタンスと相互作用検出器の両方に統合するマルチトウワーアーキテクチャを用いたトランスフォーマーベースの特徴抽出モジュールを開発した。
論文 参考訳(メタデータ) (2023-11-26T09:11:32Z) - CLERA: A Unified Model for Joint Cognitive Load and Eye Region Analysis
in the Wild [18.79132232751083]
目領域のダイナミックスをリアルタイムに分析することで、人間の視覚的注意の割り当てを監視し、精神状態を推定することができる。
共同学習フレームワークにおいて,正確なキーポイント検出と時間追跡を実現するCLERAを提案する。
また,共同瞳孔,眼開放性,ランドマークアノテーションを用いた30万人の顔の大規模データセットも導入した。
論文 参考訳(メタデータ) (2023-06-26T21:20:23Z) - Top-Down Visual Attention from Analysis by Synthesis [87.47527557366593]
我々は、古典的分析・合成(AbS)の視覚的視点からトップダウンの注意を考察する。
本稿では,AbSを変動的に近似したトップダウン変調ViTモデルであるAbSViT(Analytic-by-Synthesis Vision Transformer)を提案する。
論文 参考訳(メタデータ) (2023-03-23T05:17:05Z) - GIMO: Gaze-Informed Human Motion Prediction in Context [75.52839760700833]
本研究では、高品質なボディポーズシーケンス、シーンスキャン、目視によるエゴ中心のビューを提供する大規模な人体動作データセットを提案する。
私たちのデータ収集は特定のシーンに縛られません。
視線の全可能性を実現するために,視線と運動枝の双方向通信を可能にする新しいネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-04-20T13:17:39Z) - TRiPOD: Human Trajectory and Pose Dynamics Forecasting in the Wild [77.59069361196404]
TRiPODは、グラフの注目ネットワークに基づいて身体のダイナミクスを予測する新しい方法です。
実世界の課題を取り入れるために,各フレームで推定された身体関節が可視・視認可能かどうかを示す指標を学習する。
評価の結果,TRiPODは,各軌道に特化して設計され,予測タスクに特化している。
論文 参考訳(メタデータ) (2021-04-08T20:01:00Z) - Integrating Human Gaze into Attention for Egocentric Activity
Recognition [40.517438760096056]
本研究では,人間の視線を時間的注意に組み込むことにより,自我中心の行動認識を実現するための効果的な確率的アプローチを提案する。
位置は固定点を不確かさをモデル化するために構造化された離散潜在変数として表現する。
予測された視線位置は、認識性能を向上させるための情報的注意手段を提供するために使用される。
論文 参考訳(メタデータ) (2020-11-08T08:02:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。