論文の概要: ARGaze: Autoregressive Transformers for Online Egocentric Gaze Estimation
- arxiv url: http://arxiv.org/abs/2602.05132v1
- Date: Wed, 04 Feb 2026 23:33:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:08.667271
- Title: ARGaze: Autoregressive Transformers for Online Egocentric Gaze Estimation
- Title(参考訳): ARGaze: オンラインEgocentric Gaze推定のための自動回帰変換器
- Authors: Jia Li, Wenjie Zhao, Shijian Deng, Bolin Lai, Yuheng Wu, RUijia Chen, Jon E. Froehlich, Yuhang Zhao, Yapeng Tian,
- Abstract要約: エゴセントリックな視線推定は、カメラ装着者が過去と現在のフレームのみを使用して、ファースト・パーソン・ビデオから見ている場所を予測する。
本稿では,視線推定を逐次予測として再構成するARGazeを提案する。
オンライン評価では,複数のエゴセントリックなベンチマークで最先端のパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 46.30718574969354
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Online egocentric gaze estimation predicts where a camera wearer is looking from first-person video using only past and current frames, a task essential for augmented reality and assistive technologies. Unlike third-person gaze estimation, this setting lacks explicit head or eye signals, requiring models to infer current visual attention from sparse, indirect cues such as hand-object interactions and salient scene content. We observe that gaze exhibits strong temporal continuity during goal-directed activities: knowing where a person looked recently provides a powerful prior for predicting where they look next. Inspired by vision-conditioned autoregressive decoding in vision-language models, we propose ARGaze, which reformulates gaze estimation as sequential prediction: at each timestep, a transformer decoder predicts current gaze by conditioning on (i) current visual features and (ii) a fixed-length Gaze Context Window of recent gaze target estimates. This design enforces causality and enables bounded-resource streaming inference. We achieve state-of-the-art performance across multiple egocentric benchmarks under online evaluation, with extensive ablations validating that autoregressive modeling with bounded gaze history is critical for robust prediction. We will release our source code and pre-trained models.
- Abstract(参考訳): オンラインの自我中心の視線推定は、カメラ装着者が過去と現在のフレームのみを使用して、一対一のビデオから見ている場所を予測する。
第三者の視線推定とは異なり、この設定には明示的な頭部や眼信号がなく、現在の視覚的注意をスパースから推定する必要がある。
我々は、視線がゴール指向活動中に強い時間的連続性を示すことを観察する。
視覚言語モデルにおける視覚条件付き自己回帰復号法にインスパイアされたARGazeを提案する。
(i)現在の視覚的特徴及び特徴
(ii)近年の視線目標推定値の固定長Gazeコンテキストウィンドウ。
この設計は因果関係を強制し、バウンダリリソースのストリーミング推論を可能にする。
我々は,有界視線履歴を用いた自己回帰モデリングが堅牢な予測に不可欠であることを検証し,オンライン評価の下で複数のエゴセントリックなベンチマークで最先端のパフォーマンスを実現する。
ソースコードと事前トレーニングされたモデルをリリースします。
関連論文リスト
- Learning Spatio-Temporal Feature Representations for Video-Based Gaze Estimation [50.05866669110754]
映像に基づく視線推定手法は、複数の画像フレームから人間の視線の本質的な時間的ダイナミクスを捉えることを目的としている。
本稿では、CNNバックボーンと専用のチャンネルアテンションと自己注意モジュールを組み合わせたモデルであるSpatio-Temporal Gaze Network(ST-Gaze)を提案する。
そこで本研究では,ST-Gazeが個人固有の適応を伴わずとも最先端の性能を達成することを示す。
論文 参考訳(メタデータ) (2025-12-19T15:15:58Z) - StreamGaze: Gaze-Guided Temporal Reasoning and Proactive Understanding in Streaming Videos [128.45606644157]
StreamGazeは、MLLMがストリーミングビデオにおける時間的および前向きな推論において、いかに効果的に視線を使用するかを評価する最初のベンチマークである。
我々は、エゴセントリックなビデオと生の視線軌跡を整列する視線ビデオQA生成パイプラインを開発した。
我々は、最先端のMLLMと人的パフォーマンスの相違をかなり観察する。
論文 参考訳(メタデータ) (2025-12-01T14:15:44Z) - Gaze-VLM:Bridging Gaze and VLMs through Attention Regularization for Egocentric Understanding [7.281396624646809]
視線は注意、短期的意図、将来の行動に関する貴重な手がかりを提供する。
本稿では,2つの重要な自我中心的理解タスクに対して,VLMを強化した視線規則化フレームワークを提案する。
本稿では,人間の視線とモデル焦点を一致させる視線調整型注意機構を提案する。
論文 参考訳(メタデータ) (2025-10-24T11:33:03Z) - EgoTraj-Bench: Towards Robust Trajectory Prediction Under Ego-view Noisy Observations [28.981146701183448]
我々はEgoTraj-Benchを紹介した。EgoTraj-Benchは、ノイズの多い、一対一の視覚履歴を、クリーンで鳥の目に見える将来の軌跡に根拠付ける最初の実世界のベンチマークだ。
本稿では,バイフローモデルを提案する。バイフローは,過去の観測と将来の動きの予測を同時に行う。
BiFlowは最先端のパフォーマンスを実現し、minADEとminFDEを平均で10~15%削減し、優れた堅牢性を示す。
論文 参考訳(メタデータ) (2025-10-01T01:30:13Z) - Ego-centric Predictive Model Conditioned on Hand Trajectories [52.531681772560724]
自我中心のシナリオでは、次の行動とその視覚的結果の両方を予測することは、人間と物体の相互作用を理解するために不可欠である。
我々は,エゴセントリックなシナリオにおける行動と視覚的未来を共同でモデル化する,統合された2段階予測フレームワークを提案する。
我々のアプローチは、エゴセントリックな人間の活動理解とロボット操作の両方を扱うために設計された最初の統一モデルである。
論文 参考訳(メタデータ) (2025-08-27T13:09:55Z) - Predicting Long-horizon Futures by Conditioning on Geometry and Time [49.86180975196375]
我々は,過去を前提とした将来のセンサ観測の課題を探求する。
マルチモーダリティを扱える画像拡散モデルの大規模事前学習を活用する。
我々は、屋内と屋外のシーンにまたがる多様なビデオのセットについて、ビデオ予測のためのベンチマークを作成する。
論文 参考訳(メタデータ) (2024-04-17T16:56:31Z) - Unifying Top-down and Bottom-up Scanpath Prediction Using Transformers [40.27531644565077]
本研究では,注意制御の両形態を予測する単一モデルであるヒューマン・アテンション・トランスフォーマー(HAT)を提案する。
HATは、有効性、一般性、解釈可能性を強調する、計算的注意の新たな標準を定めている。
論文 参考訳(メタデータ) (2023-03-16T15:13:09Z) - Unsupervised Gaze Prediction in Egocentric Videos by Energy-based
Surprise Modeling [6.294759639481189]
エゴセントリックな認識は、没入型コンピューティングデバイスの出現によって急速に成長してきた。
人間の視線予測は、自我中心の動画を分析する上で重要な問題である。
我々は,エゴセントリックな視線予測タスクにおいて,教師付き深層学習モデルの一般化能力を定量的に分析する。
論文 参考訳(メタデータ) (2020-01-30T21:52:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。