論文の概要: Gaze Beyond the Frame: Forecasting Egocentric 3D Visual Span
- arxiv url: http://arxiv.org/abs/2511.18470v1
- Date: Sun, 23 Nov 2025 14:37:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:24.855055
- Title: Gaze Beyond the Frame: Forecasting Egocentric 3D Visual Span
- Title(参考訳): Gaze Beyond the Frame:エゴセントリックな3Dビジュアルスパンの予測
- Authors: Heeseung Yun, Joonil Na, Jaeyeon Kim, Calvin Murdock, Gunhee Kim,
- Abstract要約: EgoSpanLiftは、2次元画像平面から3次元シーンへ、エゴセントリックなビジュアルスパン予測を変換する手法である。
また、生のエゴセントリックなデータからベンチマークをキュレートし、3Dビジュアルスパン予測のための364.6Kサンプルを用いたテストベッドを作成します。
- 参考スコア(独自算出の注目度): 50.60002620855774
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: People continuously perceive and interact with their surroundings based on underlying intentions that drive their exploration and behaviors. While research in egocentric user and scene understanding has focused primarily on motion and contact-based interaction, forecasting human visual perception itself remains less explored despite its fundamental role in guiding human actions and its implications for AR/VR and assistive technologies. We address the challenge of egocentric 3D visual span forecasting, predicting where a person's visual perception will focus next within their three-dimensional environment. To this end, we propose EgoSpanLift, a novel method that transforms egocentric visual span forecasting from 2D image planes to 3D scenes. EgoSpanLift converts SLAM-derived keypoints into gaze-compatible geometry and extracts volumetric visual span regions. We further combine EgoSpanLift with 3D U-Net and unidirectional transformers, enabling spatio-temporal fusion to efficiently predict future visual span in the 3D grid. In addition, we curate a comprehensive benchmark from raw egocentric multisensory data, creating a testbed with 364.6K samples for 3D visual span forecasting. Our approach outperforms competitive baselines for egocentric 2D gaze anticipation and 3D localization while achieving comparable results even when projected back onto 2D image planes without additional 2D-specific training.
- Abstract(参考訳): 人々は、探索と行動を促進する基本的な意図に基づいて、周囲を継続的に知覚し、相互作用します。
自我中心のユーザとシーン理解の研究は、主に動きと接触に基づくインタラクションに焦点を当てているが、人間の視覚的知覚そのものを予測することは、人間の行動を導く上での基本的な役割と、AR/VRおよび補助技術へのその影響にもかかわらず、まだ研究されていない。
本研究では,自己中心型3次元視覚スパン予測の課題に対処し,人間の視覚知覚が次の3次元環境に集中する場所を予測する。
この目的のために,エゴセントリックな視覚空間予測を2次元画像平面から3次元シーンに変換するEgoSpanLiftを提案する。
EgoSpanLiftはSLAM由来のキーポイントを視線互換の幾何学に変換し、ボリュームビジュアルスパン領域を抽出する。
さらに、EgoSpanLiftと3D U-Netと一方向トランスフォーマーを組み合わせることで、時空間融合により、3Dグリッドにおける将来の視覚的スパンを効率的に予測できる。
さらに、生のエゴセントリックなマルチ感覚データから包括的なベンチマークをキュレートし、3Dビジュアルスパン予測のための364.6Kサンプルを用いたテストベッドを作成する。
提案手法は,2次元画像平面に投影された2次元画像面に、追加の2次元訓練を伴わずに投影した場合においても、エゴセントリックな2次元視線予測と3次元局所化の競争ベースラインよりも優れる。
関連論文リスト
- Uncertainty-aware State Space Transformer for Egocentric 3D Hand
Trajectory Forecasting [79.34357055254239]
ハンドトラジェクトリ予測は、AR/VRシステムと対話する際の人間の意図の迅速な理解を可能にするために不可欠である。
既存の方法では、現実の3Dアプリケーションでは不十分な2次元画像空間でこの問題に対処する。
初対人視点で観察されたRGBビデオから3次元空間のハンドトラジェクトリを予測することを目的とした,エゴセントリックな3Dハンドトラジェクトリ予測タスクを構築した。
論文 参考訳(メタデータ) (2023-07-17T04:55:02Z) - Scene-aware Egocentric 3D Human Pose Estimation [72.57527706631964]
頭部に1台の魚眼カメラを装着したエゴセントリックな3Dポーズ推定は、仮想現実や拡張現実における多くの応用により、近年注目を集めている。
既存の方法はまだ、人間の体が非常に隠蔽されている、あるいはシーンと密接な相互作用がある、挑戦的なポーズに苦慮している。
本研究では,シーン制約による自己中心型ポーズの予測を導くシーン認識型自己中心型ポーズ推定手法を提案する。
論文 参考訳(メタデータ) (2022-12-20T21:35:39Z) - Learning Ego 3D Representation as Ray Tracing [42.400505280851114]
我々は、制約のないカメラビューからエゴ3D表現学習のための新しいエンドツーエンドアーキテクチャを提案する。
レイトレーシングの原理にインスパイアされた我々は、学習可能なエゴ3D表現として「虚視」の偏極格子を設計する。
我々のモデルはすべての最先端の代替品を著しく上回ります。
論文 参考訳(メタデータ) (2022-06-08T17:55:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。