論文の概要: GA3CE: Unconstrained 3D Gaze Estimation with Gaze-Aware 3D Context Encoding
- arxiv url: http://arxiv.org/abs/2505.10671v1
- Date: Thu, 15 May 2025 19:24:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-19 14:36:13.47049
- Title: GA3CE: Unconstrained 3D Gaze Estimation with Gaze-Aware 3D Context Encoding
- Title(参考訳): GA3CE: Gaze-Aware 3D Context Encoding による制約のない3次元ゲズ推定
- Authors: Yuki Kawana, Shintaro Shiba, Quan Kong, Norimasa Kobori,
- Abstract要約: 本研究では,映像中の被写体と物体の空間的関係を学習する新しい3次元視線推定手法を提案する。
本手法は、被検者の眼球のクローズアップビューが利用できない場合など、制約のない設定を対象とする。
- 参考スコア(独自算出の注目度): 5.908352631543411
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a novel 3D gaze estimation approach that learns spatial relationships between the subject and objects in the scene, and outputs 3D gaze direction. Our method targets unconstrained settings, including cases where close-up views of the subject's eyes are unavailable, such as when the subject is distant or facing away. Previous approaches typically rely on either 2D appearance alone or incorporate limited spatial cues using depth maps in the non-learnable post-processing step. Estimating 3D gaze direction from 2D observations in these scenarios is challenging; variations in subject pose, scene layout, and gaze direction, combined with differing camera poses, yield diverse 2D appearances and 3D gaze directions even when targeting the same 3D scene. To address this issue, we propose GA3CE: Gaze-Aware 3D Context Encoding. Our method represents subject and scene using 3D poses and object positions, treating them as 3D context to learn spatial relationships in 3D space. Inspired by human vision, we align this context in an egocentric space, significantly reducing spatial complexity. Furthermore, we propose D$^3$ (direction-distance-decomposed) positional encoding to better capture the spatial relationship between 3D context and gaze direction in direction and distance space. Experiments demonstrate substantial improvements, reducing mean angle error by 13%-37% compared to leading baselines on benchmark datasets in single-frame settings.
- Abstract(参考訳): 映像中の被写体と物体の空間的関係を学習し、3次元視線方向を出力する新しい3次元視線推定手法を提案する。
本手法は、被検者の視線が近づきにくい場合や、被検者から遠ざかっている場合など、制約のない設定を対象とする。
従来のアプローチは、通常、2次元の外観のみに依存するか、非学習不可能な後処理ステップで深度マップを使用して限られた空間的手がかりを組み込む。
これらのシナリオにおける2次元観察から3次元視線方向を推定することは困難であり、被写体ポーズ、シーンレイアウト、および視線方向の変化は、異なるカメラポーズと組み合わせることで、同一の3次元シーンをターゲットにした場合でも、多様な2次元視線と3次元視線方向が得られる。
この問題に対処するため,GA3CE: Gaze-Aware 3D Context Encodingを提案する。
提案手法は,3次元空間における空間的関係を学習するために,3次元のポーズと物体の位置を用いて主題とシーンを表現し,それを3次元の文脈として扱う。
人間の視覚に触発されて、私たちはこのコンテキストをエゴセントリックな空間に整列させ、空間的複雑さを著しく減らした。
さらに,D$^3$ (direction-distance-decomposed) の位置符号化を提案する。
実験では、平均角度エラーを13%-37%削減するなど、大幅な改善が示されている。
関連論文リスト
- 3D Prior is All You Need: Cross-Task Few-shot 2D Gaze Estimation [27.51272922798475]
本研究では,未確認デバイス上での2次元視線予測に事前学習した3次元視線推定ネットワークを適用することを目的とした,クロスタスクな2次元視線推定手法を提案する。
このタスクは、3Dと2Dの視線、未知の画面ポーズ、限られたトレーニングデータとのドメインギャップのため、非常に難しい。
我々は,MPIIGaze,EVE,GazeCaptureの各データセットに対して,それぞれノートパソコン,デスクトップコンピュータ,モバイルデバイス上で収集した手法を評価する。
論文 参考訳(メタデータ) (2025-02-06T13:37:09Z) - NDC-Scene: Boost Monocular 3D Semantic Scene Completion in Normalized
Device Coordinates Space [77.6067460464962]
SSC(Monocular 3D Semantic Scene Completion)は、単一の画像から複雑なセマンティックスや幾何学的形状を予測し、3D入力を必要としないため、近年大きな注目を集めている。
我々は,3次元空間に投影された2次元特徴の特徴的曖昧さ,3次元畳み込みのPose Ambiguity,深さの異なる3次元畳み込みにおける不均衡など,現在の最先端手法におけるいくつかの重要な問題を明らかにする。
シーン補完ネットワーク(NDC-Scene)を考案し,2を直接拡張する。
論文 参考訳(メタデータ) (2023-09-26T02:09:52Z) - 3DRP-Net: 3D Relative Position-aware Network for 3D Visual Grounding [58.924180772480504]
3Dビジュアルグラウンドは、自由形式の言語記述によって、ターゲットオブジェクトを3Dポイントクラウドにローカライズすることを目的としている。
3次元相対位置認識ネットワーク(3-Net)という,関係性を考慮した一段階フレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-25T09:33:25Z) - Generating Visual Spatial Description via Holistic 3D Scene
Understanding [88.99773815159345]
視覚空間記述(VSD)は、画像内の対象物の空間的関係を記述するテキストを生成することを目的としている。
外部の3Dシーン抽出器を用いて,入力画像の3Dオブジェクトとシーン特徴を抽出する。
対象物の中心となる3次元空間シーングラフ(Go3D-S2G)を構築し,対象物の空間意味を総合的な3次元シーン内にモデル化する。
論文 参考訳(メタデータ) (2023-05-19T15:53:56Z) - Cylinder3D: An Effective 3D Framework for Driving-scene LiDAR Semantic
Segmentation [87.54570024320354]
大規模運転シーンのLiDARセマンティックセマンティックセグメンテーションのための最先端の手法は、しばしば2D空間の点雲を投影して処理する。
3D-to-2Dプロジェクションの問題に取り組むための簡単な解決策は、3D表現を保ち、3D空間の点を処理することである。
我々は3次元シリンダー分割と3次元シリンダー畳み込みに基づくフレームワークをCylinder3Dとして開発し,3次元トポロジの関係と運転シーンの点雲の構造を利用する。
論文 参考訳(メタデータ) (2020-08-04T13:56:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。