論文の概要: GazeD: Context-Aware Diffusion for Accurate 3D Gaze Estimation
- arxiv url: http://arxiv.org/abs/2601.12948v1
- Date: Mon, 19 Jan 2026 10:54:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.872846
- Title: GazeD: Context-Aware Diffusion for Accurate 3D Gaze Estimation
- Title(参考訳): GazeD:正確な3次元視線推定のためのコンテキスト認識拡散
- Authors: Riccardo Catalini, Davide Di Nucci, Guido Borghi, Davide Davoli, Lorenzo Garattoni, Giampiero Francesca, Yuki Kawana, Roberto Vezzani,
- Abstract要約: 本稿では,1枚のRGB画像から3次元視線と人間のポーズを共同で提供する新しい3次元視線推定手法であるGazeDを紹介する。
拡散モデルを用いて不確実性に対処する。
我々は,2次元ポーズ,被写体周囲,シーンの状況について認知過程を定めている。
- 参考スコア(独自算出の注目度): 9.32270309376395
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We introduce GazeD, a new 3D gaze estimation method that jointly provides 3D gaze and human pose from a single RGB image. Leveraging the ability of diffusion models to deal with uncertainty, it generates multiple plausible 3D gaze and pose hypotheses based on the 2D context information extracted from the input image. Specifically, we condition the denoising process on the 2D pose, the surroundings of the subject, and the context of the scene. With GazeD we also introduce a novel way of representing the 3D gaze by positioning it as an additional body joint at a fixed distance from the eyes. The rationale is that the gaze is usually closely related to the pose, and thus it can benefit from being jointly denoised during the diffusion process. Evaluations across three benchmark datasets demonstrate that GazeD achieves state-of-the-art performance in 3D gaze estimation, even surpassing methods that rely on temporal information. Project details will be available at https://aimagelab.ing.unimore.it/go/gazed.
- Abstract(参考訳): 本稿では,1枚のRGB画像から3次元視線と人間のポーズを共同で提供する新しい3次元視線推定手法であるGazeDを紹介する。
拡散モデルを用いて不確実性に対処し、入力画像から抽出した2次元コンテキスト情報に基づいて複数の可視な3次元視線を生成し、仮説を呈示する。
具体的には, 2次元ポーズ, 被写体周囲, シーンの状況について, 認知過程を定めている。
GazeDでは、視線を目から一定の距離で追加の体節として配置することで、3D視線を表現する新しい方法も導入する。
理論的には、視線は通常、ポーズと密接に関連しているため、拡散過程中に共同で認知されるという利点がある。
3つのベンチマークデータセットによる評価は、GazeDが3D視線推定における最先端のパフォーマンスを達成していることを示している。
プロジェクトの詳細はhttps://aimagelab.ing.unimore.it/go/gazed.comで確認できる。
関連論文リスト
- GA3CE: Unconstrained 3D Gaze Estimation with Gaze-Aware 3D Context Encoding [5.908352631543411]
本研究では,映像中の被写体と物体の空間的関係を学習する新しい3次元視線推定手法を提案する。
本手法は、被検者の眼球のクローズアップビューが利用できない場合など、制約のない設定を対象とする。
論文 参考訳(メタデータ) (2025-05-15T19:24:15Z) - Leveraging Multi-Modal Saliency and Fusion for Gaze Target Detection [0.0]
本稿では,画像から抽出した複数の情報を融合する新しいGTD法を提案する。
まず、単眼深度推定を用いて2次元画像を3次元表現に投影する。
また,画像から顔と奥行きのモダリティを抽出し,最終的に抽出したモダリティをすべて融合して視線目標を同定する。
論文 参考訳(メタデータ) (2025-04-27T14:59:13Z) - A General Protocol to Probe Large Vision Models for 3D Physical Understanding [84.54972153436466]
市販の大型視覚モデルの特徴が3Dシーンの物理的な「プロパティ」をエンコードするかどうかを評価するための一般的なプロトコルを提案する。
このプロトコルは、シーン幾何学、シーン素材、サポート関係、照明、ビュー依存尺度を含むプロパティに適用する。
安定拡散とDINOv2の特徴は,多くの特性の識別学習に有効であることがわかった。
論文 参考訳(メタデータ) (2023-10-10T17:59:28Z) - Accurate Gaze Estimation using an Active-gaze Morphable Model [9.192482716410511]
画像から直接視線方向を後退させるのではなく、3次元形状モデルを追加することで視線推定精度が向上することを示す。
我々はこれを幾何学的頂点モデルに当てはめ、アクティブ・ゲイズ3DMMを与える。
本手法は,地上の真理視原点にアクセスすることなく,地上の真理視原点とカメラパラメータのみを用いて学習することができる。
論文 参考訳(メタデータ) (2023-01-30T18:51:14Z) - GazeNeRF: 3D-Aware Gaze Redirection with Neural Radiance Fields [100.53114092627577]
既存の視線リダイレクト法は2次元画像上で動作し、3次元一貫した結果を生成するのに苦労する。
顔領域と眼球は3次元構造であり、協調しているが独立して動くという直感に基づいて構築する。
論文 参考訳(メタデータ) (2022-12-08T13:19:11Z) - 3DGazeNet: Generalizing Gaze Estimation with Weak-Supervision from
Synthetic Views [67.00931529296788]
本稿では,適応を伴わない新しい環境に直接適用可能な一般的な視線推定モデルを訓練することを提案する。
視覚的擬似アノテーションを用いた多彩な顔の大規模データセットを作成し、シーンの3次元形状に基づいて抽出する。
本研究では,本手法を視線一般化タスクにおいて検証し,真理データが得られない場合の最先端技術と比較して最大30%の改善を実証する。
論文 参考訳(メタデータ) (2022-12-06T14:15:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。