論文の概要: PicoEyes: Unified Gaze Estimation Framework for Mixed Reality with a Large-Scale Multi-View Dataset
- arxiv url: http://arxiv.org/abs/2605.07188v2
- Date: Wed, 13 May 2026 10:35:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-14 17:13:58.790115
- Title: PicoEyes: Unified Gaze Estimation Framework for Mixed Reality with a Large-Scale Multi-View Dataset
- Title(参考訳): PicoEyes: 大規模マルチビューデータセットを用いた混合現実感のための統合迷路推定フレームワーク
- Authors: Fuxin Duan, Hui Wang,
- Abstract要約: PicoEyesは、視線のすべての重要な特性を直接予測する統合された視線推定フレームワークである。
キャリブレーション、視線予測、さまざまなデバイス姿勢を同時に処理する。
眼のパラメータと深度マップをエンドツーエンドで共同で推定することで、三次元眼の再構成をサポートする。
- 参考スコア(独自算出の注目度): 1.7596293300635233
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We present PicoEyes, a unified gaze estimation framework that directly predicts all key attributes of gaze, including 3D eye parameters, eye-region segmentation, optical axis, visual axis, and depth maps, from either monocular or binocular inputs. The framework simultaneously addresses calibration, gaze forecasting, and varying device postures, while also supporting 3D eye reconstruction via joint estimation of eye parameters and depth maps in an end-to-end manner. In addition, we introduce a large-scale multi-view near-eye dataset containing comprehensive 2D and 3D annotations under diverse conditions, including train, test, rewear-test, and calibration sessions. Extensive experiments demonstrate that PicoEyes achieves state-ofthe-art performance, consistently outperforming both academic and industrial gaze tracking methods across nocalibration, calibration, rewear-after-calibration, and forecasting settings. This work establishes a practical, end-toend paradigm for robust and generalizable gaze estimation in mixed reality (MR) applications.
- Abstract(参考訳): 眼球の3次元パラメータ,眼領域分割,光軸,視軸,深度マップなど,眼球のすべての重要な特徴を直接予測する統合視線推定フレームワークであるPicoEyesを,単眼または両眼の入力から提示する。
このフレームワークは、キャリブレーション、視線予測、様々なデバイス姿勢に同時に対応し、また、眼パラメータと深度マップをエンドツーエンドで共同で推定する3D目再構成をサポートする。
さらに, 列車, テスト, リウェアテスト, キャリブレーションセッションなど, 様々な条件下での包括的2Dおよび3Dアノテーションを含む大規模多視点ニアアイデータセットを提案する。
大規模な実験により、PicoEyesは最先端のパフォーマンスを達成し、ノカリブレーション、校正、リウェアアフターキャリブレーション、予測設定における学術的、産業的な視線追跡手法を一貫して上回っていることが示されている。
この研究は、MR(Mixed Reality)アプリケーションにおいて、堅牢で一般化可能な視線推定のための実用的でエンドツーエンドのパラダイムを確立する。
関連論文リスト
- ViewMorpher3D: A 3D-aware Diffusion Framework for Multi-Camera Novel View Synthesis in Autonomous Driving [20.935790354765604]
画像拡散モデルに基づく多視点画像拡張フレームワークであるViewMorpher3Dを紹介する。
シングルビューのアプローチとは異なり、ViewMorpher3Dはカメラのポーズに条件付けされた一連のレンダリングビュー、幾何学的先行3D、時間的に隣接または空間的に重複する参照ビューを共同で処理する。
我々のフレームワークは、様々なカメラとフレキシブルな参照/ターゲットビュー構成に対応しており、多様なセンサー設定に適応できる。
論文 参考訳(メタデータ) (2026-01-12T13:44:14Z) - PF3plat: Pose-Free Feed-Forward 3D Gaussian Splatting [54.7468067660037]
PF3platは、設計選択を検証した包括的なアブレーション研究によってサポートされた、すべてのベンチマークに新しい最先端を設定します。
本フレームワークは,3DGSの高速,スケーラビリティ,高品質な3D再構成とビュー合成機能を活用している。
論文 参考訳(メタデータ) (2024-10-29T15:28:15Z) - RadOcc: Learning Cross-Modality Occupancy Knowledge through Rendering
Assisted Distillation [50.35403070279804]
マルチビュー画像を用いた3次元シーンの占有状況とセマンティクスを推定することを目的とした,新たな課題である3D占有予測手法を提案する。
本稿では,RandOccを提案する。Rendering Assisted distillation paradigm for 3D Occupancy prediction。
論文 参考訳(メタデータ) (2023-12-19T03:39:56Z) - Calibrating Panoramic Depth Estimation for Practical Localization and
Mapping [20.621442016969976]
周囲環境の絶対深度値は, 局所化, ナビゲーション, 3次元構造推定など, 様々な補助技術にとって重要な手がかりとなる。
本研究では,パノラマ画像から推定される精度の高い深度が,3次元情報を必要とする幅広い下流タスクに対して,強力で軽量な入力として機能することを提案する。
論文 参考訳(メタデータ) (2023-08-27T04:50:05Z) - NeRF-Gaze: A Head-Eye Redirection Parametric Model for Gaze Estimation [37.977032771941715]
本稿では,ニューラルラジアンス場に基づく新しい頭部方向パラメトリックモデルを提案する。
我々のモデルは、顔と目を切り離して、別々のニューラルレンダリングを行うことができる。
顔、アイデンティティ、照明、視線方向の属性を別々に制御する目的を達成することができる。
論文 参考訳(メタデータ) (2022-12-30T13:52:28Z) - 3DGazeNet: Generalizing Gaze Estimation with Weak-Supervision from
Synthetic Views [67.00931529296788]
本稿では,適応を伴わない新しい環境に直接適用可能な一般的な視線推定モデルを訓練することを提案する。
視覚的擬似アノテーションを用いた多彩な顔の大規模データセットを作成し、シーンの3次元形状に基づいて抽出する。
本研究では,本手法を視線一般化タスクにおいて検証し,真理データが得られない場合の最先端技術と比較して最大30%の改善を実証する。
論文 参考訳(メタデータ) (2022-12-06T14:15:17Z) - TANDEM: Tracking and Dense Mapping in Real-time using Deep Multi-view
Stereo [55.30992853477754]
本稿では,リアルタイムな単分子追跡と高密度フレームワークであるTANDEMを紹介する。
ポーズ推定のために、TANDEMはアライメントのスライディングウィンドウに基づいて光度バンドル調整を行う。
TANDEMは最先端のリアルタイム3D再構成性能を示す。
論文 参考訳(メタデータ) (2021-11-14T19:01:02Z) - Bayesian Eye Tracking [63.21413628808946]
モデルに基づく視線追跡は、目の特徴検出エラーの影響を受けやすい。
モデルベースアイトラッキングのためのベイズフレームワークを提案する。
提案手法は,最先端のモデルベースおよび学習ベースの手法と比較して,一般化能力の大幅な向上を示す。
論文 参考訳(メタデータ) (2021-06-25T02:08:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。