論文の概要: GazeShift: Unsupervised Gaze Estimation and Dataset for VR
- arxiv url: http://arxiv.org/abs/2603.07832v1
- Date: Sun, 08 Mar 2026 22:29:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:15.310891
- Title: GazeShift: Unsupervised Gaze Estimation and Dataset for VR
- Title(参考訳): GazeShift:VRのための教師なしゲイズ推定とデータセット
- Authors: Gil Shapira, Ishay Goldin, Evgeny Artyomov, Donghoon Kim, Yosi Keller, Niv Zehngut,
- Abstract要約: VRGazeは、VRのための初めての大規模なオフ軸視線推定データセットである。
ラベル付きデータなしで視線表現を学習するための注意誘導型非教師付きフレームワークであるGazeShiftを提案する。
GazeShiftは、近目赤外線画像に合わせて調整されており、コンパクトでリアルタイムなモデルで効果的な視線外乱を実現する。
- 参考スコア(独自算出の注目度): 16.775789494555017
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Gaze estimation is instrumental in modern virtual reality (VR) systems. Despite significant progress in remote-camera gaze estimation, VR gaze research remains constrained by data scarcity - particularly the lack of large-scale, accurately labeled datasets captured with the off-axis camera configurations typical of modern headsets. Gaze annotation is difficult since fixation on intended targets cannot be guaranteed. To address these challenges, we introduce VRGaze - the first large-scale off-axis gaze estimation dataset for VR - comprising 2.1 million near-eye infrared images collected from 68 participants. We further propose GazeShift, an attention-guided unsupervised framework for learning gaze representations without labeled data. Unlike prior redirection-based methods that rely on multi-view or 3D geometry, GazeShift is tailored to near-eye infrared imagery, achieving effective gaze-appearance disentanglement in a compact, real-time model. GazeShift embeddings can be optionally adapted to individual users via lightweight few-shot calibration, achieving a 1.84-degree mean error on VRGaze. On the remote-camera MPIIGaze dataset, the model achieves a 7.15-degree person-agnostic error, doing so with 10x fewer parameters and 35x fewer FLOPs than baseline methods. Deployed natively on a VR headset GPU, inference takes only 5 ms. Combined with demonstrated robustness to illumination changes, these results highlight GazeShift as a label-efficient, real-time solution for VR gaze tracking. Project code and the VRGaze dataset are released at https://github.com/gazeshift3/gazeshift.
- Abstract(参考訳): ゲイズ推定は、現代のバーチャルリアリティ(VR)システムにおいて有効である。
リモートカメラの視線推定の大幅な進歩にもかかわらず、VRの視線研究はデータの不足、特に現代のヘッドセットに典型的なオフ軸カメラ構成でキャプチャされた大規模で正確にラベル付けされたデータセットの欠如に制約されている。
意図したターゲットに対する固定が保証できないため、ガゼアノテーションは難しい。
これらの課題に対処するため、68人の参加者から収集された2100万個の近眼赤外線画像からなるVRGazeという、VR用初の大規模なオフ軸視線推定データセットを紹介した。
さらに、ラベル付きデータなしで視線表現を学習するための注意誘導型非教師付きフレームワークであるGazeShiftを提案する。
マルチビューや3D幾何学に依存する従来のリダイレクトベースの手法とは異なり、GazeShiftは近眼赤外線画像に特化しており、コンパクトでリアルタイムなモデルで効果的な視線外乱を実現する。
GazeShiftの埋め込みは、軽量な数ショットキャリブレーションにより、VRGaze上で1.84度の平均誤差を達成することで、個々のユーザーに任意に適応することができる。
リモートカメラのMPIIGazeデータセットでは、ベースライン法よりも10倍のパラメータと35倍のFLOPで、7.15度の個人認識誤差を達成している。
VRヘッドセットのGPUにネイティブにデプロイされた推論は、わずか5ミリ秒で終わる。照明変更に対する堅牢性の実証と組み合わせて、これらの結果は、GazeShiftを、ラベル効率のよいリアルタイムなVR視線追跡ソリューションとして強調する。
プロジェクトコードとVRGazeデータセットはhttps://github.com/gazeshift3/gazeshiftで公開されている。
関連論文リスト
- Gaze Prediction in Virtual Reality Without Eye Tracking Using Visual and Head Motion Cues [3.4383905541567583]
本稿では,HMD(Head-Mounted Display)モーション信号と映像フレームから派生した視覚的サリエンシキューを組み合わせた新しい視線予測フレームワークを提案する。
本手法では,軽量な唾液エンコーダであるUniSalを用いて視覚的特徴を抽出し,その特徴をHMDモーションデータと融合させて時系列予測モジュールで処理する。
EHTaskデータセットの実験は、商用VRハードウェアへの展開とともに、私たちのアプローチがCenter-of-HMDやMean Gazeといったベースラインを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2026-01-26T11:26:27Z) - GazeProphetV2: Head-Movement-Based Gaze Prediction Enabling Efficient Foveated Rendering on Mobile VR [0.0]
本稿では,時間的視線パターン,頭部運動データ,視覚シーン情報を組み合わせたVR視線予測へのマルチモーダルアプローチを提案する。
22のVRシーンと5.3Mの視線サンプルにまたがるデータセットによる評価は、モダリティを組み合わせる際の予測精度の改善を示している。
クロスシーンの一般化テストは、予測された視線軌跡における93.1%の検証精度と時間的整合性を示す。
論文 参考訳(メタデータ) (2025-11-25T06:55:39Z) - R2RGEN: Real-to-Real 3D Data Generation for Spatially Generalized Manipulation [74.41728218960465]
本稿では,実世界のデータを生成するために,ポイントクラウド観測-アクションペアを直接拡張するリアルタイム3Dデータ生成フレームワーク(R2RGen)を提案する。
R2RGenは、広範な実験におけるデータの効率を大幅に向上させ、モバイル操作におけるスケーリングと応用の強い可能性を示す。
論文 参考訳(メタデータ) (2025-10-09T17:55:44Z) - GazeProphet: Software-Only Gaze Prediction for VR Foveated Rendering [0.0]
ファブリケートレンダリングは、バーチャルリアリティーアプリケーションにおける計算要求を大幅に減少させる。
現在のアプローチは高価なハードウェアベースのアイトラッキングシステムを必要とする。
本稿では,VR環境における視線位置を予測するためのソフトウェアのみのアプローチであるGazeProphetを提案する。
論文 参考訳(メタデータ) (2025-08-19T06:09:23Z) - FRAME: Floor-aligned Representation for Avatar Motion from Egocentric Video [52.33896173943054]
ヘッドマウントのボディフェイスステレオカメラを備えたエゴセントリックなモーションキャプチャーは、VRやARアプリケーションには不可欠だ。
既存の方法は、合成事前学習と、現実の環境で滑らかで正確な予測を生成するのに苦労している。
本稿では、デバイスポーズとカメラフィードを組み合わせて、最先端のボディポーズ予測を行う、シンプルで効果的なアーキテクチャFRAMEを提案する。
論文 参考訳(メタデータ) (2025-03-29T14:26:06Z) - JiSAM: Alleviate Labeling Burden and Corner Case Problems in Autonomous Driving via Minimal Real-World Data [49.2298619289506]
本稿では,ジッタリング強化,ドメイン認識バックボーン,メモリに基づくセクタライズAlignMentのためのJiSAMというプラグイン・アンド・プレイ手法を提案する。
有名なADデータセットであるNuScenesで実施された広範な実験において、SOTA 3Dオブジェクト検出器を用いて、JiSAMはシミュレーションデータと2.5%の実データにラベルを付けるだけで、実データで訓練されたモデルに匹敵する性能が得られることを示した。
論文 参考訳(メタデータ) (2025-03-11T13:35:39Z) - Meta-Reinforcement Learning for Reliable Communication in THz/VLC
Wireless VR Networks [157.42035777757292]
屋内テラヘルツ(THz)/可視光通信(VLC)無線ネットワークにおいて,仮想現実(VR)サービスの品質向上の問題について検討した。
小型基地局(sbss)は高品質のvr画像をthzバンド経由でvrユーザーに送信し、発光ダイオード(led)は正確な屋内測位サービスを提供する。
研究したTHz/VLC無線VRネットワークのエネルギー消費を制御するには、VLCアクセスポイント(VAP)を選択的にオンにする必要がある。
論文 参考訳(メタデータ) (2021-01-29T15:57:25Z) - ETH-XGaze: A Large Scale Dataset for Gaze Estimation under Extreme Head
Pose and Gaze Variation [52.5465548207648]
ETH-XGazeは100万以上の高解像度画像からなる新しい視線推定データセットである。
我々のデータセットは、異なる頭部ポーズと視線角度で視線推定手法のロバスト性を大幅に改善できることを示す。
論文 参考訳(メタデータ) (2020-07-31T04:15:53Z) - Gaze-Sensing LEDs for Head Mounted Displays [73.88424800314634]
仮想現実(VR)アプリケーションのための低消費電力の視線トラッカーを作成するために,LEDのセンサ機能を利用する。
我々は,視線推定法が複雑な次元削減技術を必要としないことを示した。
論文 参考訳(メタデータ) (2020-03-18T23:03:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。