論文の概要: GazeProphetV2: Head-Movement-Based Gaze Prediction Enabling Efficient Foveated Rendering on Mobile VR
- arxiv url: http://arxiv.org/abs/2511.19988v1
- Date: Tue, 25 Nov 2025 06:55:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-26 17:37:04.318256
- Title: GazeProphetV2: Head-Movement-Based Gaze Prediction Enabling Efficient Foveated Rendering on Mobile VR
- Title(参考訳): GazeProphetV2: モバイルVR上での効率的なフレーバー付きレンダリングを実現するヘッドモーメントベースのゲイズ予測
- Authors: Farhaan Ebadulla, Chiraag Mudlpaur, Shreya Chaurasia, Gaurav BV,
- Abstract要約: 本稿では,時間的視線パターン,頭部運動データ,視覚シーン情報を組み合わせたVR視線予測へのマルチモーダルアプローチを提案する。
22のVRシーンと5.3Mの視線サンプルにまたがるデータセットによる評価は、モダリティを組み合わせる際の予測精度の改善を示している。
クロスシーンの一般化テストは、予測された視線軌跡における93.1%の検証精度と時間的整合性を示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Predicting gaze behavior in virtual reality environments remains a significant challenge with implications for rendering optimization and interface design. This paper introduces a multimodal approach to VR gaze prediction that combines temporal gaze patterns, head movement data, and visual scene information. By leveraging a gated fusion mechanism with cross-modal attention, the approach learns to adaptively weight gaze history, head movement, and scene content based on contextual relevance. Evaluations using a dataset spanning 22 VR scenes with 5.3M gaze samples demonstrate improvements in predictive accuracy when combining modalities compared to using individual data streams alone. The results indicate that integrating past gaze trajectories with head orientation and scene content enhances prediction accuracy across 1-3 future frames. Cross-scene generalization testing shows consistent performance with 93.1% validation accuracy and temporal consistency in predicted gaze trajectories. These findings contribute to understanding attention mechanisms in virtual environments while suggesting potential applications in rendering optimization, interaction design, and user experience evaluation. The approach represents a step toward more efficient virtual reality systems that can anticipate user attention patterns without requiring expensive eye tracking hardware.
- Abstract(参考訳): バーチャルリアリティ環境での視線行動の予測は、レンダリング最適化とインターフェース設計において重要な課題である。
本稿では,時間的視線パターン,頭部運動データ,視覚シーン情報を組み合わせたVR視線予測へのマルチモーダルアプローチを提案する。
ゲート融合機構とクロスモーダルな注意を生かして、コンテキスト的関連性に基づいて、視線履歴、頭部運動、シーン内容を適応的に重み付けすることを学ぶ。
22のVRシーンと5.3Mの視線サンプルにまたがるデータセットを用いた評価では、個々のデータストリームのみを使用する場合と比較して、モダリティを組み合わせる際の予測精度の改善が示されている。
その結果,過去の視線軌跡をヘッドオリエンテーションやシーン内容と統合することで,将来の1~3フレーム間の予測精度が向上することが示唆された。
クロスシーンの一般化テストは、予測された視線軌跡における93.1%の検証精度と時間的整合性を示す。
これらの知見は, 仮想環境における注意機構の理解に寄与し, レンダリング最適化, インタラクション設計, ユーザエクスペリエンス評価における潜在的な応用を提案する。
このアプローチは、高価なアイトラッキングハードウェアを必要とせずにユーザーの注意パターンを予測できる、より効率的なバーチャルリアリティシステムへの一歩である。
関連論文リスト
- See, Think, Act: Online Shopper Behavior Simulation with VLM Agents [58.92444959954643]
本稿では,視覚情報,特にWebページスクリーンショットのVLMによる動作シミュレーションへの統合について検討する。
我々は,協調行動予測と合理化生成にSFTを用いて,相互作用の完全な文脈を条件づける。
推論能力をさらに強化するため,RLを階層的な報酬構造と統合し,難易度因子によって拡張する。
論文 参考訳(メタデータ) (2025-10-22T05:07:14Z) - Seeing My Future: Predicting Situated Interaction Behavior in Virtual Reality [44.83390932656039]
我々は、人間の意図をモデル化し、詳細な位置の行動を予測する階層的な意図認識フレームワークを導入する。
本稿では,人間と環境の関係を効果的に捉えるための動的グラフ畳み込みネットワーク(GCN)を提案する。
実世界のベンチマークとライブVR環境の実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2025-10-12T18:29:01Z) - GazeProphet: Software-Only Gaze Prediction for VR Foveated Rendering [0.0]
ファブリケートレンダリングは、バーチャルリアリティーアプリケーションにおける計算要求を大幅に減少させる。
現在のアプローチは高価なハードウェアベースのアイトラッキングシステムを必要とする。
本稿では,VR環境における視線位置を予測するためのソフトウェアのみのアプローチであるGazeProphetを提案する。
論文 参考訳(メタデータ) (2025-08-19T06:09:23Z) - Predicting User Grasp Intentions in Virtual Reality [0.0]
対象の種類,サイズ,操作の異なる810の試験において,分類と回帰のアプローチを評価した。
回帰ベースのアプローチはより堅牢なパフォーマンスを示し、タイミングエラーは0.25秒以内、距離エラーは5~20cm程度である。
私たちの結果は、VRインタラクションを強化する機械学習モデルの可能性を強調します。
論文 参考訳(メタデータ) (2025-08-05T15:17:19Z) - V-HOP: Visuo-Haptic 6D Object Pose Tracking [18.25135101142697]
人間は自然に視覚と触覚を統合し、操作中に頑健な物体の知覚を行う。
事前のポーズ推定研究は視覚的・触覚的・触覚的フィードバックを組み合わせることを試みている。
本稿では,新しいビジュオハプティックトランスフォーマーを用いたオブジェクトポーズトラッカーを提案する。
論文 参考訳(メタデータ) (2025-02-24T18:59:50Z) - GaussianPrediction: Dynamic 3D Gaussian Prediction for Motion Extrapolation and Free View Synthesis [71.24791230358065]
動的シーンモデリングと将来のシナリオ合成により,3次元ガウス表現を実現する新しいフレームワークを提案する。
GaussianPredictionは、ダイナミックなシーンのビデオ観察を使用して、あらゆる視点から将来の状態を予測できる。
本フレームワークは,合成データセットと実世界のデータセットの両方で優れた性能を示し,将来の環境の予測とレンダリングの有効性を示す。
論文 参考訳(メタデータ) (2024-05-30T06:47:55Z) - What Makes Pre-Trained Visual Representations Successful for Robust
Manipulation? [57.92924256181857]
照明やシーンテクスチャの微妙な変化の下では,操作や制御作業のために設計された視覚表現が必ずしも一般化されないことがわかった。
創発的セグメンテーション能力は,ViTモデルにおける分布外一般化の強い予測因子であることがわかった。
論文 参考訳(メタデータ) (2023-11-03T18:09:08Z) - GIMO: Gaze-Informed Human Motion Prediction in Context [75.52839760700833]
本研究では、高品質なボディポーズシーケンス、シーンスキャン、目視によるエゴ中心のビューを提供する大規模な人体動作データセットを提案する。
私たちのデータ収集は特定のシーンに縛られません。
視線の全可能性を実現するために,視線と運動枝の双方向通信を可能にする新しいネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-04-20T13:17:39Z) - Towards Scale Consistent Monocular Visual Odometry by Learning from the
Virtual World [83.36195426897768]
仮想データから絶対スケールを取得するための新しいフレームワークであるVRVOを提案する。
まず、モノクロ実画像とステレオ仮想データの両方を用いて、スケール対応の異種ネットワークをトレーニングする。
結果として生じるスケール一貫性の相違は、直接VOシステムと統合される。
論文 参考訳(メタデータ) (2022-03-11T01:51:54Z) - Towards End-to-end Video-based Eye-Tracking [50.0630362419371]
画像のみから視線を推定することは、観察不可能な人固有の要因のために難しい課題である。
本稿では,これらの意味的関係と時間的関係を明確に学習することを目的とした,新しいデータセットとアタッチメント手法を提案する。
視覚刺激からの情報と視線画像の融合が,文献に記録された人物と同じような性能を達成することにつながることを実証した。
論文 参考訳(メタデータ) (2020-07-26T12:39:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。