論文の概要: FovealNet: Advancing AI-Driven Gaze Tracking Solutions for Optimized Foveated Rendering System Performance in Virtual Reality
- arxiv url: http://arxiv.org/abs/2412.10456v2
- Date: Tue, 31 Dec 2024 01:43:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-03 17:39:23.764970
- Title: FovealNet: Advancing AI-Driven Gaze Tracking Solutions for Optimized Foveated Rendering System Performance in Virtual Reality
- Title(参考訳): FovealNet: バーチャルリアリティにおけるAI駆動型視線追跡ソリューションの最適化
- Authors: Wenxuan Liu, Monde Duinkharjav, Qi Sun, Sai Qian Zhang,
- Abstract要約: 本稿では,システム性能の最適化を目的とした高度なAI駆動型視線追跡フレームワークである textitFovealNet を紹介する。
FovealNetは、以前の方法に比べて少なくとも$1.42タイムのスピードアップを実現し、ファーベイドアウトプットの知覚品質は13%向上した。
- 参考スコア(独自算出の注目度): 23.188267849124706
- License:
- Abstract: Leveraging real-time eye-tracking, foveated rendering optimizes hardware efficiency and enhances visual quality virtual reality (VR). This approach leverages eye-tracking techniques to determine where the user is looking, allowing the system to render high-resolution graphics only in the foveal region-the small area of the retina where visual acuity is highest, while the peripheral view is rendered at lower resolution. However, modern deep learning-based gaze-tracking solutions often exhibit a long-tail distribution of tracking errors, which can degrade user experience and reduce the benefits of foveated rendering by causing misalignment and decreased visual quality. This paper introduces \textit{FovealNet}, an advanced AI-driven gaze tracking framework designed to optimize system performance by strategically enhancing gaze tracking accuracy. To further reduce the implementation cost of the gaze tracking algorithm, FovealNet employs an event-based cropping method that eliminates over $64.8\%$ of irrelevant pixels from the input image. Additionally, it incorporates a simple yet effective token-pruning strategy that dynamically removes tokens on the fly without compromising tracking accuracy. Finally, to support different runtime rendering configurations, we propose a system performance-aware multi-resolution training strategy, allowing the gaze tracking DNN to adapt and optimize overall system performance more effectively. Evaluation results demonstrate that FovealNet achieves at least $1.42\times$ speed up compared to previous methods and 13\% increase in perceptual quality for foveated output.
- Abstract(参考訳): リアルタイムのアイトラッキングを活用することで、ファーベレーテッドレンダリングはハードウェア効率を最適化し、ビジュアルクオリティのバーチャルリアリティ(VR)を強化する。
このアプローチでは、視線追跡技術を活用して、視力が最も高い網膜の小領域である前部領域のみに高解像度のグラフィックスをレンダリングし、周囲のビューを低解像度でレンダリングする。
しかし、現代のディープラーニングに基づく視線追跡ソリューションでは、トラッキングエラーの長期分布が示され、ユーザエクスペリエンスを劣化させ、視覚的品質を低下させることで、ファベレーテッドレンダリングの利点を低減できる。
本稿では,視線追跡精度を戦略的に向上させることで,システム性能の最適化を目的としたAI駆動型視線追跡フレームワークである「textit{FovealNet}」を紹介する。
視線追跡アルゴリズムの実装コストをさらに削減するため、FovealNetでは、入力画像から無関係なピクセルの64.8 %以上を除去するイベントベースのトリミング方式を採用している。
さらに、追跡精度を損なうことなく、オンザフライでトークンを動的に除去する、シンプルだが効果的なトークン処理戦略も組み込まれている。
最後に、異なるランタイムレンダリング構成をサポートするために、システム性能を意識したマルチレゾリューショントレーニング戦略を提案し、視線追跡DNNがシステム全体の性能をより効果的に適応し最適化できるようにする。
評価結果は,FovealNetが従来の手法に比べて少なくとも1.42\times$スピードアップし,Foveated出力の知覚品質が13.%向上したことを示している。
関連論文リスト
- Task-Oriented Real-time Visual Inference for IoVT Systems: A Co-design Framework of Neural Networks and Edge Deployment [61.20689382879937]
タスク指向エッジコンピューティングは、データ分析をエッジにシフトすることで、この問題に対処する。
既存の手法は、高いモデル性能と低いリソース消費のバランスをとるのに苦労している。
ニューラルネットワークアーキテクチャを最適化する新しい協調設計フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-29T19:02:54Z) - Track Everything Everywhere Fast and Robustly [46.362962852140015]
ビデオ中の任意のピクセルを効率的に追跡するための新しいテスト時間最適化手法を提案する。
本稿では,関数表現を局所的な時空間特徴グリッドに分解する,新しい非可逆変形ネットワークCaDeX++を提案する。
本実験は,SoTA最適化手法であるOmniMotion上でのトレーニング速度( textbf10 倍の速度),堅牢性,精度を著しく向上したことを示す。
論文 参考訳(メタデータ) (2024-03-26T17:58:22Z) - Exploring Dynamic Transformer for Efficient Object Tracking [58.120191254379854]
効率的なトラッキングのための動的トランスフォーマーフレームワークであるDyTrackを提案する。
DyTrackは、様々な入力に対して適切な推論ルートを設定することを学習し、利用可能な計算予算をより活用する。
複数のベンチマークの実験では、DyTrackは単一のモデルで有望な速度精度のトレードオフを実現している。
論文 参考訳(メタデータ) (2024-03-26T12:31:58Z) - Toward Super-Resolution for Appearance-Based Gaze Estimation [4.594159253008448]
超解像度は視覚的観点から画質を改善することが示されている。
本稿では,SwinIR超解像モデルに基づく2段階のフレームワークを提案する。
自己教師付き学習は、ダウンストリームタスクに必要なラベル付きデータの量を減らすために、ラベルのないデータから学習することを目的としている。
論文 参考訳(メタデータ) (2023-03-17T17:40:32Z) - FoVolNet: Fast Volume Rendering using Foveated Deep Neural Networks [33.489890950757975]
FoVolNetはボリュームデータ可視化の性能を大幅に向上させる手法である。
我々は、焦点付近のボリュームを疎結合にサンプリングし、ディープニューラルネットワークを用いてフルフレームを再構築する、費用対効果の高いフェーベレートレンダリングパイプラインを開発した。
論文 参考訳(メタデータ) (2022-09-20T19:48:56Z) - EfficientViT: Multi-Scale Linear Attention for High-Resolution Dense
Prediction [67.11722682878722]
この研究は、新しいマルチスケール線形注意を持つ高解像度ビジョンモデルのファミリーであるEfficientViTを提示する。
マルチスケール線形注意は,グローバルな受容場とマルチスケール学習を実現する。
EfficientViTは従来の最先端モデルよりも優れたパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2022-05-29T20:07:23Z) - Feeling of Presence Maximization: mmWave-Enabled Virtual Reality Meets
Deep Reinforcement Learning [76.46530937296066]
本稿では,無線モバイルユーザに対して,超信頼性でエネルギー効率のよいバーチャルリアリティ(VR)体験を提供するという課題について検討する。
モバイルユーザへの信頼性の高い超高精細ビデオフレーム配信を実現するために,コーディネートマルチポイント(CoMP)伝送技術とミリ波(mmWave)通信を利用する。
論文 参考訳(メタデータ) (2021-06-03T08:35:10Z) - Object-based Illumination Estimation with Rendering-aware Neural
Networks [56.01734918693844]
個々の物体とその局所画像領域のRGBD外観から高速環境光推定手法を提案する。
推定照明により、仮想オブジェクトは実際のシーンと一貫性のあるシェーディングでARシナリオでレンダリングできる。
論文 参考訳(メタデータ) (2020-08-06T08:23:19Z) - SADet: Learning An Efficient and Accurate Pedestrian Detector [68.66857832440897]
本稿では,一段検出器の検出パイプラインに対する一連の最適化手法を提案する。
効率的な歩行者検出のための単発アンカーベース検出器(SADet)を形成する。
構造的には単純だが、VGA解像度の画像に対して最先端の結果と20ドルFPSのリアルタイム速度を示す。
論文 参考訳(メタデータ) (2020-07-26T12:32:38Z) - Optimisation of a Siamese Neural Network for Real-Time Energy Efficient
Object Tracking [0.0]
組込み視覚システムのためのSiameseニューラルネットワークを用いた視覚物体追跡の最適化について述べる。
提案手法は,高解像度ビデオストリームに対して,リアルタイムに動作するものと推定された。
論文 参考訳(メタデータ) (2020-07-01T13:49:56Z) - Object-Adaptive LSTM Network for Real-time Visual Tracking with
Adversarial Data Augmentation [31.842910084312265]
本稿では,オブジェクト適応型LSTMネットワークを用いて,映像の逐次的依存関係を効果的に捕捉し,オブジェクトの外観変化を適応的に学習する,新しいリアルタイムビジュアルトラッキング手法を提案する。
4つのビジュアルトラッキングベンチマーク実験により,トラッキング精度と速度の両面から,提案手法の最先端性能を実証した。
論文 参考訳(メタデータ) (2020-02-07T03:06:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。