論文の概要: ESCA: Enabling Seamless Codec Avatar Execution through Algorithm and Hardware Co-Optimization for Virtual Reality
- arxiv url: http://arxiv.org/abs/2510.24787v1
- Date: Mon, 27 Oct 2025 02:31:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-30 15:50:44.489794
- Title: ESCA: Enabling Seamless Codec Avatar Execution through Algorithm and Hardware Co-Optimization for Virtual Reality
- Title(参考訳): ESCA: アルゴリズムとハードウェアによるバーチャルリアリティの最適化によるシームレスコーデックアバター実行の実現
- Authors: Mingzhi Zhu, Ding Shang, Sai Qian Zhang,
- Abstract要約: フォトコーデックアバター(PCA)は、VR(Virtual Reality)環境のための高忠実な人間の顔レンダリングを生成する。
本稿では,コーデックアバターモデルに適した効率的な後トレーニング量子化(PTQ)手法を提案する。
エッジVRプラットフォーム上でPCA推論を高速化するフルスタック最適化フレームワークであるESCAを紹介する。
- 参考スコア(独自算出の注目度): 8.437724028285682
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Photorealistic Codec Avatars (PCA), which generate high-fidelity human face renderings, are increasingly being used in Virtual Reality (VR) environments to enable immersive communication and interaction through deep learning-based generative models. However, these models impose significant computational demands, making real-time inference challenging on resource-constrained VR devices such as head-mounted displays, where latency and power efficiency are critical. To address this challenge, we propose an efficient post-training quantization (PTQ) method tailored for Codec Avatar models, enabling low-precision execution without compromising output quality. In addition, we design a custom hardware accelerator that can be integrated into the system-on-chip of VR devices to further enhance processing efficiency. Building on these components, we introduce ESCA, a full-stack optimization framework that accelerates PCA inference on edge VR platforms. Experimental results demonstrate that ESCA boosts FovVideoVDP quality scores by up to $+0.39$ over the best 4-bit baseline, delivers up to $3.36\times$ latency reduction, and sustains a rendering rate of 100 frames per second in end-to-end tests, satisfying real-time VR requirements. These results demonstrate the feasibility of deploying high-fidelity codec avatars on resource-constrained devices, opening the door to more immersive and portable VR experiences.
- Abstract(参考訳): 高忠実な人間の顔レンダリングを生成する光現実性コーデックアバター(PCA)は、深層学習に基づく生成モデルによる没入型コミュニケーションと対話を可能にするために、仮想現実(VR)環境でますます利用されている。
しかし、これらのモデルは計算上の大きな要求を課し、遅延と電力効率が重要となるヘッドマウントディスプレイのようなリソース制限されたVRデバイスでリアルタイムの推論を困難にしている。
この課題に対処するために,コーデックアバターモデルに適した効率的なポストトレーニング量子化(PTQ)手法を提案する。
また,VRデバイスのシステム・オン・チップに統合し,処理効率を向上するカスタムハードウェア・アクセラレータを設計する。
これらのコンポーネントをベースとして,エッジVRプラットフォーム上でPCA推論を高速化するフルスタック最適化フレームワークであるESCAを紹介する。
実験の結果、ESCAは最高の4ビットベースラインでFovVideoVDPの品質スコアを最大$0.39ドル引き上げ、最大$3.36\times$遅延を低減し、エンドツーエンドのテストで毎秒100フレームのレンダリングレートを維持し、リアルタイムVR要件を満たすことを示した。
これらの結果は、リソース制約のあるデバイスに高忠実なコーデックアバターをデプロイし、より没入的でポータブルなVR体験への扉を開く可能性を示している。
関連論文リスト
- PocketSR: The Super-Resolution Expert in Your Pocket Mobiles [69.26751136689533]
リアルワールド・イメージ・スーパーレゾリューション (RealSR) は、携帯電話が捉えたような、Wild内の画像の視覚的品質を高めることを目的としている。
大規模な生成モデルを利用する既存の手法は印象的な結果を示しているが、計算コストとレイテンシが高いため、エッジ配置には実用的ではない。
超軽量単一ステップモデルであるPocketSRを導入し,高忠実度を維持しつつ生成モデリング機能をRealSRにもたらす。
論文 参考訳(メタデータ) (2025-10-03T13:56:18Z) - GazeProphet: Software-Only Gaze Prediction for VR Foveated Rendering [0.0]
ファブリケートレンダリングは、バーチャルリアリティーアプリケーションにおける計算要求を大幅に減少させる。
現在のアプローチは高価なハードウェアベースのアイトラッキングシステムを必要とする。
本稿では,VR環境における視線位置を予測するためのソフトウェアのみのアプローチであるGazeProphetを提案する。
論文 参考訳(メタデータ) (2025-08-19T06:09:23Z) - SeedVR2: One-Step Video Restoration via Diffusion Adversarial Post-Training [82.68200031146299]
実データに対する対角的VRトレーニングを行うセドVR2と呼ばれる一段階拡散型VRモデルを提案する。
単一ステップで高精細度VRを扱うために、モデルアーキテクチャとトレーニング手順の両方にいくつかの拡張を導入する。
論文 参考訳(メタデータ) (2025-06-05T17:51:05Z) - VRSplat: Fast and Robust Gaussian Splatting for Virtual Reality [47.738522999465864]
われわれはVRSplatを導入し、3DGSの最近の進歩を総合してVRの難題に挑戦する。
VRSplatは、最新のVRアプリケーションをサポートし、ポップアップやステレオ破壊フローターを排除しながら72以上のFPSを達成することができる、最初の、体系的に評価された3DGSアプローチである。
論文 参考訳(メタデータ) (2025-05-15T10:17:48Z) - VR-Splatting: Foveated Radiance Field Rendering via 3D Gaussian Splatting and Neural Points [4.962171160815189]
本稿では,パフォーマンススイートスポットに関する両点描画方向の長所を結合した,新しいハイブリッドアプローチを提案する。
焦点のみの場合、我々は小さなピクセルフットプリントのために畳み込みニューラルネットワークでニューラルネットワークを使用し、鋭く詳細な出力を提供する。
提案手法は,標準的なVR対応3DGS構成と比較して,シャープネスとディテールが向上することを確認した。
論文 参考訳(メタデータ) (2024-10-23T14:54:48Z) - VR-GS: A Physical Dynamics-Aware Interactive Gaussian Splatting System in Virtual Reality [39.53150683721031]
提案するVR-GSシステムは,人間中心の3Dコンテンツインタラクションにおける飛躍的な進歩を示す。
私たちの仮想現実システムのコンポーネントは、高い効率と有効性のために設計されています。
論文 参考訳(メタデータ) (2024-01-30T01:28:36Z) - VR-NeRF: High-Fidelity Virtualized Walkable Spaces [55.51127858816994]
本稿では,高忠実度キャプチャ,モデル再構成,リアルタイムレンダリングのためのエンドツーエンドシステムを提案する。
論文 参考訳(メタデータ) (2023-11-05T02:03:14Z) - Wireless Edge-Empowered Metaverse: A Learning-Based Incentive Mechanism
for Virtual Reality [102.4151387131726]
メタバースにおけるVRサービスのための学習型インセンティブメカニズムフレームワークを提案する。
まず,仮想世界におけるVRユーザのための指標として,知覚の質を提案する。
第二に、VRユーザー(買い手)とVR SP(売り手)間のVRサービスの迅速な取引のために、オランダの二重オークション機構を設計する。
第3に,この競売プロセスの高速化を目的とした深層強化学習型競売機を設計する。
論文 参考訳(メタデータ) (2021-11-07T13:02:52Z) - Unmasking Communication Partners: A Low-Cost AI Solution for Digitally
Removing Head-Mounted Displays in VR-Based Telepresence [62.997667081978825]
バーチャルリアリティ(VR)における対面会話は、被験者がヘッドマウントディスプレイ(HMD)を装着する際の課題である
過去の研究では、高コストハードウェアを用いた実験室環境では、VRで個人用アバターを用いた高忠実な顔再構成が可能であることが示されている。
我々は,オープンソース,フリーソフトウェア,安価なハードウェアのみを利用する,このタスクのための最初の低コストシステムを提案する。
論文 参考訳(メタデータ) (2020-11-06T23:17:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。