論文の概要: Auto-CARD: Efficient and Robust Codec Avatar Driving for Real-time
Mobile Telepresence
- arxiv url: http://arxiv.org/abs/2304.11835v1
- Date: Mon, 24 Apr 2023 05:45:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-25 16:09:17.059994
- Title: Auto-CARD: Efficient and Robust Codec Avatar Driving for Real-time
Mobile Telepresence
- Title(参考訳): Auto-CARD: リアルタイムモバイルテレプレゼンスのための効率的でロバストなコーデックアバター運転
- Authors: Yonggan Fu, Yuecheng Li, Chenghui Li, Jason Saragih, Peizhao Zhang,
Xiaoliang Dai, Yingyan Lin
- Abstract要約: 我々は,Codec Avatarのリアルタイムかつ堅牢な運転を可能にするAuto-CARDというフレームワークを提案する。
評価のために、リアルタイムのCodec Avatar駆動設定におけるAuto-CARDフレームワークの有効性を示す。
- 参考スコア(独自算出の注目度): 27.763047709846713
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Real-time and robust photorealistic avatars for telepresence in AR/VR have
been highly desired for enabling immersive photorealistic telepresence.
However, there still exists one key bottleneck: the considerable computational
expense needed to accurately infer facial expressions captured from
headset-mounted cameras with a quality level that can match the realism of the
avatar's human appearance. To this end, we propose a framework called
Auto-CARD, which for the first time enables real-time and robust driving of
Codec Avatars when exclusively using merely on-device computing resources. This
is achieved by minimizing two sources of redundancy. First, we develop a
dedicated neural architecture search technique called AVE-NAS for avatar
encoding in AR/VR, which explicitly boosts both the searched architectures'
robustness in the presence of extreme facial expressions and hardware
friendliness on fast evolving AR/VR headsets. Second, we leverage the temporal
redundancy in consecutively captured images during continuous rendering and
develop a mechanism dubbed LATEX to skip the computation of redundant frames.
Specifically, we first identify an opportunity from the linearity of the latent
space derived by the avatar decoder and then propose to perform adaptive latent
extrapolation for redundant frames. For evaluation, we demonstrate the efficacy
of our Auto-CARD framework in real-time Codec Avatar driving settings, where we
achieve a 5.05x speed-up on Meta Quest 2 while maintaining a comparable or even
better animation quality than state-of-the-art avatar encoder designs.
- Abstract(参考訳): AR/VRにおけるテレプレゼンスのためのリアルタイムで堅牢なフォトリアリスティックアバターは、没入型フォトリアリスティックテレプレゼンスを実現するために非常に望まれている。
しかし、ヘッドセットに搭載されたカメラから捉えた表情を正確に推測するために必要なかなりの計算コストは、アバターの人間の外観の現実性に匹敵する品質レベルである。
そこで我々は,デバイス上でのみのコンピューティングリソースを使用する場合,初めてCodec Avatarのリアルタイムかつ堅牢な運転を可能にするAuto-CARDというフレームワークを提案する。
これは2つの冗長性の源を最小化する。
まず、AR/VRにおけるアバターエンコーディングのためのAVE-NASと呼ばれる専用ニューラルネットワークサーチ手法を開発し、極端な表情の存在下での検索されたアーキテクチャの堅牢性と、急速に進化するAR/VRヘッドセットに対するハードウェアフレンドリさの両方を明確に促進する。
第2に,連続レンダリング中の画像の時間的冗長性を利用して,冗長フレームの計算を省略するLATEXと呼ばれる機構を開発する。
具体的には,まずアバターデコーダによって導かれる潜在空間の線形性から機会を特定し,冗長フレームに対する適応的潜在外挿を行うことを提案する。
評価のために、リアルタイムのCodec Avatar駆動設定におけるAuto-CARDフレームワークの有効性を実証し、Meta Quest 2における5.05倍のスピードアップを実現し、最先端のアバターエンコーダ設計と同等あるいはそれ以上のアニメーション品質を維持した。
関連論文リスト
- Fast Registration of Photorealistic Avatars for VR Facial Animation [15.639404610678543]
オフライン環境では、ヘッドセット搭載カメラ(HMC)画像に対する人固有のアバターの高品質な登録が可能となる。
斜めカメラビューとモダリティの違いにより、オンライン登録も困難である。
1)ドメイン内の入力を受信する反復リファインメントモジュール,2)一般的なアバター誘導イメージ・ツー・イメージ・トランスファーモジュールの2つの部分に分割するシステム設計を開発する。
論文 参考訳(メタデータ) (2024-01-19T19:42:38Z) - ASH: Animatable Gaussian Splats for Efficient and Photoreal Human
Rendering [67.39272639454775]
本稿では,動的人間をリアルタイムに写実的にレンダリングするためのアニマタブルなガウススプラッティング手法を提案する。
我々は、被服をアニマタブルな3Dガウスとしてパラメータ化し、画像空間に効率よく切り込み、最終的なレンダリングを生成する。
我々は、ポーズ制御可能なアバターの競合手法を用いてASHをベンチマークし、我々の手法が既存のリアルタイムメソッドよりも大きなマージンで優れており、オフラインメソッドよりも同等またはそれ以上の結果を示すことを示した。
論文 参考訳(メタデータ) (2023-12-10T17:07:37Z) - VideoRF: Rendering Dynamic Radiance Fields as 2D Feature Video Streams [56.00479598817949]
VideoRFは、モバイルプラットフォーム上で動的ラディアンスフィールドのリアルタイムストリーミングとレンダリングを可能にする最初のアプローチである。
特徴画像ストリームを2次元ビデオコーデックで効率よく圧縮できることを示す。
我々は動的シーンのオンラインストリーミングとレンダリングを可能にするリアルタイムインタラクティブプレーヤーを開発した。
論文 参考訳(メタデータ) (2023-12-03T14:14:35Z) - Real-Time Radiance Fields for Single-Image Portrait View Synthesis [85.32826349697972]
本研究では,1つの未提示画像からリアルタイムに3D表現を推測・描画するワンショット手法を提案する。
一つのRGB入力が与えられた場合、画像エンコーダは、ボリュームレンダリングによる3次元新規ビュー合成のためのニューラルラディアンスフィールドの標準三面体表現を直接予測する。
提案手法は消費者ハードウェア上で高速(24fps)であり,テスト時間最適化を必要とする強力なGAN反転ベースラインよりも高品質な結果が得られる。
論文 参考訳(メタデータ) (2023-05-03T17:56:01Z) - InstantAvatar: Learning Avatars from Monocular Video in 60 Seconds [43.41503529747328]
本研究では,モノクロ映像から人間のアバターを数秒で再構築できるシステムを提案する。
既存の方法と比較して、InstantAvatarは130倍早く収束し、数時間ではなく数分で訓練できる。
論文 参考訳(メタデータ) (2022-12-20T18:53:58Z) - NeRFPlayer: A Streamable Dynamic Scene Representation with Decomposed
Neural Radiance Fields [99.57774680640581]
本稿では、高速な再構成、コンパクトなモデリング、およびストリーム可能なレンダリングが可能な効率的なフレームワークを提案する。
本稿では, 時間特性に応じて4次元空間を分解することを提案する。4次元空間の点は, 静的, 変形, および新しい領域の3つのカテゴリに属する確率に関連付けられている。
論文 参考訳(メタデータ) (2022-10-28T07:11:05Z) - Pixel Codec Avatars [99.36561532588831]
Pixel Codec Avatars(PiCA)は、3D人間の顔の深い生成モデルです。
oculus quest 2のモバイルvrヘッドセットでは、同じシーンで5つのアバターがリアルタイムでレンダリングされる。
論文 参考訳(メタデータ) (2021-04-09T23:17:36Z) - F-CAD: A Framework to Explore Hardware Accelerators for Codec Avatar
Decoding [16.30430299485638]
アバターデコード用に最適化されたハードウェアアクセラレータを探索し、提供するF-CAD(Facebook Codec Accelerator Design)を提案します。
F-CADは、アバターデコーダのハードウェアアクセラレーションの設計フロー全体をサポートする最初の自動化ツールです。
F-CADによって生成された加速器は、毎秒122.1フレーム(FPS)と91.6%のハードウェア効率を実現することができる。
論文 参考訳(メタデータ) (2021-03-08T18:28:53Z) - Expressive Telepresence via Modular Codec Avatars [148.212743312768]
VRテレプレゼンス(VR Telepresence)とは、アバターで表される仮想空間において、他の人間と対話することである。
本稿では,VRヘッドセットのカメラによって駆動される超現実的な顔を生成する手法である,Modular Codec Avatars (MCA)を提案する。
MCAは、全体的なモデルを学習されたモジュラー表現に置き換えることで、伝統的なコーデックアバター(CA)を拡張している。
論文 参考訳(メタデータ) (2020-08-26T20:16:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。