Fugu-MT 論文翻訳(概要): Auto-CARD: Efficient and Robust Codec Avatar Driving for Real-time Mobile Telepresence

論文の概要: Auto-CARD: Efficient and Robust Codec Avatar Driving for Real-time Mobile Telepresence

arxiv url: http://arxiv.org/abs/2304.11835v1
Date: Mon, 24 Apr 2023 05:45:12 GMT
ステータス: 翻訳完了
システム内更新日: 2023-04-25 16:09:17.059994
Title: Auto-CARD: Efficient and Robust Codec Avatar Driving for Real-time Mobile Telepresence
Title（参考訳）: Auto-CARD: リアルタイムモバイルテレプレゼンスのための効率的でロバストなコーデックアバター運転
Authors: Yonggan Fu, Yuecheng Li, Chenghui Li, Jason Saragih, Peizhao Zhang, Xiaoliang Dai, Yingyan Lin
Abstract要約: 我々は,Codec Avatarのリアルタイムかつ堅牢な運転を可能にするAuto-CARDというフレームワークを提案する。評価のために、リアルタイムのCodec Avatar駆動設定におけるAuto-CARDフレームワークの有効性を示す。
参考スコア（独自算出の注目度）: 27.763047709846713
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Real-time and robust photorealistic avatars for telepresence in AR/VR have been highly desired for enabling immersive photorealistic telepresence. However, there still exists one key bottleneck: the considerable computational expense needed to accurately infer facial expressions captured from headset-mounted cameras with a quality level that can match the realism of the avatar's human appearance. To this end, we propose a framework called Auto-CARD, which for the first time enables real-time and robust driving of Codec Avatars when exclusively using merely on-device computing resources. This is achieved by minimizing two sources of redundancy. First, we develop a dedicated neural architecture search technique called AVE-NAS for avatar encoding in AR/VR, which explicitly boosts both the searched architectures' robustness in the presence of extreme facial expressions and hardware friendliness on fast evolving AR/VR headsets. Second, we leverage the temporal redundancy in consecutively captured images during continuous rendering and develop a mechanism dubbed LATEX to skip the computation of redundant frames. Specifically, we first identify an opportunity from the linearity of the latent space derived by the avatar decoder and then propose to perform adaptive latent extrapolation for redundant frames. For evaluation, we demonstrate the efficacy of our Auto-CARD framework in real-time Codec Avatar driving settings, where we achieve a 5.05x speed-up on Meta Quest 2 while maintaining a comparable or even better animation quality than state-of-the-art avatar encoder designs.
Abstract（参考訳）: AR/VRにおけるテレプレゼンスのためのリアルタイムで堅牢なフォトリアリスティックアバターは、没入型フォトリアリスティックテレプレゼンスを実現するために非常に望まれている。しかし、ヘッドセットに搭載されたカメラから捉えた表情を正確に推測するために必要なかなりの計算コストは、アバターの人間の外観の現実性に匹敵する品質レベルである。そこで我々は,デバイス上でのみのコンピューティングリソースを使用する場合,初めてCodec Avatarのリアルタイムかつ堅牢な運転を可能にするAuto-CARDというフレームワークを提案する。これは2つの冗長性の源を最小化する。まず、AR/VRにおけるアバターエンコーディングのためのAVE-NASと呼ばれる専用ニューラルネットワークサーチ手法を開発し、極端な表情の存在下での検索されたアーキテクチャの堅牢性と、急速に進化するAR/VRヘッドセットに対するハードウェアフレンドリさの両方を明確に促進する。第2に,連続レンダリング中の画像の時間的冗長性を利用して,冗長フレームの計算を省略するLATEXと呼ばれる機構を開発する。具体的には,まずアバターデコーダによって導かれる潜在空間の線形性から機会を特定し,冗長フレームに対する適応的潜在外挿を行うことを提案する。評価のために、リアルタイムのCodec Avatar駆動設定におけるAuto-CARDフレームワークの有効性を実証し、Meta Quest 2における5.05倍のスピードアップを実現し、最先端のアバターエンコーダ設計と同等あるいはそれ以上のアニメーション品質を維持した。

関連論文リスト

SqueezeMe: Mobile-Ready Distillation of Gaussian Full-Body Avatars [19.249226899376943]
本稿では,高忠実度3Dガウスフルボディアバターを軽量な表現に変換するフレームワークであるSqueezeMeを紹介する。私たちはMeta Quest 3 VRヘッドセットで3つのガウスアバターをリアルタイムで(72FPS)同時アニメーションとレンダリングを初めて実現しました。
論文参考訳（メタデータ） (2024-12-19T18:46:55Z)
Generalizable and Animatable Gaussian Head Avatar [50.34788590904843]
本稿では,GAGAvatar(Generalizable and Animatable Gaussian Head Avatar)を提案する。我々は、1つの前方通過で1つの画像から3次元ガウスのパラメータを生成する。提案手法は, 従来の手法と比較して, 再現性や表現精度の点で優れた性能を示す。
論文参考訳（メタデータ） (2024-10-10T14:29:00Z)
LightAvatar: Efficient Head Avatar as Dynamic Neural Light Field [58.93692943064746]
ニューラル光場(NeLF)に基づく最初の頭部アバターモデルであるLightAvatarを紹介する。 LightAvatarは3DMMパラメータから画像をレンダリングし、メッシュやボリュームレンダリングを使わずに、単一のネットワークフォワードパスを介してカメラがポーズする。
論文参考訳（メタデータ） (2024-09-26T17:00:02Z)
Universal Facial Encoding of Codec Avatars from VR Headsets [32.60236093340087]
コンシューマー向けVRヘッドセットのヘッドマウントカメラ(HMC)を用いて,光リアルアバターをリアルタイムにアニメーションする手法を提案する。本稿では,実行時の効率向上に最小限のコストで精度を高める軽量な式キャリブレーション機構を提案する。
論文参考訳（メタデータ） (2024-07-17T22:08:15Z)
MobilePortrait: Real-Time One-Shot Neural Head Avatars on Mobile Devices [16.489105620313065]
MobilePortraitは、モーションモデリングと画像合成の両方に外部知識を統合することで、学習の複雑さを低減するワンショットのニューラルヘッドアバター手法である。計算要求の10分の1未満で最先端のパフォーマンスを達成する。モバイルデバイス上で100 FPS以上の速度に到達し、ビデオおよびオーディオ駆動のインプットをサポートすることが検証されている。
論文参考訳（メタデータ） (2024-07-08T08:12:57Z)
ASH: Animatable Gaussian Splats for Efficient and Photoreal Human Rendering [62.81677824868519]
本稿では,動的人間をリアルタイムに写実的にレンダリングするためのアニマタブルなガウススプラッティング手法を提案する。我々は、被服をアニマタブルな3Dガウスとしてパラメータ化し、画像空間に効率よく切り込み、最終的なレンダリングを生成する。我々は、ポーズ制御可能なアバターの競合手法を用いてASHをベンチマークし、我々の手法が既存のリアルタイムメソッドよりも大きなマージンで優れており、オフラインメソッドよりも同等またはそれ以上の結果を示すことを示した。
論文参考訳（メタデータ） (2023-12-10T17:07:37Z)
Real-Time Radiance Fields for Single-Image Portrait View Synthesis [85.32826349697972]
本研究では,1つの未提示画像からリアルタイムに3D表現を推測・描画するワンショット手法を提案する。一つのRGB入力が与えられた場合、画像エンコーダは、ボリュームレンダリングによる3次元新規ビュー合成のためのニューラルラディアンスフィールドの標準三面体表現を直接予測する。提案手法は消費者ハードウェア上で高速(24fps)であり,テスト時間最適化を必要とする強力なGAN反転ベースラインよりも高品質な結果が得られる。
論文参考訳（メタデータ） (2023-05-03T17:56:01Z)
InstantAvatar: Learning Avatars from Monocular Video in 60 Seconds [43.41503529747328]
本研究では,モノクロ映像から人間のアバターを数秒で再構築できるシステムを提案する。既存の方法と比較して、InstantAvatarは130倍早く収束し、数時間ではなく数分で訓練できる。
論文参考訳（メタデータ） (2022-12-20T18:53:58Z)
NeRFPlayer: A Streamable Dynamic Scene Representation with Decomposed Neural Radiance Fields [99.57774680640581]
本稿では、高速な再構成、コンパクトなモデリング、およびストリーム可能なレンダリングが可能な効率的なフレームワークを提案する。本稿では, 時間特性に応じて4次元空間を分解することを提案する。4次元空間の点は, 静的, 変形, および新しい領域の3つのカテゴリに属する確率に関連付けられている。
論文参考訳（メタデータ） (2022-10-28T07:11:05Z)
Pixel Codec Avatars [99.36561532588831]
Pixel Codec Avatars(PiCA)は、3D人間の顔の深い生成モデルです。 oculus quest 2のモバイルvrヘッドセットでは、同じシーンで5つのアバターがリアルタイムでレンダリングされる。
論文参考訳（メタデータ） (2021-04-09T23:17:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。