論文の概要: MobilePortrait: Real-Time One-Shot Neural Head Avatars on Mobile Devices
- arxiv url: http://arxiv.org/abs/2407.05712v1
- Date: Mon, 8 Jul 2024 08:12:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-09 16:30:32.524520
- Title: MobilePortrait: Real-Time One-Shot Neural Head Avatars on Mobile Devices
- Title(参考訳): MobilePortrait: モバイルデバイス上のリアルタイムワンショットニューラルヘッドアバター
- Authors: Jianwen Jiang, Gaojie Lin, Zhengkun Rong, Chao Liang, Yongming Zhu, Jiaqi Yang, Tianyun Zhong,
- Abstract要約: MobilePortraitは、モーションモデリングと画像合成の両方に外部知識を統合することで、学習の複雑さを低減するワンショットのニューラルヘッドアバター手法である。
計算要求の10分の1未満で最先端のパフォーマンスを達成する。
モバイルデバイス上で100 FPS以上の速度に到達し、ビデオおよびオーディオ駆動のインプットをサポートすることが検証されている。
- 参考スコア(独自算出の注目度): 16.489105620313065
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing neural head avatars methods have achieved significant progress in the image quality and motion range of portrait animation. However, these methods neglect the computational overhead, and to the best of our knowledge, none is designed to run on mobile devices. This paper presents MobilePortrait, a lightweight one-shot neural head avatars method that reduces learning complexity by integrating external knowledge into both the motion modeling and image synthesis, enabling real-time inference on mobile devices. Specifically, we introduce a mixed representation of explicit and implicit keypoints for precise motion modeling and precomputed visual features for enhanced foreground and background synthesis. With these two key designs and using simple U-Nets as backbones, our method achieves state-of-the-art performance with less than one-tenth the computational demand. It has been validated to reach speeds of over 100 FPS on mobile devices and support both video and audio-driven inputs.
- Abstract(参考訳): 既存のニューラルヘッドアバター法は、ポートレートアニメーションの画質と運動範囲に大きな進歩を遂げた。
しかし、これらの手法は計算オーバーヘッドを無視し、私たちの知る限り、モバイルデバイス上で動くように設計されていない。
本稿では,モーションモデリングと画像合成の両方に外部知識を統合することで,学習の複雑さを低減し,モバイルデバイス上でリアルタイムな推論を可能にする,軽量なワンショットニューラルヘッドアバターであるMobilePortraitを提案する。
具体的には、精密な動きモデリングのための暗黙的キーポイントと暗黙的キーポイントの混合表現と、前景と背景合成の強化のための事前計算された視覚特徴を導入する。
これら2つのキー設計と単純なU-Netをバックボーンとして使用することにより,計算要求の10分の1以下で最先端の性能を実現する。
モバイルデバイス上で100 FPS以上の速度に到達し、ビデオおよびオーディオ駆動のインプットをサポートすることが検証されている。
関連論文リスト
- Universal Facial Encoding of Codec Avatars from VR Headsets [32.60236093340087]
コンシューマー向けVRヘッドセットのヘッドマウントカメラ(HMC)を用いて,光リアルアバターをリアルタイムにアニメーションする手法を提案する。
本稿では,実行時の効率向上に最小限のコストで精度を高める軽量な式キャリブレーション機構を提案する。
論文 参考訳(メタデータ) (2024-07-17T22:08:15Z) - Real-Time Simulated Avatar from Head-Mounted Sensors [70.41580295721525]
我々はAR/VRヘッドセットから得られた情報(ヘッドセットポーズとカメラ)からシミュレーションアバターを制御するSimXRを提案する。
カメラでヘッドセットのポーズを合成するために、人型ロボットを制御してヘッドセットの動きをトラッキングし、入力画像を分析して身体の動きを決定する。
体の一部が見えると、手足の動きは画像によって案内され、見えない場合は物理法則が制御器を誘導して可塑性運動を発生させる。
論文 参考訳(メタデータ) (2024-03-11T16:15:51Z) - From Audio to Photoreal Embodiment: Synthesizing Humans in Conversations [107.88375243135579]
音声を聴くと、顔、体、手を含む個人に対して、ジェスチャー動作の可能性を複数出力する。
ジェスチャーにおいて重要なニュアンスを表現できる高光写実性アバターを用いて生成した動きを可視化する。
実験により,本モデルが適切な多様なジェスチャーを生成することを示し,拡散法とVQ法の両方に優れることがわかった。
論文 参考訳(メタデータ) (2024-01-03T18:55:16Z) - Real-time volumetric rendering of dynamic humans [83.08068677139822]
本研究では,モノクラービデオから動的人間の高速3次元再構成とリアルタイムレンダリングを行う手法を提案する。
提案手法は, 72時間を要する最近の最先端の代替技術と比較して, 3時間未満で動的人間を1つのGPUで再構築することができる。
新たなローカル光線マーチングレンダリングにより、モバイルVRデバイス上で、視覚的品質の損失を最小限に抑えて、ニューラルヒューマンを毎秒40フレームで可視化することができる。
論文 参考訳(メタデータ) (2023-03-21T14:41:25Z) - MegaPortraits: One-shot Megapixel Neural Head Avatars [7.05068904295608]
本研究では,中分解能映像データと高分解能画像データの両方を活用するニューラルアーキテクチャとトレーニング手法を提案する。
訓練された高分解能ニューラルアバターモデルを、リアルタイムに動作する軽量の学生モデルに蒸留する方法を示す。
リアルタイム操作とIDロックは多くの実用的アバターシステムに必須である。
論文 参考訳(メタデータ) (2022-07-15T17:32:37Z) - Semantic-Aware Implicit Neural Audio-Driven Video Portrait Generation [61.8546794105462]
我々は,一組のNeRFを用いて,繊細な音声駆動のポートレートを生成するセマンティック・アウェア・ポーティング・ポートレート・ネRF(SSP-NeRF)を提案する。
まず,音声によるボリュームレンダリングを容易にする解析機能を備えたSemantic-Aware Dynamic Ray Smplingモジュールを提案する。
1つの統合神経放射場におけるポートレートレンダリングを可能にするため、Torso変形モジュールは、大規模な非剛性胴体運動を安定させるように設計されている。
論文 参考訳(メタデータ) (2022-01-19T18:54:41Z) - PIRenderer: Controllable Portrait Image Generation via Semantic Neural
Rendering [56.762094966235566]
ポートレート画像ニューラルレンダは、3次元の変形可能な顔モデルのパラメータで顔の動きを制御するために提案される。
提案モデルでは直感的な修正によって正確な動きで写真リアルなポートレート画像を生成することができる。
本モデルでは、単一の参照画像と駆動音声ストリームのみから、説得力のある動きでコヒーレントな動画を生成することができる。
論文 参考訳(メタデータ) (2021-09-17T07:24:16Z) - Neural Human Performer: Learning Generalizable Radiance Fields for Human
Performance Rendering [34.80975358673563]
本稿では,強靭なパフォーマンスキャプチャのためのパラメトリック人体モデルに基づいて,一般化可能なニューラルラジアンス場を学習する手法を提案する。
ZJU-MoCap と AIST のデータセットを用いた実験により,本手法は近頃の一般化可能な NeRF 法よりも顕著に優れていることが示された。
論文 参考訳(メタデータ) (2021-09-15T17:32:46Z) - Pixel Codec Avatars [99.36561532588831]
Pixel Codec Avatars(PiCA)は、3D人間の顔の深い生成モデルです。
oculus quest 2のモバイルvrヘッドセットでは、同じシーンで5つのアバターがリアルタイムでレンダリングされる。
論文 参考訳(メタデータ) (2021-04-09T23:17:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。