論文の概要: Bridging the Gap: Studio-like Avatar Creation from a Monocular Phone Capture
- arxiv url: http://arxiv.org/abs/2407.19593v2
- Date: Tue, 30 Jul 2024 02:20:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-31 12:20:00.580338
- Title: Bridging the Gap: Studio-like Avatar Creation from a Monocular Phone Capture
- Title(参考訳): ギャップを埋める:単眼の携帯電話からスタジオのようなアバターを作る
- Authors: ShahRukh Athar, Shunsuke Saito, Zhengyu Yang, Stanislav Pidhorsky, Chen Cao,
- Abstract要約: そこで本研究では,短い単眼電話からスタジオライクな照明テクスチャマップを生成する手法を提案する。
これは、StyleGAN2の$W+$スペースを使って、電話のテクスチャマップをパラメータ化することで実現します。
トレーニングが終わると、私たちは、カジュアルなモノクラースマートフォンビデオからスタジオのような顔のテクスチャマップを作るのに長けています。
- 参考スコア(独自算出の注目度): 17.819345261491378
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Creating photorealistic avatars for individuals traditionally involves extensive capture sessions with complex and expensive studio devices like the LightStage system. While recent strides in neural representations have enabled the generation of photorealistic and animatable 3D avatars from quick phone scans, they have the capture-time lighting baked-in, lack facial details and have missing regions in areas such as the back of the ears. Thus, they lag in quality compared to studio-captured avatars. In this paper, we propose a method that bridges this gap by generating studio-like illuminated texture maps from short, monocular phone captures. We do this by parameterizing the phone texture maps using the $W^+$ space of a StyleGAN2, enabling near-perfect reconstruction. Then, we finetune a StyleGAN2 by sampling in the $W^+$ parameterized space using a very small set of studio-captured textures as an adversarial training signal. To further enhance the realism and accuracy of facial details, we super-resolve the output of the StyleGAN2 using carefully designed diffusion model that is guided by image gradients of the phone-captured texture map. Once trained, our method excels at producing studio-like facial texture maps from casual monocular smartphone videos. Demonstrating its capabilities, we showcase the generation of photorealistic, uniformly lit, complete avatars from monocular phone captures. The project page can be found at http://shahrukhathar.github.io/2024/07/22/Bridging.html
- Abstract(参考訳): 個人のためにフォトリアリスティックなアバターを作るには、LightStageシステムのような複雑で高価なスタジオデバイスで広範囲に撮影セッションを行う必要がある。
ニューラル表現の最近の進歩により、高速な電話スキャンからフォトリアリスティックおよびアニマタブルな3Dアバターの生成が可能になったが、撮影時の照明は内蔵されており、顔の詳細が欠如しており、耳の後ろのような領域に欠けている。
そのため、スタジオで撮影するアバターに比べて品質が低下した。
本稿では,このギャップを埋める手法として,短い単眼電話からスタジオライクな照明テクスチャマップを生成する手法を提案する。
そこで我々は、StyleGAN2の$W^+$空間を用いて、音声テクスチャマップのパラメータ化を行い、ほぼ完全な再構成を可能にする。
そこで,StyleGAN2 を W^+$パラメタライズド空間にサンプリングし,非常に小さなスタジオ捕獲テクスチャを対角訓練信号として用いた。
顔のディテールの現実性と精度をさらに高めるため,携帯電話のテクスチャマップの画像勾配によって導かれる慎重に設計された拡散モデルを用いて,StyleGAN2の出力を超解する。
トレーニングが終わると、私たちは、カジュアルなモノクラースマートフォンビデオからスタジオのような顔のテクスチャマップを作るのに長けています。
その能力を実証し、モノクラー電話のキャプチャから、フォトリアリスティックで、均一に照らされた完全なアバターを創出する。
プロジェクトのページはhttp://shahrukhathar.github.io/2024/07/22/Bridging.htmlにある。
関連論文リスト
- DreamScene360: Unconstrained Text-to-3D Scene Generation with Panoramic Gaussian Splatting [56.101576795566324]
テキストから3D 360$circ$のシーン生成パイプラインを提示する。
提案手法は, 2次元拡散モデルの生成力を利用して, 自己複製を促進する。
当社の手法は,360ドル(約3万2000円)の視野内で,グローバルに一貫した3Dシーンを提供する。
論文 参考訳(メタデータ) (2024-04-10T10:46:59Z) - TexVocab: Texture Vocabulary-conditioned Human Avatars [42.170169762733835]
TexVocabは、テクスチャ語彙を構築し、ボディポーズをアニメーション用のテクスチャマップに関連付ける新しいアバター表現である。
提案手法は,RGBビデオから詳細な動的外見を持つアニマタブルなヒトアバターを作成できる。
論文 参考訳(メタデータ) (2024-03-31T01:58:04Z) - Democratizing the Creation of Animatable Facial Avatars [2.1740466069378597]
光ステージやハイエンドハードウェアを使わずに幾何学やテクスチャを得るための新しいパイプラインを提案する。
キーとなる新しいアイデアは、テンプレートアバターの幾何学と整合するように現実世界の画像を歪めることである。
提案手法は,中性表現幾何学とデライトテクスチャを得るだけでなく,アニメーションシステムにインポートされたアバターの改良にも利用することができる。
論文 参考訳(メタデータ) (2024-01-29T20:14:40Z) - UltrAvatar: A Realistic Animatable 3D Avatar Diffusion Model with
Authenticity Guided Textures [87.44566848803994]
幾何学の忠実度を高めたUltrAvatarと呼ばれる新しい3次元アバター生成手法を提案し,光を必要とせずに物理ベースレンダリング(PBR)テクスチャの質を向上する。
提案手法の有効性とロバスト性を実証し,実験において最先端の手法よりも高い性能を示した。
論文 参考訳(メタデータ) (2024-01-20T01:55:17Z) - HQ3DAvatar: High Quality Controllable 3D Head Avatar [65.70885416855782]
本稿では,高フォトリアリスティックなデジタルヘッドアバターを構築するための新しいアプローチを提案する。
本手法はニューラルネットワークによってパラメータ化された暗黙関数を用いて標準空間を学習する。
テスト時,本手法は単眼のRGBビデオによって駆動される。
論文 参考訳(メタデータ) (2023-03-25T13:56:33Z) - DINAR: Diffusion Inpainting of Neural Textures for One-Shot Human
Avatars [7.777410338143783]
本稿では,1枚のRGB画像からリアルなフルボディアバターを作成するためのアプローチを提案する。
本手法は, SMPL-Xボディーモデルと組み合わせた神経テクスチャを用いて, アバターのフォトリアリスティックな品質を実現する。
実験では、最新のレンダリング品質と、新しいポーズや視点への優れた一般化を実現する。
論文 参考訳(メタデータ) (2023-03-16T15:04:10Z) - RANA: Relightable Articulated Neural Avatars [83.60081895984634]
本稿では,ヒトの光合成のための光合成アバターであるRANAを提案する。
モノクラーRGBビデオの幾何学、テクスチャ、照明環境を両立させながら、人間をモデル化する新しい枠組みを提案する。
論文 参考訳(メタデータ) (2022-12-06T18:59:31Z) - Pixel Codec Avatars [99.36561532588831]
Pixel Codec Avatars(PiCA)は、3D人間の顔の深い生成モデルです。
oculus quest 2のモバイルvrヘッドセットでは、同じシーンで5つのアバターがリアルタイムでレンダリングされる。
論文 参考訳(メタデータ) (2021-04-09T23:17:36Z) - High-fidelity Face Tracking for AR/VR via Deep Lighting Adaptation [117.32310997522394]
3Dビデオアバターは、圧縮、プライバシー、エンターテイメント、AR/VRにおける存在感を提供することで、仮想コミュニケーションを強化することができる。
既存の人物固有の3dモデルは照明に頑健ではないため、その結果は通常微妙な顔の振る舞いを見逃し、アバターにアーティファクトを引き起こす。
本論文では,高品質の3D顔追跡アルゴリズムを組み合わせたディープラーニング照明モデルを用いて,通常の映像から3Dフォトリアリズムアバターへの微妙かつ堅牢な顔の動き伝達手法を提案する。
論文 参考訳(メタデータ) (2021-03-29T18:33:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。