論文の概要: Bridging the Gap: Studio-like Avatar Creation from a Monocular Phone Capture
- arxiv url: http://arxiv.org/abs/2407.19593v2
- Date: Tue, 30 Jul 2024 02:20:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-31 12:20:00.580338
- Title: Bridging the Gap: Studio-like Avatar Creation from a Monocular Phone Capture
- Title(参考訳): ギャップを埋める:単眼の携帯電話からスタジオのようなアバターを作る
- Authors: ShahRukh Athar, Shunsuke Saito, Zhengyu Yang, Stanislav Pidhorsky, Chen Cao,
- Abstract要約: そこで本研究では,短い単眼電話からスタジオライクな照明テクスチャマップを生成する手法を提案する。
これは、StyleGAN2の$W+$スペースを使って、電話のテクスチャマップをパラメータ化することで実現します。
トレーニングが終わると、私たちは、カジュアルなモノクラースマートフォンビデオからスタジオのような顔のテクスチャマップを作るのに長けています。
- 参考スコア(独自算出の注目度): 17.819345261491378
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Creating photorealistic avatars for individuals traditionally involves extensive capture sessions with complex and expensive studio devices like the LightStage system. While recent strides in neural representations have enabled the generation of photorealistic and animatable 3D avatars from quick phone scans, they have the capture-time lighting baked-in, lack facial details and have missing regions in areas such as the back of the ears. Thus, they lag in quality compared to studio-captured avatars. In this paper, we propose a method that bridges this gap by generating studio-like illuminated texture maps from short, monocular phone captures. We do this by parameterizing the phone texture maps using the $W^+$ space of a StyleGAN2, enabling near-perfect reconstruction. Then, we finetune a StyleGAN2 by sampling in the $W^+$ parameterized space using a very small set of studio-captured textures as an adversarial training signal. To further enhance the realism and accuracy of facial details, we super-resolve the output of the StyleGAN2 using carefully designed diffusion model that is guided by image gradients of the phone-captured texture map. Once trained, our method excels at producing studio-like facial texture maps from casual monocular smartphone videos. Demonstrating its capabilities, we showcase the generation of photorealistic, uniformly lit, complete avatars from monocular phone captures. The project page can be found at http://shahrukhathar.github.io/2024/07/22/Bridging.html
- Abstract(参考訳): 個人のためにフォトリアリスティックなアバターを作るには、LightStageシステムのような複雑で高価なスタジオデバイスで広範囲に撮影セッションを行う必要がある。
ニューラル表現の最近の進歩により、高速な電話スキャンからフォトリアリスティックおよびアニマタブルな3Dアバターの生成が可能になったが、撮影時の照明は内蔵されており、顔の詳細が欠如しており、耳の後ろのような領域に欠けている。
そのため、スタジオで撮影するアバターに比べて品質が低下した。
本稿では,このギャップを埋める手法として,短い単眼電話からスタジオライクな照明テクスチャマップを生成する手法を提案する。
そこで我々は、StyleGAN2の$W^+$空間を用いて、音声テクスチャマップのパラメータ化を行い、ほぼ完全な再構成を可能にする。
そこで,StyleGAN2 を W^+$パラメタライズド空間にサンプリングし,非常に小さなスタジオ捕獲テクスチャを対角訓練信号として用いた。
顔のディテールの現実性と精度をさらに高めるため,携帯電話のテクスチャマップの画像勾配によって導かれる慎重に設計された拡散モデルを用いて,StyleGAN2の出力を超解する。
トレーニングが終わると、私たちは、カジュアルなモノクラースマートフォンビデオからスタジオのような顔のテクスチャマップを作るのに長けています。
その能力を実証し、モノクラー電話のキャプチャから、フォトリアリスティックで、均一に照らされた完全なアバターを創出する。
プロジェクトのページはhttp://shahrukhathar.github.io/2024/07/22/Bridging.htmlにある。
関連論文リスト
- DEGAS: Detailed Expressions on Full-Body Gaussian Avatars [13.683836322899953]
顔表情の豊かなフルボディアバターに対する3次元ガウススティング(3DGS)に基づくモデリング手法であるDEGASを提案する。
本稿では,2次元の顔と3次元のアバターのギャップを埋めて,2次元の肖像画にのみ訓練された潜在空間を採用することを提案する。
論文 参考訳(メタデータ) (2024-08-20T06:52:03Z) - DreamScene360: Unconstrained Text-to-3D Scene Generation with Panoramic Gaussian Splatting [56.101576795566324]
テキストから3D 360$circ$のシーン生成パイプラインを提示する。
提案手法は, 2次元拡散モデルの生成力を利用して, 自己複製を促進する。
当社の手法は,360ドル(約3万2000円)の視野内で,グローバルに一貫した3Dシーンを提供する。
論文 参考訳(メタデータ) (2024-04-10T10:46:59Z) - TexVocab: Texture Vocabulary-conditioned Human Avatars [42.170169762733835]
TexVocabは、テクスチャ語彙を構築し、ボディポーズをアニメーション用のテクスチャマップに関連付ける新しいアバター表現である。
提案手法は,RGBビデオから詳細な動的外見を持つアニマタブルなヒトアバターを作成できる。
論文 参考訳(メタデータ) (2024-03-31T01:58:04Z) - UltrAvatar: A Realistic Animatable 3D Avatar Diffusion Model with Authenticity Guided Textures [80.047065473698]
幾何学の忠実度を高めたUltrAvatarと呼ばれる新しい3次元アバター生成手法を提案し,光を必要とせずに物理ベースレンダリング(PBR)テクスチャの質を向上する。
提案手法の有効性とロバスト性を実証し,実験において最先端の手法よりも高い性能を示した。
論文 参考訳(メタデータ) (2024-01-20T01:55:17Z) - HQ3DAvatar: High Quality Controllable 3D Head Avatar [65.70885416855782]
本稿では,高フォトリアリスティックなデジタルヘッドアバターを構築するための新しいアプローチを提案する。
本手法はニューラルネットワークによってパラメータ化された暗黙関数を用いて標準空間を学習する。
テスト時,本手法は単眼のRGBビデオによって駆動される。
論文 参考訳(メタデータ) (2023-03-25T13:56:33Z) - DINAR: Diffusion Inpainting of Neural Textures for One-Shot Human
Avatars [7.777410338143783]
本稿では,1枚のRGB画像からリアルなフルボディアバターを作成するためのアプローチを提案する。
本手法は, SMPL-Xボディーモデルと組み合わせた神経テクスチャを用いて, アバターのフォトリアリスティックな品質を実現する。
実験では、最新のレンダリング品質と、新しいポーズや視点への優れた一般化を実現する。
論文 参考訳(メタデータ) (2023-03-16T15:04:10Z) - RANA: Relightable Articulated Neural Avatars [83.60081895984634]
本稿では,ヒトの光合成のための光合成アバターであるRANAを提案する。
モノクラーRGBビデオの幾何学、テクスチャ、照明環境を両立させながら、人間をモデル化する新しい枠組みを提案する。
論文 参考訳(メタデータ) (2022-12-06T18:59:31Z) - EgoRenderer: Rendering Human Avatars from Egocentric Camera Images [87.96474006263692]
EgoRendererは、ウェアラブルでエゴ中心の魚眼カメラで捉えた人の全身神経アバターをレンダリングするシステムである。
このようなエゴセントリックなイメージからフルボディのアバターをレンダリングすることは、トップダウンのビューと大きな歪みのために、ユニークな課題を生んでいる。
レンダリング処理をテクスチャ合成,ポーズ構築,ニューラルイメージ変換など,いくつかのステップに分解することで,これらの課題に対処する。
論文 参考訳(メタデータ) (2021-11-24T18:33:02Z) - High-fidelity Face Tracking for AR/VR via Deep Lighting Adaptation [117.32310997522394]
3Dビデオアバターは、圧縮、プライバシー、エンターテイメント、AR/VRにおける存在感を提供することで、仮想コミュニケーションを強化することができる。
既存の人物固有の3dモデルは照明に頑健ではないため、その結果は通常微妙な顔の振る舞いを見逃し、アバターにアーティファクトを引き起こす。
本論文では,高品質の3D顔追跡アルゴリズムを組み合わせたディープラーニング照明モデルを用いて,通常の映像から3Dフォトリアリズムアバターへの微妙かつ堅牢な顔の動き伝達手法を提案する。
論文 参考訳(メタデータ) (2021-03-29T18:33:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。