論文の概要: Stable Video Portraits
- arxiv url: http://arxiv.org/abs/2409.18083v1
- Date: Thu, 26 Sep 2024 17:26:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-27 21:38:28.239556
- Title: Stable Video Portraits
- Title(参考訳): 安定した動画ポートレイト
- Authors: Mirela Ostrek, Justus Thies,
- Abstract要約: SVPは、大きな事前訓練されたテキスト・ツー・イメージ(2D)を利用した、会話顔の映像を出力する2D/3Dハイブリッド生成方式である。
出力として、3DMMに基づく制御、すなわち人固有のアバターを持つ人の時間的に滑らかな画像を生成する。
本手法は定量的に定性的に解析し,最先端のモノクラーヘッドアバター法より優れていることを示す。
- 参考スコア(独自算出の注目度): 18.75693015338021
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Rapid advances in the field of generative AI and text-to-image methods in particular have transformed the way we interact with and perceive computer-generated imagery today. In parallel, much progress has been made in 3D face reconstruction, using 3D Morphable Models (3DMM). In this paper, we present SVP, a novel hybrid 2D/3D generation method that outputs photorealistic videos of talking faces leveraging a large pre-trained text-to-image prior (2D), controlled via a 3DMM (3D). Specifically, we introduce a person-specific fine-tuning of a general 2D stable diffusion model which we lift to a video model by providing temporal 3DMM sequences as conditioning and by introducing a temporal denoising procedure. As an output, this model generates temporally smooth imagery of a person with 3DMM-based controls, i.e., a person-specific avatar. The facial appearance of this person-specific avatar can be edited and morphed to text-defined celebrities, without any fine-tuning at test time. The method is analyzed quantitatively and qualitatively, and we show that our method outperforms state-of-the-art monocular head avatar methods.
- Abstract(参考訳): 生成的AIとテキスト・ツー・イメージの手法の分野での急速な進歩は、今日のコンピュータ生成画像との相互作用や知覚の方法を変えている。
並行して、3次元形態モデル(3DMM)を用いた3次元顔再構成にも多くの進歩があった。
本稿では,3DMM(3D)を介して制御される2Dの事前学習(2D)を利用した,対話面のフォトリアリスティックな映像を出力するハイブリッド2D/3D生成方式について述べる。
具体的には、時間的3DMMシーケンスを条件付けとして提供し、時間的復調手順を導入することで、ビデオモデルに持ち上げる一般的な2D安定拡散モデルの人固有の微調整を導入する。
出力として、3DMMに基づく制御、すなわち人固有のアバターを持つ人の時間的に滑らかな画像を生成する。
この人物特有のアバターの顔の外観は、テスト時に微調整することなく、テキスト定義された有名人に編集、変形することができる。
本手法は定量的に定性的に解析し,最先端のモノクラーヘッドアバター法より優れていることを示す。
関連論文リスト
- The More You See in 2D, the More You Perceive in 3D [32.578628729549145]
SAP3Dは、任意の数の未提示画像から3D再構成と新しいビュー合成を行うシステムである。
入力画像の数が増えるにつれて,提案手法の性能が向上することを示す。
論文 参考訳(メタデータ) (2024-04-04T17:59:40Z) - GAN-Avatar: Controllable Personalized GAN-based Human Head Avatar [48.21353924040671]
そこで本稿では,顔表情の正確な追跡を行うことなく,画像から人固有のアニマタブルなアバターを学習することを提案する。
3DMMの表情パラメータから生成モデルの潜在空間へのマッピングを学習する。
この方式により、3次元の外観再構成とアニメーション制御を分離し、画像合成における高忠実度を実現する。
論文 参考訳(メタデータ) (2023-11-22T19:13:00Z) - Instant3D: Fast Text-to-3D with Sparse-View Generation and Large
Reconstruction Model [68.98311213582949]
テキストプロンプトから高品質で多様な3Dアセットをフィードフォワードで生成する新しい手法であるInstant3Dを提案する。
提案手法は,従来の最適化手法よりも2桁早く,20秒以内に高画質の多種多様な3Dアセットを生成できる。
論文 参考訳(メタデータ) (2023-11-10T18:03:44Z) - AniPortraitGAN: Animatable 3D Portrait Generation from 2D Image
Collections [78.81539337399391]
顔の表情, 頭部ポーズ, 肩の動きを制御可能なポートレート画像を生成するアニマタブルな3D認識型GANを提案する。
これは、3Dやビデオデータを使用しない非構造化2次元画像コレクションで訓練された生成モデルである。
生成した顔の質を向上させるために,デュアルカメラレンダリングと対角学習方式を提案する。
論文 参考訳(メタデータ) (2023-09-05T12:44:57Z) - Articulated 3D Head Avatar Generation using Text-to-Image Diffusion
Models [107.84324544272481]
多様な頭部アバターを合成する能力は、拡張現実、撮影、教育など、多くの応用に不可欠である。
テキスト誘導型3Dオブジェクト生成に関する最近の研究は、これらのニーズに対処する上で大きな可能性を秘めている。
拡散に基づく頭部アバターは,この課題に対する最先端のアプローチよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-07-10T19:15:32Z) - Dynamic Neural Portraits [58.480811535222834]
フルヘッド再現問題に対する新しいアプローチであるDynamic Neural Portraitsを提案する。
本手法は,頭部ポーズ,表情,視線を明示的に制御し,写実的な映像像を生成する。
実験の結果,提案手法は最近のNeRF法よりも270倍高速であることがわかった。
論文 参考訳(メタデータ) (2022-11-25T10:06:14Z) - Next3D: Generative Neural Texture Rasterization for 3D-Aware Head
Avatars [36.4402388864691]
3D-Aware Generative Adversarial Network (GANs) は, 単一視点2D画像のコレクションのみを用いて, 高忠実かつ多視点の顔画像を合成する。
最近の研究は、3D Morphable Face Model (3DMM) を用いて、生成放射場における変形を明示的または暗黙的に記述している。
本研究では,非構造化2次元画像から生成的,高品質,かつ3D一貫性のある顔アバターの教師なし学習のための新しい3D GANフレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-21T06:40:46Z) - DRaCoN -- Differentiable Rasterization Conditioned Neural Radiance
Fields for Articulated Avatars [92.37436369781692]
フルボディの体積アバターを学習するためのフレームワークであるDRaCoNを提案する。
2Dと3Dのニューラルレンダリング技術の利点を利用する。
挑戦的なZJU-MoCapとHuman3.6Mデータセットの実験は、DRaCoNが最先端の手法より優れていることを示している。
論文 参考訳(メタデータ) (2022-03-29T17:59:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。