論文の概要: DiffPortrait3D: Controllable Diffusion for Zero-Shot Portrait View
Synthesis
- arxiv url: http://arxiv.org/abs/2312.13016v1
- Date: Wed, 20 Dec 2023 13:31:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-21 15:44:14.251340
- Title: DiffPortrait3D: Controllable Diffusion for Zero-Shot Portrait View
Synthesis
- Title(参考訳): DiffPortrait3D:ゼロショットポートレートビュー合成のための制御可能な拡散
- Authors: Yuming Gu, Hongyi Xu, You Xie, Guoxian Song, Yichun Shi, Di Chang,
Jing Yang, Lingjie Luo
- Abstract要約: 本稿では,DiffPortrait3Dについて述べる。DiffPortrait3Dは,3次元一貫性のあるフォトリアリスティック・ノベルビューを合成できる条件拡散モデルである。
一つのRGB入力が与えられた場合、我々は、新しいカメラビューから表現された、可塑性だが一貫した顔の詳細を合成することを目指している。
我々は、我々の挑戦的インザワイルドとマルチビューのベンチマークにおいて、質的にも定量的にも、最先端の結果を実証する。
- 参考スコア(独自算出の注目度): 17.700471766348436
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We present DiffPortrait3D, a conditional diffusion model that is capable of
synthesizing 3D-consistent photo-realistic novel views from as few as a single
in-the-wild portrait. Specifically, given a single RGB input, we aim to
synthesize plausible but consistent facial details rendered from novel camera
views with retained both identity and facial expression. In lieu of
time-consuming optimization and fine-tuning, our zero-shot method generalizes
well to arbitrary face portraits with unposed camera views, extreme facial
expressions, and diverse artistic depictions. At its core, we leverage the
generative prior of 2D diffusion models pre-trained on large-scale image
datasets as our rendering backbone, while the denoising is guided with
disentangled attentive control of appearance and camera pose. To achieve this,
we first inject the appearance context from the reference image into the
self-attention layers of the frozen UNets. The rendering view is then
manipulated with a novel conditional control module that interprets the camera
pose by watching a condition image of a crossed subject from the same view.
Furthermore, we insert a trainable cross-view attention module to enhance view
consistency, which is further strengthened with a novel 3D-aware noise
generation process during inference. We demonstrate state-of-the-art results
both qualitatively and quantitatively on our challenging in-the-wild and
multi-view benchmarks.
- Abstract(参考訳): 本稿では,DiffPortrait3Dという条件付き拡散モデルについて述べる。
具体的には、単一のRGB入力を前提として、アイデンティティと表情の両方を保持する新しいカメラビューから、可塑性だが一貫した顔の詳細を合成することを目的としている。
時間を要する最適化と微調整に代えて,ゼロショット方式は,不適切なカメラビュー,極端な表情,多彩な芸術的描写を備えた任意の顔のポートレートにうまく一般化する。
その中心となるのが,大規模画像データセットで事前学習した2次元拡散モデルの生成前処理をレンダリングバックボーンとして活用すると同時に,外観とカメラの姿勢の無角な注意制御によって雑音を誘導する手法である。
そこで我々はまず,凍結したユニセットの自己注意層に参照画像から外観コンテキストを注入する。
そして、レンダリングビューを、同じビューから横断被写体の条件画像を見て、カメラポーズを解釈する新しい条件制御モジュールで操作する。
さらに,学習可能なクロスビューアテンションモジュールを挿入することで,新たな3dアウェアノイズ生成プロセスによってさらに強化され,ビュー一貫性が向上する。
我々は,本研究の課題であるマルチビュー・イン・ザ・ワイルドベンチマークを質的かつ定量的に評価し,最新結果を実証する。
関連論文リスト
- Towards High-Fidelity 3D Portrait Generation with Rich Details by Cross-View Prior-Aware Diffusion [63.81544586407943]
シングルイメージの3Dポートレート生成法は通常、多視点の知識を提供するために2次元拡散モデルを使用し、それを3次元表現に蒸留する。
本稿では,複数ビュー画像の状態の整合性を高める条件として,複数ビュー先行を明示的かつ暗黙的に組み込んだハイブリッド優先ディフジョンモデルを提案する。
実験により,1枚の画像から正確な幾何学的,詳細な3次元像を作成できることが示された。
論文 参考訳(メタデータ) (2024-11-15T17:19:18Z) - MultiDiff: Consistent Novel View Synthesis from a Single Image [60.04215655745264]
MultiDiffは、単一のRGB画像からシーンを一貫した新しいビュー合成のための新しいアプローチである。
以上の結果から,MultiDiffは,課題の多いリアルタイムデータセットであるRealEstate10KとScanNetにおいて,最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-06-26T17:53:51Z) - Long-Term Photometric Consistent Novel View Synthesis with Diffusion
Models [24.301334966272297]
本稿では,特定のカメラ軌跡に整合したフォトリアリスティックな画像列を生成できる新しい生成モデルを提案する。
生成したビューのシーケンス上の一貫性を測定するために、新しい計量、しきい値付き対称極性距離(TSED)を導入する。
論文 参考訳(メタデータ) (2023-04-21T02:01:02Z) - Zero-1-to-3: Zero-shot One Image to 3D Object [30.455300183998247]
単一のRGB画像のみを与えられたオブジェクトのカメラ視点を変更するためのフレームワークであるZero-1-to-3を紹介する。
条件拡散モデルは、合成データセットを用いて、相対カメラ視点の制御を学習する。
提案手法は,インターネット規模の事前学習を活用して,最先端の1次元3次元再構成と新しいビュー合成モデルよりも優れていた。
論文 参考訳(メタデータ) (2023-03-20T17:59:50Z) - DiffDreamer: Towards Consistent Unsupervised Single-view Scene
Extrapolation with Conditional Diffusion Models [91.94566873400277]
DiffDreamerは、長いカメラ軌跡を描いた新しいビューを合成できる教師なしのフレームワークである。
画像条件付き拡散モデルでは, 従来のGAN法よりも一貫性を保ちながら, 長距離シーン外挿を効果的に行うことができることを示す。
論文 参考訳(メタデータ) (2022-11-22T10:06:29Z) - Novel View Synthesis with Diffusion Models [56.55571338854636]
本稿では,3Dノベルビュー合成のための拡散モデルである3DiMを提案する。
単一のインプットビューを多くのビューで一貫したシャープな補完に変換することができる。
3DiMは、条件付けと呼ばれる新しい技術を使って、3D一貫性のある複数のビューを生成することができる。
論文 参考訳(メタデータ) (2022-10-06T16:59:56Z) - Explicitly Controllable 3D-Aware Portrait Generation [42.30481422714532]
ポーズ,アイデンティティ,表現,照明に関する意味的パラメータに基づいて,一貫した肖像画を生成する3次元肖像画生成ネットワークを提案する。
提案手法は,自然光の鮮明な表現によるリアルな肖像画を,自由視点で見る場合,先行技術よりも優れる。
論文 参考訳(メタデータ) (2022-09-12T17:40:08Z) - GAUDI: A Neural Architect for Immersive 3D Scene Generation [67.97817314857917]
GAUDIは、動くカメラから没入的にレンダリングできる複雑な3Dシーンの分布をキャプチャできる生成モデルである。
GAUDIは,複数のデータセットにまたがる非条件生成環境において,最先端の性能が得られることを示す。
論文 参考訳(メタデータ) (2022-07-27T19:10:32Z) - LiP-Flow: Learning Inference-time Priors for Codec Avatars via
Normalizing Flows in Latent Space [90.74976459491303]
実行時入力に条件付けされた先行モデルを導入し、この先行空間を潜伏空間の正規化フローを介して3次元顔モデルに結びつける。
正規化フローは2つの表現空間をブリッジし、潜在サンプルをある領域から別の領域に変換することで、潜在可能性の目的を定義する。
提案手法は,表情のダイナミックスや微妙な表現をよりよく捉えることによって,表現的かつ効果的に先行することを示す。
論文 参考訳(メタデータ) (2022-03-15T13:22:57Z) - FreeStyleGAN: Free-view Editable Portrait Rendering with the Camera
Manifold [5.462226912969161]
現在のGAN(Generative Adversarial Networks)は、ポートレート画像のフォトリアリスティックレンダリングを生成する。
当社のアプローチは,トレーニング済みのStyleGANを標準の3Dレンダリングパイプラインに統合する上で,どのような効果があるかを示す。
本手法は,インタラクティブなレートでリアルな顔の真の自由視点レンダリングを提案する。
論文 参考訳(メタデータ) (2021-09-20T08:59:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。