論文の概要: TurboPortrait3D: Single-step diffusion-based fast portrait novel-view synthesis
- arxiv url: http://arxiv.org/abs/2510.23929v1
- Date: Mon, 27 Oct 2025 23:28:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-29 15:35:36.617002
- Title: TurboPortrait3D: Single-step diffusion-based fast portrait novel-view synthesis
- Title(参考訳): TurboPortrait3D: 単一ステップ拡散に基づく高速ポートレートノベルビュー合成
- Authors: Emily Kim, Julieta Martinez, Timur Bagautdinov, Jessica Hodgins,
- Abstract要約: 人間の肖像画の低遅延ノベルビュー合成法であるTurboPortrait3Dを紹介する。
提案手法は,既存の3次元画像生成モデルが視覚的アーティファクトの傾向にあることを示すものである。
合成多視点データの大規模なコーパスの事前学習を含む,新しい効果的なトレーニング戦略を導入する。
- 参考スコア(独自算出の注目度): 1.238712117697886
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce TurboPortrait3D: a method for low-latency novel-view synthesis of human portraits. Our approach builds on the observation that existing image-to-3D models for portrait generation, while capable of producing renderable 3D representations, are prone to visual artifacts, often lack of detail, and tend to fail at fully preserving the identity of the subject. On the other hand, image diffusion models excel at generating high-quality images, but besides being computationally expensive, are not grounded in 3D and thus are not directly capable of producing multi-view consistent outputs. In this work, we demonstrate that image-space diffusion models can be used to significantly enhance the quality of existing image-to-avatar methods, while maintaining 3D-awareness and running with low-latency. Our method takes a single frontal image of a subject as input, and applies a feedforward image-to-avatar generation pipeline to obtain an initial 3D representation and corresponding noisy renders. These noisy renders are then fed to a single-step diffusion model which is conditioned on input image(s), and is specifically trained to refine the renders in a multi-view consistent way. Moreover, we introduce a novel effective training strategy that includes pre-training on a large corpus of synthetic multi-view data, followed by fine-tuning on high-quality real images. We demonstrate that our approach both qualitatively and quantitatively outperforms current state-of-the-art for portrait novel-view synthesis, while being efficient in time.
- Abstract(参考訳): 人間の肖像画の低遅延ノベルビュー合成法であるTurboPortrait3Dを紹介する。
提案手法は,既存の3次元画像生成モデルにおいて,レンダリング可能な3次元表現を生成できる一方で,視覚的アーティファクトの傾向が強く,細部が欠如している場合が多く,被写体のアイデンティティを完全に保存できない傾向にあることを示す。
一方,画像拡散モデルは高画質な画像を生成するのに優れるが,計算コストがかかる以外は3次元には根付いておらず,多視点一貫した出力を直接生成することができない。
本研究では,画像空間拡散モデルを用いて,3次元認識性を維持し,低レイテンシで実行しながら,既存の画像-アバター法の品質を大幅に向上させることができることを示す。
提案手法は,被験者の1つの正面像を入力とし,フィードフォワード画像-アバター生成パイプラインを適用して,初期3次元表現とそれに対応する雑音のレンダリングを求める。
これらのノイズのあるレンダリングは、入力画像に条件付けされた単一ステップ拡散モデルにフィードバックされ、マルチビュー一貫性のある方法でレンダリングを洗練するように特別に訓練される。
さらに,合成多視点データの大規模なコーパスの事前学習と高品質な実画像の微調整を含む,新たな効果的なトレーニング戦略を導入する。
筆者らによる手法は,現在最先端のポートレート・ノベル・ビュー・シンセサイザーよりも質的にも量的にも優れており,時間的にも効率的であることを示す。
関連論文リスト
- Towards High-Fidelity 3D Portrait Generation with Rich Details by Cross-View Prior-Aware Diffusion [63.81544586407943]
シングルイメージの3Dポートレート生成法は通常、多視点の知識を提供するために2次元拡散モデルを使用し、それを3次元表現に蒸留する。
本稿では,複数ビュー画像の状態の整合性を高める条件として,複数ビュー先行を明示的かつ暗黙的に組み込んだハイブリッド優先ディフジョンモデルを提案する。
実験により,1枚の画像から正確な幾何学的,詳細な3次元像を作成できることが示された。
論文 参考訳(メタデータ) (2024-11-15T17:19:18Z) - Flex3D: Feed-Forward 3D Generation with Flexible Reconstruction Model and Input View Curation [61.040832373015014]
テキスト, 単一画像, スパース画像から高品質な3Dコンテンツを生成するための新しいフレームワークFlex3Dを提案する。
我々は、微調整された多視点画像拡散モデルとビデオ拡散モデルを用いて、候補視のプールを生成し、ターゲット3Dオブジェクトのリッチな表現を可能にする。
第2段階では、キュレートされたビューは、任意の数の入力を効果的に処理できるトランスフォーマーアーキテクチャ上に構築されたフレキシブルリコンストラクションモデル(FlexRM)に入力されます。
論文 参考訳(メタデータ) (2024-10-01T17:29:43Z) - Bootstrap3D: Improving Multi-view Diffusion Model with Synthetic Data [80.92268916571712]
重要なボトルネックは、詳細なキャプションを持つ高品質な3Dオブジェクトの不足である。
本稿では,任意の量のマルチビュー画像を自動的に生成する新しいフレームワークBootstrap3Dを提案する。
我々は高画質合成多視点画像100万枚を高密度記述キャプションで生成した。
論文 参考訳(メタデータ) (2024-05-31T17:59:56Z) - IT3D: Improved Text-to-3D Generation with Explicit View Synthesis [71.68595192524843]
本研究では、これらの問題に対処するために、明示的に合成されたマルチビュー画像を活用する新しい戦略を提案する。
我々のアプローチは、高画質画像を生成するために、LCDによって強化されたイメージ・ツー・イメージ・パイプラインを活用することである。
組込み判別器では、合成したマルチビュー画像は実データと見なされ、最適化された3Dモデルのレンダリングは偽データとして機能する。
論文 参考訳(メタデータ) (2023-08-22T14:39:17Z) - DreamSparse: Escaping from Plato's Cave with 2D Frozen Diffusion Model
Given Sparse Views [20.685453627120832]
既存の手法では、品質の高い結果を生成するのに苦労したり、オブジェクトごとの最適化が必要な場合が少なくない。
DreamSparseは、オブジェクトレベルの画像とシーンレベルの画像の両方に対して高品質なノベルビューを合成することができる。
論文 参考訳(メタデータ) (2023-06-06T05:26:26Z) - Generative Novel View Synthesis with 3D-Aware Diffusion Models [96.78397108732233]
単一入力画像から3D対応の新規ビュー合成のための拡散モデルを提案する。
提案手法は既存の2次元拡散バックボーンを利用するが,重要な点として,幾何学的先行を3次元特徴体積の形で組み込む。
新たなビュー生成に加えて,本手法は3次元一貫性シーケンスを自己回帰的に合成する機能を備えている。
論文 参考訳(メタデータ) (2023-04-05T17:15:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。