論文の概要: Control3Diff: Learning Controllable 3D Diffusion Models from Single-view
Images
- arxiv url: http://arxiv.org/abs/2304.06700v2
- Date: Thu, 26 Oct 2023 05:04:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-28 02:28:32.405486
- Title: Control3Diff: Learning Controllable 3D Diffusion Models from Single-view
Images
- Title(参考訳): control3diff: 学習制御可能な3次元拡散モデル
- Authors: Jiatao Gu, Qingzhe Gao, Shuangfei Zhai, Baoquan Chen, Lingjie Liu and
Josh Susskind
- Abstract要約: Control3Diffは拡散モデルと3D GANの強みを組み合わせた3次元拡散モデルである。
FFHQ,AFHQ,ShapeNet などの標準画像生成ベンチマークにおける Control3Diff の有効性を検証する。
- 参考スコア(独自算出の注目度): 70.17085345196583
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion models have recently become the de-facto approach for generative
modeling in the 2D domain. However, extending diffusion models to 3D is
challenging due to the difficulties in acquiring 3D ground truth data for
training. On the other hand, 3D GANs that integrate implicit 3D representations
into GANs have shown remarkable 3D-aware generation when trained only on
single-view image datasets. However, 3D GANs do not provide straightforward
ways to precisely control image synthesis. To address these challenges, We
present Control3Diff, a 3D diffusion model that combines the strengths of
diffusion models and 3D GANs for versatile, controllable 3D-aware image
synthesis for single-view datasets. Control3Diff explicitly models the
underlying latent distribution (optionally conditioned on external inputs),
thus enabling direct control during the diffusion process. Moreover, our
approach is general and applicable to any type of controlling input, allowing
us to train it with the same diffusion objective without any auxiliary
supervision. We validate the efficacy of Control3Diff on standard image
generation benchmarks, including FFHQ, AFHQ, and ShapeNet, using various
conditioning inputs such as images, sketches, and text prompts. Please see the
project website (\url{https://jiataogu.me/control3diff}) for video comparisons.
- Abstract(参考訳): 拡散モデルは最近、2次元領域における生成モデリングのデファクトアプローチとなっている。
しかし,3次元基底真理データ取得の難しさから,拡散モデルを3次元に拡張することは困難である。
一方、暗黙的な3D表現をGANに統合する3D GANは、単一ビューの画像データセットのみをトレーニングした場合、顕著な3D認識生成を示す。
しかし、3D GANは画像合成を正確に制御する方法を提供していない。
これらの課題に対処するため,我々は,拡散モデルの強みと3次元ganを組み合わせる3次元拡散モデルである control3diff を提案する。
Control3Diffは、下層の潜伏分布(外部入力に任意に条件付けされている)を明示的にモデル化し、拡散過程の直接制御を可能にする。
さらに,本手法は汎用的であり,任意の種類の制御入力に適用可能であり,補助的監督なしに同じ拡散目標で学習することができる。
FFHQ,AFHQ,ShapeNetなどの標準画像生成ベンチマークにおいて,画像,スケッチ,テキストプロンプトなどの条件入力を用いて制御3Diffの有効性を検証する。
ビデオの比較についてはプロジェクトのWebサイト(\url{https://jiataogu.me/control3diff})を参照してください。
関連論文リスト
- Sculpt3D: Multi-View Consistent Text-to-3D Generation with Sparse 3D Prior [57.986512832738704]
本稿では,2次元拡散モデルを再学習することなく,抽出した参照オブジェクトから3次元先行を明示的に注入する,電流パイプラインを備えた新しいフレームワークSculpt3Dを提案する。
具体的には、スパース線サンプリングによるキーポイントの監督により、高品質で多様な3次元形状を保証できることを実証する。
これら2つの分離された設計は、参照オブジェクトからの3D情報を利用して、2D拡散モデルの生成品質を保ちながら、3Dオブジェクトを生成する。
論文 参考訳(メタデータ) (2024-03-14T07:39:59Z) - GOEnFusion: Gradient Origin Encodings for 3D Forward Diffusion Models [77.03830223281787]
GOEnは、事前訓練された画像特徴抽出器を使わずに、任意の種類の3D表現に画像をエンコードする。
提案するGOEnFusionモデルは,フォワード拡散モデルを実現したGOEnエンコーディングとペアリングする。
我々は,GOEn機構が符号化された表現にどの程度の情報を転送するか,基礎となる3Dシーンの事前分布をどの程度正確に捉えているかを評価する。
論文 参考訳(メタデータ) (2023-12-14T08:39:39Z) - 3DiffTection: 3D Object Detection with Geometry-Aware Diffusion Features [70.50665869806188]
3DiffTectionは、単一の画像から3Dオブジェクトを検出する最先端の方法である。
拡散モデルを微調整し、単一の画像に条件付けされた新しいビュー合成を行う。
さらに、検出監視により、ターゲットデータ上でモデルをトレーニングする。
論文 参考訳(メタデータ) (2023-11-07T23:46:41Z) - DiffRF: Rendering-Guided 3D Radiance Field Diffusion [18.20324411024166]
本稿では,拡散確率モデルに基づく3次元放射場合成の新しい手法であるDiffRFを紹介する。
2次元拡散モデルとは対照的に、我々のモデルは多視点一貫した先行情報を学習し、自由視点合成と正確な形状生成を可能にする。
論文 参考訳(メタデータ) (2022-12-02T14:37:20Z) - 3D Neural Field Generation using Triplane Diffusion [37.46688195622667]
ニューラルネットワークの3次元認識のための効率的な拡散ベースモデルを提案する。
当社のアプローチでは,ShapeNetメッシュなどのトレーニングデータを,連続的占有フィールドに変換することによって前処理する。
本論文では,ShapeNetのオブジェクトクラスにおける3D生成の現状について述べる。
論文 参考訳(メタデータ) (2022-11-30T01:55:52Z) - RenderDiffusion: Image Diffusion for 3D Reconstruction, Inpainting and
Generation [68.06991943974195]
単分子2次元観察のみを用いて学習した3次元生成と推論のための最初の拡散モデルであるRenderDiffusionを提案する。
FFHQ,AFHQ,ShapeNet,CLEVRのデータセット上でRenderDiffusionを評価し,3Dシーンの生成と2D画像からの3Dシーンの推測の競合性能を示した。
論文 参考訳(メタデータ) (2022-11-17T20:17:04Z) - Novel View Synthesis with Diffusion Models [56.55571338854636]
本稿では,3Dノベルビュー合成のための拡散モデルである3DiMを提案する。
単一のインプットビューを多くのビューで一貫したシャープな補完に変換することができる。
3DiMは、条件付けと呼ばれる新しい技術を使って、3D一貫性のある複数のビューを生成することができる。
論文 参考訳(メタデータ) (2022-10-06T16:59:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。