論文の概要: Learning Controllable 3D Diffusion Models from Single-view Images
- arxiv url: http://arxiv.org/abs/2304.06700v1
- Date: Thu, 13 Apr 2023 17:52:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-14 13:29:04.328603
- Title: Learning Controllable 3D Diffusion Models from Single-view Images
- Title(参考訳): 単視点画像からの3次元拡散モデルの学習
- Authors: Jiatao Gu, Qingzhe Gao, Shuangfei Zhai, Baoquan Chen, Lingjie Liu and
Josh Susskind
- Abstract要約: Control3Diffは拡散モデルと3D GANの強みを組み合わせた3次元拡散モデルである。
FFHQ,AFHQ,ShapeNet などの標準画像生成ベンチマークにおける Control3Diff の有効性を検証する。
- 参考スコア(独自算出の注目度): 66.01181269722689
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion models have recently become the de-facto approach for generative
modeling in the 2D domain. However, extending diffusion models to 3D is
challenging due to the difficulties in acquiring 3D ground truth data for
training. On the other hand, 3D GANs that integrate implicit 3D representations
into GANs have shown remarkable 3D-aware generation when trained only on
single-view image datasets. However, 3D GANs do not provide straightforward
ways to precisely control image synthesis. To address these challenges, We
present Control3Diff, a 3D diffusion model that combines the strengths of
diffusion models and 3D GANs for versatile, controllable 3D-aware image
synthesis for single-view datasets. Control3Diff explicitly models the
underlying latent distribution (optionally conditioned on external inputs),
thus enabling direct control during the diffusion process. Moreover, our
approach is general and applicable to any type of controlling input, allowing
us to train it with the same diffusion objective without any auxiliary
supervision. We validate the efficacy of Control3Diff on standard image
generation benchmarks, including FFHQ, AFHQ, and ShapeNet, using various
conditioning inputs such as images, sketches, and text prompts. Please see the
project website (\url{https://jiataogu.me/control3diff}) for video comparisons.
- Abstract(参考訳): 拡散モデルは最近、2次元領域における生成モデリングのデファクトアプローチとなっている。
しかし,3次元基底真理データ取得の難しさから,拡散モデルを3次元に拡張することは困難である。
一方、暗黙的な3D表現をGANに統合する3D GANは、単一ビューの画像データセットのみをトレーニングした場合、顕著な3D認識生成を示す。
しかし、3D GANは画像合成を正確に制御する方法を提供していない。
これらの課題に対処するため,我々は,拡散モデルの強みと3次元ganを組み合わせる3次元拡散モデルである control3diff を提案する。
Control3Diffは、下層の潜伏分布(外部入力に任意に条件付けされている)を明示的にモデル化し、拡散過程の直接制御を可能にする。
さらに,本手法は汎用的であり,任意の種類の制御入力に適用可能であり,補助的監督なしに同じ拡散目標で学習することができる。
FFHQ,AFHQ,ShapeNetなどの標準画像生成ベンチマークにおいて,画像,スケッチ,テキストプロンプトなどの条件入力を用いて制御3Diffの有効性を検証する。
ビデオの比較についてはプロジェクトのWebサイト(\url{https://jiataogu.me/control3diff})を参照してください。
関連論文リスト
- 3D-free meets 3D priors: Novel View Synthesis from a Single Image with Pretrained Diffusion Guidance [61.06034736050515]
単一入力画像からカメラ制御された視点を生成する方法を提案する。
本手法は,広範囲なトレーニングや3Dおよびマルチビューデータなしで,複雑で多様なシーンを処理できることに優れる。
論文 参考訳(メタデータ) (2024-08-12T13:53:40Z) - MVDiff: Scalable and Flexible Multi-View Diffusion for 3D Object Reconstruction from Single-View [0.0]
本稿では,単一画像から一貫した多視点画像を生成するための一般的なフレームワークを提案する。
提案モデルは,PSNR,SSIM,LPIPSなどの評価指標において,ベースライン法を超える3Dメッシュを生成することができる。
論文 参考訳(メタデータ) (2024-05-06T22:55:53Z) - VFusion3D: Learning Scalable 3D Generative Models from Video Diffusion Models [20.084928490309313]
本稿では,事前学習ビデオ拡散モデルを用いたスケーラブルな3次元生成モデル構築手法を提案する。
微調整により多視点生成能力を解放することにより、大規模な合成多視点データセットを生成し、フィードフォワード3D生成モデルを訓練する。
提案したモデルであるVFusion3Dは、ほぼ3Mの合成マルチビューデータに基づいて訓練され、単一の画像から数秒で3Dアセットを生成することができる。
論文 参考訳(メタデータ) (2024-03-18T17:59:12Z) - Sculpt3D: Multi-View Consistent Text-to-3D Generation with Sparse 3D Prior [57.986512832738704]
本稿では,2次元拡散モデルを再学習することなく,抽出した参照オブジェクトから3次元先行を明示的に注入する,電流パイプラインを備えた新しいフレームワークSculpt3Dを提案する。
具体的には、スパース線サンプリングによるキーポイントの監督により、高品質で多様な3次元形状を保証できることを実証する。
これら2つの分離された設計は、参照オブジェクトからの3D情報を利用して、2D拡散モデルの生成品質を保ちながら、3Dオブジェクトを生成する。
論文 参考訳(メタデータ) (2024-03-14T07:39:59Z) - 3DiffTection: 3D Object Detection with Geometry-Aware Diffusion Features [70.50665869806188]
3DiffTectionは、単一の画像から3Dオブジェクトを検出する最先端の方法である。
拡散モデルを微調整し、単一の画像に条件付けされた新しいビュー合成を行う。
さらに、検出監視により、ターゲットデータ上でモデルをトレーニングする。
論文 参考訳(メタデータ) (2023-11-07T23:46:41Z) - 3D Neural Field Generation using Triplane Diffusion [37.46688195622667]
ニューラルネットワークの3次元認識のための効率的な拡散ベースモデルを提案する。
当社のアプローチでは,ShapeNetメッシュなどのトレーニングデータを,連続的占有フィールドに変換することによって前処理する。
本論文では,ShapeNetのオブジェクトクラスにおける3D生成の現状について述べる。
論文 参考訳(メタデータ) (2022-11-30T01:55:52Z) - RenderDiffusion: Image Diffusion for 3D Reconstruction, Inpainting and
Generation [68.06991943974195]
単分子2次元観察のみを用いて学習した3次元生成と推論のための最初の拡散モデルであるRenderDiffusionを提案する。
FFHQ,AFHQ,ShapeNet,CLEVRのデータセット上でRenderDiffusionを評価し,3Dシーンの生成と2D画像からの3Dシーンの推測の競合性能を示した。
論文 参考訳(メタデータ) (2022-11-17T20:17:04Z) - Novel View Synthesis with Diffusion Models [56.55571338854636]
本稿では,3Dノベルビュー合成のための拡散モデルである3DiMを提案する。
単一のインプットビューを多くのビューで一貫したシャープな補完に変換することができる。
3DiMは、条件付けと呼ばれる新しい技術を使って、3D一貫性のある複数のビューを生成することができる。
論文 参考訳(メタデータ) (2022-10-06T16:59:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。