Fugu-MT 論文翻訳(概要): Control3Diff: Learning Controllable 3D Diffusion Models from Single-view Images

論文の概要: Control3Diff: Learning Controllable 3D Diffusion Models from Single-view Images

arxiv url: http://arxiv.org/abs/2304.06700v2
Date: Thu, 26 Oct 2023 05:04:17 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-28 02:28:32.405486
Title: Control3Diff: Learning Controllable 3D Diffusion Models from Single-view Images
Title（参考訳）: control3diff: 学習制御可能な3次元拡散モデル
Authors: Jiatao Gu, Qingzhe Gao, Shuangfei Zhai, Baoquan Chen, Lingjie Liu and Josh Susskind
Abstract要約: Control3Diffは拡散モデルと3D GANの強みを組み合わせた3次元拡散モデルである。 FFHQ,AFHQ,ShapeNet などの標準画像生成ベンチマークにおける Control3Diff の有効性を検証する。
参考スコア（独自算出の注目度）: 70.17085345196583
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Diffusion models have recently become the de-facto approach for generative modeling in the 2D domain. However, extending diffusion models to 3D is challenging due to the difficulties in acquiring 3D ground truth data for training. On the other hand, 3D GANs that integrate implicit 3D representations into GANs have shown remarkable 3D-aware generation when trained only on single-view image datasets. However, 3D GANs do not provide straightforward ways to precisely control image synthesis. To address these challenges, We present Control3Diff, a 3D diffusion model that combines the strengths of diffusion models and 3D GANs for versatile, controllable 3D-aware image synthesis for single-view datasets. Control3Diff explicitly models the underlying latent distribution (optionally conditioned on external inputs), thus enabling direct control during the diffusion process. Moreover, our approach is general and applicable to any type of controlling input, allowing us to train it with the same diffusion objective without any auxiliary supervision. We validate the efficacy of Control3Diff on standard image generation benchmarks, including FFHQ, AFHQ, and ShapeNet, using various conditioning inputs such as images, sketches, and text prompts. Please see the project website (\url{https://jiataogu.me/control3diff}) for video comparisons.
Abstract（参考訳）: 拡散モデルは最近、2次元領域における生成モデリングのデファクトアプローチとなっている。しかし,3次元基底真理データ取得の難しさから,拡散モデルを3次元に拡張することは困難である。一方、暗黙的な3D表現をGANに統合する3D GANは、単一ビューの画像データセットのみをトレーニングした場合、顕著な3D認識生成を示す。しかし、3D GANは画像合成を正確に制御する方法を提供していない。これらの課題に対処するため,我々は,拡散モデルの強みと3次元ganを組み合わせる3次元拡散モデルである control3diff を提案する。 Control3Diffは、下層の潜伏分布(外部入力に任意に条件付けされている)を明示的にモデル化し、拡散過程の直接制御を可能にする。さらに,本手法は汎用的であり,任意の種類の制御入力に適用可能であり,補助的監督なしに同じ拡散目標で学習することができる。 FFHQ,AFHQ,ShapeNetなどの標準画像生成ベンチマークにおいて,画像,スケッチ,テキストプロンプトなどの条件入力を用いて制御3Diffの有効性を検証する。ビデオの比較についてはプロジェクトのWebサイト(\url{https://jiataogu.me/control3diff})を参照してください。

関連論文リスト

ScenDi: 3D-to-2D Scene Diffusion Cascades for Urban Generation [53.049890350639366]
本研究では,3次元拡散モデルと2次元拡散モデルを統合した都市景観生成手法であるScenDiを提案する。粗い3Dシーンを2Dビデオ拡散のガイダンスとして活用することにより、ScenDiは入力条件に基づいて所望のシーンを生成し、正確なカメラ軌道に順応する。
論文参考訳（メタデータ） (2026-01-21T17:53:21Z)
Unsupervised Monocular 3D Keypoint Discovery from Multi-View Diffusion Priors [21.97308739556984]
KeyDiff3Dは、教師なし単眼の3Dキーポイント推定のためのフレームワークである。我々は、事前訓練された多視点拡散モデルに埋め込まれた強力な幾何学的先行性を利用する。拡散モデルにより生成された3次元オブジェクトの操作を可能にするパイプラインを導入する。
論文参考訳（メタデータ） (2025-07-16T15:29:07Z)
DiffSplat: Repurposing Image Diffusion Models for Scalable Gaussian Splat Generation [33.62074896816882]
DiffSplatは,大規模テキスト・画像拡散モデルを用いて3次元ガウススプラットを生成する新しい3次元生成フレームワークである。従来の3D生成モデルと異なり、Webスケールの2D事前を効果的に活用しつつ、統一モデルにおける3D一貫性を維持している。これらの格子上の正規拡散損失と合わせて、3Dレンダリング損失を導入し、任意のビューの3Dコヒーレンスを促進する。
論文参考訳（メタデータ） (2025-01-28T07:38:59Z)
Zero-1-to-G: Taming Pretrained 2D Diffusion Model for Direct 3D Generation [66.75243908044538]
我々は,事前学習した2次元拡散モデルを用いたガウススプラット上での3次元直接生成手法であるZero-1-to-Gを導入する。 3D認識を取り入れるために,複雑な相関関係を捉え,生成されたスプラット間の3D一貫性を強制する,クロスビュー層とクロスアトリビュートアテンション層を導入する。これにより、Zero-1-to-Gは、事前訓練された2D拡散前処理を効果的に活用する最初の直接画像から3D生成モデルとなり、効率的なトレーニングと未確認物体への一般化が実現された。
論文参考訳（メタデータ） (2025-01-09T18:37:35Z)
GANFusion: Feed-Forward Text-to-3D with Diffusion in GAN Space [64.82017974849697]
我々は、単一視点2Dデータのみを用いて、人間の文字に対するフィードフォワードテキストから3D拡散生成器を訓練する。 GANFusionは、単一のビュー2DデータのみをトレーニングしたGANアーキテクチャを使用して、3Dデータの無条件トリプレーン機能を生成することから始まる。
論文参考訳（メタデータ） (2024-12-21T17:59:17Z)
3D-free meets 3D priors: Novel View Synthesis from a Single Image with Pretrained Diffusion Guidance [61.06034736050515]
単一入力画像からカメラ制御された視点を生成する方法を提案する。本手法は,広範囲なトレーニングや3Dおよびマルチビューデータなしで,複雑で多様なシーンを処理できることに優れる。
論文参考訳（メタデータ） (2024-08-12T13:53:40Z)
MVDiff: Scalable and Flexible Multi-View Diffusion for 3D Object Reconstruction from Single-View [0.0]
本稿では,単一画像から一貫した多視点画像を生成するための一般的なフレームワークを提案する。提案モデルは,PSNR,SSIM,LPIPSなどの評価指標において,ベースライン法を超える3Dメッシュを生成することができる。
論文参考訳（メタデータ） (2024-05-06T22:55:53Z)
VFusion3D: Learning Scalable 3D Generative Models from Video Diffusion Models [20.084928490309313]
本稿では,事前学習ビデオ拡散モデルを用いたスケーラブルな3次元生成モデル構築手法を提案する。微調整により多視点生成能力を解放することにより、大規模な合成多視点データセットを生成し、フィードフォワード3D生成モデルを訓練する。提案したモデルであるVFusion3Dは、ほぼ3Mの合成マルチビューデータに基づいて訓練され、単一の画像から数秒で3Dアセットを生成することができる。
論文参考訳（メタデータ） (2024-03-18T17:59:12Z)
Sculpt3D: Multi-View Consistent Text-to-3D Generation with Sparse 3D Prior [57.986512832738704]
本稿では,2次元拡散モデルを再学習することなく,抽出した参照オブジェクトから3次元先行を明示的に注入する,電流パイプラインを備えた新しいフレームワークSculpt3Dを提案する。具体的には、スパース線サンプリングによるキーポイントの監督により、高品質で多様な3次元形状を保証できることを実証する。これら2つの分離された設計は、参照オブジェクトからの3D情報を利用して、2D拡散モデルの生成品質を保ちながら、3Dオブジェクトを生成する。
論文参考訳（メタデータ） (2024-03-14T07:39:59Z)
3DiffTection: 3D Object Detection with Geometry-Aware Diffusion Features [70.50665869806188]
3DiffTectionは、単一の画像から3Dオブジェクトを検出する最先端の方法である。拡散モデルを微調整し、単一の画像に条件付けされた新しいビュー合成を行う。さらに、検出監視により、ターゲットデータ上でモデルをトレーニングする。
論文参考訳（メタデータ） (2023-11-07T23:46:41Z)
3D Neural Field Generation using Triplane Diffusion [37.46688195622667]
ニューラルネットワークの3次元認識のための効率的な拡散ベースモデルを提案する。当社のアプローチでは,ShapeNetメッシュなどのトレーニングデータを,連続的占有フィールドに変換することによって前処理する。本論文では,ShapeNetのオブジェクトクラスにおける3D生成の現状について述べる。
論文参考訳（メタデータ） (2022-11-30T01:55:52Z)
RenderDiffusion: Image Diffusion for 3D Reconstruction, Inpainting and Generation [68.06991943974195]
単分子2次元観察のみを用いて学習した3次元生成と推論のための最初の拡散モデルであるRenderDiffusionを提案する。 FFHQ,AFHQ,ShapeNet,CLEVRのデータセット上でRenderDiffusionを評価し,3Dシーンの生成と2D画像からの3Dシーンの推測の競合性能を示した。
論文参考訳（メタデータ） (2022-11-17T20:17:04Z)
Novel View Synthesis with Diffusion Models [56.55571338854636]
本稿では,3Dノベルビュー合成のための拡散モデルである3DiMを提案する。単一のインプットビューを多くのビューで一貫したシャープな補完に変換することができる。 3DiMは、条件付けと呼ばれる新しい技術を使って、3D一貫性のある複数のビューを生成することができる。
論文参考訳（メタデータ） (2022-10-06T16:59:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。