論文の概要: 3D-free meets 3D priors: Novel View Synthesis from a Single Image with Pretrained Diffusion Guidance
- arxiv url: http://arxiv.org/abs/2408.06157v3
- Date: Tue, 8 Oct 2024 03:03:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-08 11:38:16.858846
- Title: 3D-free meets 3D priors: Novel View Synthesis from a Single Image with Pretrained Diffusion Guidance
- Title(参考訳): 3D-free meets 3D priors: Pretrained Diffusion Guidance を用いた単一画像からの新たなビュー合成
- Authors: Taewon Kang, Divya Kothandaraman, Dinesh Manocha, Ming C. Lin,
- Abstract要約: 単一入力画像からカメラ制御された視点を生成する方法を提案する。
本手法は,広範囲なトレーニングや3Dおよびマルチビューデータなしで,複雑で多様なシーンを処理できることに優れる。
- 参考スコア(独自算出の注目度): 61.06034736050515
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent 3D novel view synthesis (NVS) methods are limited to single-object-centric scenes and struggle with complex environments. They often require extensive 3D data for training, lacking generalization beyond the training distribution. Conversely, 3D-free methods can generate text-controlled views of complex, in-the-wild scenes using a pretrained stable diffusion model without the need for a large amount of 3D-based training data, but lack camera control. In this paper, we introduce a method capable of generating camera-controlled viewpoints from a single input image, by combining the benefits of 3D-free and 3D-based approaches. Our method excels in handling complex and diverse scenes without extensive training or additional 3D and multiview data. It leverages widely available pretrained NVS models for weak guidance, integrating this knowledge into a 3D-free view synthesis approach to achieve the desired results. Experimental results demonstrate that our method outperforms existing models in both qualitative and quantitative evaluations, providing high-fidelity and consistent novel view synthesis at desired camera angles across a wide variety of scenes.
- Abstract(参考訳): 最近の3次元ビュー合成(NVS)法は、単一対象中心のシーンに限られており、複雑な環境に苦しむ。
トレーニングには広範囲な3Dデータを必要とすることが多く、トレーニング分布を超えた一般化が欠如している。
逆に3Dフリーな手法は、大量の3Dベースのトレーニングデータを必要とせずに、事前訓練された安定した拡散モデルを用いて、複雑なシーンのテキスト制御されたビューを生成することができるが、カメラ制御は不要である。
本稿では,1つの入力画像からカメラ制御視点を生成できる手法を提案する。
本手法は,広範囲なトレーニングや3次元・マルチビューデータなしで複雑で多様なシーンを処理できることに優れる。
広く利用可能な訓練済みのNVSモデルを弱いガイダンスに利用し、この知識を望まれる結果を達成するために3次元のビュー合成アプローチに統合する。
実験により,本手法は定性評価と定量的評価の両方において既存モデルよりも優れており,様々な場面で望まれるカメラアングルで高忠実で一貫した新しいビュー合成を実現する。
関連論文リスト
- WildFusion: Learning 3D-Aware Latent Diffusion Models in View Space [77.92350895927922]
潜在拡散モデル(LDM)に基づく3次元画像合成の新しいアプローチであるWildFusionを提案する。
我々の3D対応LCMは、マルチビュー画像や3D幾何学を直接監督することなく訓練されている。
これにより、スケーラブルな3D認識画像合成と、Wild画像データから3Dコンテンツを作成するための有望な研究道が開かれる。
論文 参考訳(メタデータ) (2023-11-22T18:25:51Z) - PonderV2: Pave the Way for 3D Foundation Model with A Universal
Pre-training Paradigm [114.47216525866435]
本稿では,効率的な3D表現の獲得を容易にするために,新しいユニバーサル3D事前学習フレームワークを提案する。
PonderV2は、11の室内および屋外ベンチマークで最先端のパフォーマンスを達成したことで、その効果が示唆された。
論文 参考訳(メタデータ) (2023-10-12T17:59:57Z) - Control3Diff: Learning Controllable 3D Diffusion Models from Single-view
Images [70.17085345196583]
Control3Diffは拡散モデルと3D GANの強みを組み合わせた3次元拡散モデルである。
FFHQ,AFHQ,ShapeNet などの標準画像生成ベンチマークにおける Control3Diff の有効性を検証する。
論文 参考訳(メタデータ) (2023-04-13T17:52:29Z) - 3inGAN: Learning a 3D Generative Model from Images of a Self-similar
Scene [34.2144933185175]
3inGANは、単一の自己相似3Dシーンの2D画像から訓練された無条件3D生成モデルである。
実地および合成源から得られた,様々なスケールと複雑さの半確率的な場面での結果を示す。
論文 参考訳(メタデータ) (2022-11-27T18:03:21Z) - Novel View Synthesis with Diffusion Models [56.55571338854636]
本稿では,3Dノベルビュー合成のための拡散モデルである3DiMを提案する。
単一のインプットビューを多くのビューで一貫したシャープな補完に変換することができる。
3DiMは、条件付けと呼ばれる新しい技術を使って、3D一貫性のある複数のビューを生成することができる。
論文 参考訳(メタデータ) (2022-10-06T16:59:56Z) - AUTO3D: Novel view synthesis through unsupervisely learned variational
viewpoint and global 3D representation [27.163052958878776]
本稿では,ポーズ・インスペクションを伴わない単一の2次元画像から学習に基づく新規ビュー・シンセサイザーを目標とする。
本研究では,学習済みの相対的目的/回転と暗黙的グローバルな3次元表現を両立させるために,エンドツーエンドの訓練可能な条件変分フレームワークを構築した。
本システムでは,3次元再構成を明示的に行うことなく,暗黙的に3次元理解を行うことができる。
論文 参考訳(メタデータ) (2020-07-13T18:51:27Z) - Weakly-Supervised 3D Human Pose Learning via Multi-view Images in the
Wild [101.70320427145388]
本稿では、3Dアノテーションを必要としない弱教師付きアプローチを提案し、ラベルのないマルチビューデータから3Dポーズを推定する。
提案手法を2つの大規模データセット上で評価する。
論文 参考訳(メタデータ) (2020-03-17T08:47:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。