Fugu-MT 論文翻訳(概要): 3D-free meets 3D priors: Novel View Synthesis from a Single Image with Pretrained Diffusion Guidance

論文の概要: 3D-free meets 3D priors: Novel View Synthesis from a Single Image with Pretrained Diffusion Guidance

arxiv url: http://arxiv.org/abs/2408.06157v4
Date: Wed, 27 Nov 2024 16:30:24 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-01 15:52:52.590402
Title: 3D-free meets 3D priors: Novel View Synthesis from a Single Image with Pretrained Diffusion Guidance
Title（参考訳）: 3D-free meets 3D priors: Pretrained Diffusion Guidance を用いた単一画像からの新たなビュー合成
Authors: Taewon Kang, Divya Kothandaraman, Dinesh Manocha, Ming C. Lin,
Abstract要約: 単一入力画像からカメラ制御された視点を生成する方法を提案する。本手法は,広範囲なトレーニングや3Dおよびマルチビューデータなしで,複雑で多様なシーンを処理できることに優れる。
参考スコア（独自算出の注目度）: 61.06034736050515
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent 3D novel view synthesis (NVS) methods often require extensive 3D data for training, and also typically lack generalization beyond the training distribution. Moreover, they tend to be object centric and struggle with complex and intricate scenes. Conversely, 3D-free methods can generate text-controlled views of complex, in-the-wild scenes using a pretrained stable diffusion model without the need for a large amount of 3D-based training data, but lack camera control. In this paper, we introduce a method capable of generating camera-controlled viewpoints from a single input image, by combining the benefits of 3D-free and 3D-based approaches. Our method excels in handling complex and diverse scenes without extensive training or additional 3D and multiview data. It leverages widely available pretrained NVS models for weak guidance, integrating this knowledge into a 3D-free view synthesis style approach, along with enriching the CLIP vision-language space with 3D camera angle information, to achieve the desired results. Experimental results demonstrate that our method outperforms existing models in both qualitative and quantitative evaluations, achieving high-fidelity, consistent novel view synthesis at desired camera angles across a wide variety of scenes while maintaining accurate, natural detail representation and image clarity across various viewpoints. We also support our method with a comprehensive analysis of 2D image generation models and the 3D space, providing a solid foundation and rationale for our solution.
Abstract（参考訳）: 最近の3Dノベルビュー合成(NVS)法は、訓練に広範囲な3Dデータを必要とすることが多く、訓練分布以外の一般化が欠如している。さらに、それらはオブジェクト中心であり、複雑で複雑なシーンに苦しむ傾向がある。逆に3Dフリーな手法は、大量の3Dベースのトレーニングデータを必要とせずに、事前訓練された安定した拡散モデルを用いて、複雑なシーンのテキスト制御されたビューを生成することができるが、カメラ制御は不要である。本稿では,1つの入力画像からカメラ制御視点を生成できる手法を提案する。本手法は,広範囲なトレーニングや3Dおよびマルチビューデータなしで,複雑で多様なシーンを処理できることに優れる。広く利用可能な訓練済みのNVSモデルを活用して、この知識を3Dのないビュー合成スタイルのアプローチに統合し、望まれる結果を達成するために、CLIPビジョン言語空間を3Dカメラアングル情報で強化する。実験により,本手法は定性評価と定量的評価の両面で既存モデルより優れており,様々な場面で所望のカメラアングルで一貫した一貫したビュー合成を実現するとともに,様々な視点で正確な自然なディテール表現と画像の明瞭さを維持できることを示した。また,2次元画像生成モデルと3次元空間を包括的に解析し,ソリューションの基盤と理論的根拠を提供する。

関連論文リスト

Enhancing Monocular 3D Scene Completion with Diffusion Model [20.81599069390756]
3Dシーンの再構築は、仮想現実、ロボティクス、自動運転の応用に不可欠である。従来の3Dガウススプラッティング技術は、最適な性能を達成するために複数の視点から撮影された画像に依存している。 1枚の画像から完全な3Dシーンを再構築するための新しいアプローチであるFlashDreamerを紹介する。
論文参考訳（メタデータ） (2025-03-02T04:36:57Z)
Wonderland: Navigating 3D Scenes from a Single Image [43.99037613068823]
本研究では,映像拡散モデルからの潜伏分を利用した大規模再構成モデルを導入し,映像の3次元ガウススプラッティングをフィードフォワードで予測する。プログレッシブ・ラーニング・ストラテジーを用いて3次元再構成モデルをトレーニングし,高品質でワイドスコープ,ジェネリックな3次元シーンの効率的な生成を可能にする。
論文参考訳（メタデータ） (2024-12-16T18:58:17Z)
Sherpa3D: Boosting High-Fidelity Text-to-3D Generation via Coarse 3D Prior [52.44678180286886]
2次元拡散モデルでは、3次元データなしで優れた一般化と豊富な詳細を実現する蒸留手法が見つかる。提案するSherpa3Dは,高忠実度,一般化性,幾何整合性を同時に実現する新しいテキスト・ツー・3Dフレームワークである。
論文参考訳（メタデータ） (2023-12-11T18:59:18Z)
WildFusion: Learning 3D-Aware Latent Diffusion Models in View Space [77.92350895927922]
潜在拡散モデル(LDM)に基づく3次元画像合成の新しいアプローチであるWildFusionを提案する。我々の3D対応LCMは、マルチビュー画像や3D幾何学を直接監督することなく訓練されている。これにより、スケーラブルな3D認識画像合成と、Wild画像データから3Dコンテンツを作成するための有望な研究道が開かれる。
論文参考訳（メタデータ） (2023-11-22T18:25:51Z)
PonderV2: Pave the Way for 3D Foundation Model with A Universal Pre-training Paradigm [114.47216525866435]
本稿では,効率的な3D表現の獲得を容易にするために,新しいユニバーサル3D事前学習フレームワークを提案する。 PonderV2は、11の室内および屋外ベンチマークで最先端のパフォーマンスを達成したことで、その効果が示唆された。
論文参考訳（メタデータ） (2023-10-12T17:59:57Z)
Control3Diff: Learning Controllable 3D Diffusion Models from Single-view Images [70.17085345196583]
Control3Diffは拡散モデルと3D GANの強みを組み合わせた3次元拡散モデルである。 FFHQ,AFHQ,ShapeNet などの標準画像生成ベンチマークにおける Control3Diff の有効性を検証する。
論文参考訳（メタデータ） (2023-04-13T17:52:29Z)
3inGAN: Learning a 3D Generative Model from Images of a Self-similar Scene [34.2144933185175]
3inGANは、単一の自己相似3Dシーンの2D画像から訓練された無条件3D生成モデルである。実地および合成源から得られた,様々なスケールと複雑さの半確率的な場面での結果を示す。
論文参考訳（メタデータ） (2022-11-27T18:03:21Z)
Novel View Synthesis with Diffusion Models [56.55571338854636]
本稿では,3Dノベルビュー合成のための拡散モデルである3DiMを提案する。単一のインプットビューを多くのビューで一貫したシャープな補完に変換することができる。 3DiMは、条件付けと呼ばれる新しい技術を使って、3D一貫性のある複数のビューを生成することができる。
論文参考訳（メタデータ） (2022-10-06T16:59:56Z)
AUTO3D: Novel view synthesis through unsupervisely learned variational viewpoint and global 3D representation [27.163052958878776]
本稿では,ポーズ・インスペクションを伴わない単一の2次元画像から学習に基づく新規ビュー・シンセサイザーを目標とする。本研究では,学習済みの相対的目的/回転と暗黙的グローバルな3次元表現を両立させるために,エンドツーエンドの訓練可能な条件変分フレームワークを構築した。本システムでは,3次元再構成を明示的に行うことなく,暗黙的に3次元理解を行うことができる。
論文参考訳（メタデータ） (2020-07-13T18:51:27Z)
Weakly-Supervised 3D Human Pose Learning via Multi-view Images in the Wild [101.70320427145388]
本稿では、3Dアノテーションを必要としない弱教師付きアプローチを提案し、ラベルのないマルチビューデータから3Dポーズを推定する。提案手法を2つの大規模データセット上で評価する。
論文参考訳（メタデータ） (2020-03-17T08:47:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。