Fugu-MT 論文翻訳(概要): Novel View Synthesis from a Single Image with Pretrained Diffusion Guidance

論文の概要: Novel View Synthesis from a Single Image with Pretrained Diffusion Guidance

arxiv url: http://arxiv.org/abs/2408.06157v1
Date: Mon, 12 Aug 2024 13:53:40 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-13 14:05:56.895484
Title: Novel View Synthesis from a Single Image with Pretrained Diffusion Guidance
Title（参考訳）: 拡散誘導型単一画像からの新規ビュー合成
Authors: Taewon Kang, Divya Kothandaraman, Dinesh Manocha, Ming C. Lin,
Abstract要約: 我々は,単一入力画像からカメラ制御された視点を生成する手法であるHawkI++を紹介する。複雑で多様なシーンを3Dデータや広範な訓練なしで扱える。実験の結果,HawkI++は定性評価と定量的評価の両方で既存モデルよりも優れていた。
参考スコア（独自算出の注目度）: 61.06034736050515
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent 3D novel view synthesis (NVS) methods are limited to single-object-centric scenes generated from new viewpoints and struggle with complex environments. They often require extensive 3D data for training, lacking generalization beyond training distribution. Conversely, 3D-free methods can generate text-controlled views of complex, in-the-wild scenes using a pretrained stable diffusion model without tedious fine-tuning, but lack camera control. In this paper, we introduce HawkI++, a method capable of generating camera-controlled viewpoints from a single input image. HawkI++ excels in handling complex and diverse scenes without additional 3D data or extensive training. It leverages widely available pretrained NVS models for weak guidance, integrating this knowledge into a 3D-free view synthesis approach to achieve the desired results efficiently. Our experimental results demonstrate that HawkI++ outperforms existing models in both qualitative and quantitative evaluations, providing high-fidelity and consistent novel view synthesis at desired camera angles across a wide variety of scenes.
Abstract（参考訳）: 最近の3次元ビュー合成(NVS)法は、新しい視点から生成された単一対象中心のシーンと複雑な環境との闘いに限られている。トレーニングには広範囲な3Dデータを必要とすることが多く、トレーニング分布を超えた一般化が欠如している。逆に、3Dフリーな手法は、退屈な微調整をせずに事前訓練された安定拡散モデルを用いて、複雑なシーンのテキスト制御されたビューを生成することができるが、カメラコントロールは欠如している。本稿では,単一入力画像からカメラ制御視点を生成する手法であるHawkI++を紹介する。 HawkI++は、3Dデータや広範なトレーニングを必要とせずに、複雑で多様なシーンを処理できる。広く利用可能な訓練済みのNVSモデルを弱いガイダンスに利用し、この知識を3Dのないビュー合成アプローチに統合して、望まれる結果の効率よく達成する。実験の結果,HawkI++は定性評価と定量的評価の両方で既存モデルよりも優れており,様々な場面で望まれるカメラアングルで高忠実で一貫した新しいビュー合成を実現していることがわかった。

関連論文リスト

Enhancing Monocular 3D Scene Completion with Diffusion Model [20.81599069390756]
3Dシーンの再構築は、仮想現実、ロボティクス、自動運転の応用に不可欠である。従来の3Dガウススプラッティング技術は、最適な性能を達成するために複数の視点から撮影された画像に依存している。 1枚の画像から完全な3Dシーンを再構築するための新しいアプローチであるFlashDreamerを紹介する。
論文参考訳（メタデータ） (2025-03-02T04:36:57Z)
Wonderland: Navigating 3D Scenes from a Single Image [43.99037613068823]
本研究では,映像拡散モデルからの潜伏分を利用した大規模再構成モデルを導入し,映像の3次元ガウススプラッティングをフィードフォワードで予測する。プログレッシブ・ラーニング・ストラテジーを用いて3次元再構成モデルをトレーニングし,高品質でワイドスコープ,ジェネリックな3次元シーンの効率的な生成を可能にする。
論文参考訳（メタデータ） (2024-12-16T18:58:17Z)
Sherpa3D: Boosting High-Fidelity Text-to-3D Generation via Coarse 3D Prior [52.44678180286886]
2次元拡散モデルでは、3次元データなしで優れた一般化と豊富な詳細を実現する蒸留手法が見つかる。提案するSherpa3Dは,高忠実度,一般化性,幾何整合性を同時に実現する新しいテキスト・ツー・3Dフレームワークである。
論文参考訳（メタデータ） (2023-12-11T18:59:18Z)
WildFusion: Learning 3D-Aware Latent Diffusion Models in View Space [77.92350895927922]
潜在拡散モデル(LDM)に基づく3次元画像合成の新しいアプローチであるWildFusionを提案する。我々の3D対応LCMは、マルチビュー画像や3D幾何学を直接監督することなく訓練されている。これにより、スケーラブルな3D認識画像合成と、Wild画像データから3Dコンテンツを作成するための有望な研究道が開かれる。
論文参考訳（メタデータ） (2023-11-22T18:25:51Z)
PonderV2: Pave the Way for 3D Foundation Model with A Universal Pre-training Paradigm [114.47216525866435]
本稿では,効率的な3D表現の獲得を容易にするために,新しいユニバーサル3D事前学習フレームワークを提案する。 PonderV2は、11の室内および屋外ベンチマークで最先端のパフォーマンスを達成したことで、その効果が示唆された。
論文参考訳（メタデータ） (2023-10-12T17:59:57Z)
Control3Diff: Learning Controllable 3D Diffusion Models from Single-view Images [70.17085345196583]
Control3Diffは拡散モデルと3D GANの強みを組み合わせた3次元拡散モデルである。 FFHQ,AFHQ,ShapeNet などの標準画像生成ベンチマークにおける Control3Diff の有効性を検証する。
論文参考訳（メタデータ） (2023-04-13T17:52:29Z)
3inGAN: Learning a 3D Generative Model from Images of a Self-similar Scene [34.2144933185175]
3inGANは、単一の自己相似3Dシーンの2D画像から訓練された無条件3D生成モデルである。実地および合成源から得られた,様々なスケールと複雑さの半確率的な場面での結果を示す。
論文参考訳（メタデータ） (2022-11-27T18:03:21Z)
Novel View Synthesis with Diffusion Models [56.55571338854636]
本稿では,3Dノベルビュー合成のための拡散モデルである3DiMを提案する。単一のインプットビューを多くのビューで一貫したシャープな補完に変換することができる。 3DiMは、条件付けと呼ばれる新しい技術を使って、3D一貫性のある複数のビューを生成することができる。
論文参考訳（メタデータ） (2022-10-06T16:59:56Z)
AUTO3D: Novel view synthesis through unsupervisely learned variational viewpoint and global 3D representation [27.163052958878776]
本稿では,ポーズ・インスペクションを伴わない単一の2次元画像から学習に基づく新規ビュー・シンセサイザーを目標とする。本研究では,学習済みの相対的目的/回転と暗黙的グローバルな3次元表現を両立させるために,エンドツーエンドの訓練可能な条件変分フレームワークを構築した。本システムでは,3次元再構成を明示的に行うことなく,暗黙的に3次元理解を行うことができる。
論文参考訳（メタデータ） (2020-07-13T18:51:27Z)
Weakly-Supervised 3D Human Pose Learning via Multi-view Images in the Wild [101.70320427145388]
本稿では、3Dアノテーションを必要としない弱教師付きアプローチを提案し、ラベルのないマルチビューデータから3Dポーズを推定する。提案手法を2つの大規模データセット上で評価する。
論文参考訳（メタデータ） (2020-03-17T08:47:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。