Fugu-MT 論文翻訳(概要): ViewCrafter: Taming Video Diffusion Models for High-fidelity Novel View Synthesis

論文の概要: ViewCrafter: Taming Video Diffusion Models for High-fidelity Novel View Synthesis

arxiv url: http://arxiv.org/abs/2409.02048v1
Date: Tue, 3 Sep 2024 16:53:19 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-06 00:21:46.618302
Title: ViewCrafter: Taming Video Diffusion Models for High-fidelity Novel View Synthesis
Title（参考訳）: ViewCrafter: 高忠実な新規ビュー合成のためのビデオ拡散モデルの作成
Authors: Wangbo Yu, Jinbo Xing, Li Yuan, Wenbo Hu, Xiaoyu Li, Zhipeng Huang, Xiangjun Gao, Tien-Tsin Wong, Ying Shan, Yonghong Tian,
Abstract要約: 単一またはスパース画像からジェネリックシーンの高忠実な新規ビューを合成する新しい方法である textbfViewCrafter を提案する。提案手法は,映像拡散モデルの強力な生成能力と,ポイントベース表現によって提供される粗い3D手がかりを利用して高品質な映像フレームを生成する。
参考スコア（独自算出の注目度）: 63.169364481672915
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Despite recent advancements in neural 3D reconstruction, the dependence on dense multi-view captures restricts their broader applicability. In this work, we propose \textbf{ViewCrafter}, a novel method for synthesizing high-fidelity novel views of generic scenes from single or sparse images with the prior of video diffusion model. Our method takes advantage of the powerful generation capabilities of video diffusion model and the coarse 3D clues offered by point-based representation to generate high-quality video frames with precise camera pose control. To further enlarge the generation range of novel views, we tailored an iterative view synthesis strategy together with a camera trajectory planning algorithm to progressively extend the 3D clues and the areas covered by the novel views. With ViewCrafter, we can facilitate various applications, such as immersive experiences with real-time rendering by efficiently optimizing a 3D-GS representation using the reconstructed 3D points and the generated novel views, and scene-level text-to-3D generation for more imaginative content creation. Extensive experiments on diverse datasets demonstrate the strong generalization capability and superior performance of our method in synthesizing high-fidelity and consistent novel views.
Abstract（参考訳）: ニューラル3D再構成の最近の進歩にもかかわらず、密集したマルチビューキャプチャへの依存は、より広範な適用性を制限している。本研究では,映像拡散モデルに先行する単一又はスパース画像から,汎用シーンの高忠実な新規ビューを合成する新しい手法である「textbf{ViewCrafter}」を提案する。提案手法は,映像拡散モデルの強力な生成能力と,ポイントベース表現によって提供される粗い3D手がかりを利用して,高精度なカメラポーズ制御による高品質な映像フレームを生成する。新たなビューの生成範囲をさらに拡大するため,カメラ軌道計画アルゴリズムとともに反復的なビュー合成戦略を調整し,新しいビューでカバーされる3Dの手がかりと領域を段階的に拡張した。 ViewCrafterを使えば、再構成された3Dポイントと生成された新しいビューを用いて3D-GS表現を効率よく最適化し、より想像力のあるコンテンツ作成のためのシーンレベルのテキスト・ツー・3D生成を実現できる。多様なデータセットに対する大規模な実験は、高忠実で一貫した新奇な視点を合成する上で、我々の手法の強力な一般化能力と優れた性能を示す。

関連論文リスト

DT-NVS: Diffusion Transformers for Novel View Synthesis [22.458328201080715]
一般化された新規ビュー合成のための3次元拡散モデルを提案する。画像から3次元表現へ変換するトランスフォーマーと自己認識アーキテクチャに多大な貢献をする。現状の3D認識拡散モデルと決定論的アプローチの改善を示す。
論文参考訳（メタデータ） (2025-11-11T22:40:00Z)
SpatialCrafter: Unleashing the Imagination of Video Diffusion Models for Scene Reconstruction from Limited Observations [44.53106180688135]
この作業は、スパースやシングルビューのインプットから3Dシーンを再構築する上での課題である。 SpatialCrafterは,ビデオ拡散モデルにおける豊富な知識を活用して,可算的な追加観測を生成するフレームワークである。トレーニング可能なカメラエンコーダと、明示的な幾何学的制約に対するエピポーラアテンション機構により、精密なカメラ制御と3D整合性を実現する。
論文参考訳（メタデータ） (2025-05-17T13:05:13Z)
Wonderland: Navigating 3D Scenes from a Single Image [43.99037613068823]
本研究では,映像拡散モデルからの潜伏分を利用した大規模再構成モデルを導入し,映像の3次元ガウススプラッティングをフィードフォワードで予測する。プログレッシブ・ラーニング・ストラテジーを用いて3次元再構成モデルをトレーニングし,高品質でワイドスコープ,ジェネリックな3次元シーンの効率的な生成を可能にする。
論文参考訳（メタデータ） (2024-12-16T18:58:17Z)
Flex3D: Feed-Forward 3D Generation With Flexible Reconstruction Model And Input View Curation [61.040832373015014]
テキスト, 単一画像, スパース画像から高品質な3Dコンテンツを生成するための新しいフレームワークFlex3Dを提案する。我々は、微調整された多視点画像拡散モデルとビデオ拡散モデルを用いて、候補視のプールを生成し、ターゲット3Dオブジェクトのリッチな表現を可能にする。第2段階では、キュレートされたビューは、任意の数の入力を効果的に処理できるトランスフォーマーアーキテクチャ上に構築されたフレキシブルリコンストラクションモデル(FlexRM)に入力されます。
論文参考訳（メタデータ） (2024-10-01T17:29:43Z)
SV4D: Dynamic 3D Content Generation with Multi-Frame and Multi-View Consistency [37.96042037188354]
本稿では,多フレーム・多視点一貫した動的3Dコンテンツ生成のための遅延ビデオ拡散モデルであるStable Video 4D(SV4D)を提案する。
論文参考訳（メタデータ） (2024-07-24T17:59:43Z)
3D-SceneDreamer: Text-Driven 3D-Consistent Scene Generation [51.64796781728106]
本稿では,2次元拡散モデル以前の自然画像と,現在のシーンのグローバルな3次元情報を利用して,高品質で新しいコンテンツを合成する生成的精細化ネットワークを提案する。提案手法は,視覚的品質と3次元の整合性を改善した多種多様なシーン生成と任意のカメラトラジェクトリをサポートする。
論文参考訳（メタデータ） (2024-03-14T14:31:22Z)
Envision3D: One Image to 3D with Anchor Views Interpolation [18.31796952040799]
本研究では,1枚の画像から高品質な3Dコンテンツを効率よく生成する新しい手法であるEnvision3Dを提案する。テクスチャと幾何学の観点から高品質な3Dコンテンツを生成することができ、従来の画像から3Dのベースライン法を超越している。
論文参考訳（メタデータ） (2024-03-13T18:46:33Z)
Generative Novel View Synthesis with 3D-Aware Diffusion Models [96.78397108732233]
単一入力画像から3D対応の新規ビュー合成のための拡散モデルを提案する。提案手法は既存の2次元拡散バックボーンを利用するが,重要な点として,幾何学的先行を3次元特徴体積の形で組み込む。新たなビュー生成に加えて,本手法は3次元一貫性シーケンスを自己回帰的に合成する機能を備えている。
論文参考訳（メタデータ） (2023-04-05T17:15:47Z)
High-fidelity 3D GAN Inversion by Pseudo-multi-view Optimization [51.878078860524795]
フォトリアリスティック・ノベルビューを合成可能な高忠実度3次元生成対向ネットワーク(GAN)インバージョン・フレームワークを提案する。提案手法は,1枚の画像から高忠実度3Dレンダリングを可能にし,AI生成3Dコンテンツの様々な応用に期待できる。
論文参考訳（メタデータ） (2022-11-28T18:59:52Z)
3D-Aware Video Generation [149.5230191060692]
本研究では, 3D 対応ビデオの生成を学習する 4 次元生成敵ネットワーク (GAN) について検討する。神経暗黙表現と時間認識判別器を組み合わせることで,モノクラービデオのみを教師する3D映像を合成するGANフレームワークを開発した。
論文参考訳（メタデータ） (2022-06-29T17:56:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。