論文の概要: Stable Virtual Camera: Generative View Synthesis with Diffusion Models
- arxiv url: http://arxiv.org/abs/2503.14489v1
- Date: Tue, 18 Mar 2025 17:57:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-19 16:29:13.385679
- Title: Stable Virtual Camera: Generative View Synthesis with Diffusion Models
- Title(参考訳): 安定な仮想カメラ:拡散モデルによる生成ビュー合成
- Authors: Jensen, Zhou, Hang Gao, Vikram Voleti, Aaryaman Vasishta, Chun-Han Yao, Mark Boss, Philip Torr, Christian Rupprecht, Varun Jampani,
- Abstract要約: 本稿では,シーンの新たなビューを生成する汎用拡散モデルであるスタブルバーチャルカメラ(Seva)を紹介する。
このアプローチは、シンプルなモデル設計、最適化されたトレーニングレシピ、柔軟なサンプリング戦略によってこれらの制限を克服する。
提案手法では,シームレスなループ閉鎖により,最大半分間の高品質なビデオを生成することができる。
- 参考スコア(独自算出の注目度): 67.33643698669209
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present Stable Virtual Camera (Seva), a generalist diffusion model that creates novel views of a scene, given any number of input views and target cameras. Existing works struggle to generate either large viewpoint changes or temporally smooth samples, while relying on specific task configurations. Our approach overcomes these limitations through simple model design, optimized training recipe, and flexible sampling strategy that generalize across view synthesis tasks at test time. As a result, our samples maintain high consistency without requiring additional 3D representation-based distillation, thus streamlining view synthesis in the wild. Furthermore, we show that our method can generate high-quality videos lasting up to half a minute with seamless loop closure. Extensive benchmarking demonstrates that Seva outperforms existing methods across different datasets and settings.
- Abstract(参考訳): 本稿では,シーンの新たなビューを生成する汎用拡散モデルであるスタブルバーチャルカメラ(Seva)について述べる。
既存の作業は、特定のタスク構成に依存しながら、大きな視点の変化や時間的にスムーズなサンプルを生成するのに苦労しています。
我々のアプローチは、単純なモデル設計、最適化されたトレーニングレシピ、テスト時にビュー合成タスクを一般化するフレキシブルサンプリング戦略によってこれらの制限を克服する。
その結果,本試料は3次元表示に基づく蒸留を必要とせずに高一貫性を維持し,野生におけるビュー合成の合理化を図った。
さらに,本手法では,シームレスなループ閉鎖により,最大半分間の高品質なビデオを生成することができることを示す。
大規模なベンチマークでは、Sevaが既存のメソッドをさまざまなデータセットや設定で上回っていることが示されている。
関連論文リスト
- Next-Scale Autoregressive Models are Zero-Shot Single-Image Object View Synthesizers [4.015569252776372]
ArchonViewは,3Dレンダリングデータのみをスクラッチからトレーニングし,2D事前トレーニングを行わないにも関わらず,最先端のメソッドをはるかに上回る方法である。
また,従来の手法が失敗する難易度カメラにも頑健な性能を示し,拡散よりも推論速度が数倍高速であることを示す。
論文 参考訳(メタデータ) (2025-03-17T17:59:59Z) - Flex3D: Feed-Forward 3D Generation With Flexible Reconstruction Model And Input View Curation [61.040832373015014]
テキスト, 単一画像, スパース画像から高品質な3Dコンテンツを生成するための新しいフレームワークFlex3Dを提案する。
我々は、微調整された多視点画像拡散モデルとビデオ拡散モデルを用いて、候補視のプールを生成し、ターゲット3Dオブジェクトのリッチな表現を可能にする。
第2段階では、キュレートされたビューは、任意の数の入力を効果的に処理できるトランスフォーマーアーキテクチャ上に構築されたフレキシブルリコンストラクションモデル(FlexRM)に入力されます。
論文 参考訳(メタデータ) (2024-10-01T17:29:43Z) - MultiDiff: Consistent Novel View Synthesis from a Single Image [60.04215655745264]
MultiDiffは、単一のRGB画像からシーンを一貫した新しいビュー合成のための新しいアプローチである。
以上の結果から,MultiDiffは,課題の多いリアルタイムデータセットであるRealEstate10KとScanNetにおいて,最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-06-26T17:53:51Z) - PolyOculus: Simultaneous Multi-view Image-based Novel View Synthesis [23.967904337714234]
本稿では,複数の自己整合性を持つ新しいビューを同時に生成できるセットベース生成モデルを提案する。
我々のアプローチは一度に1つの画像を生成することに限らず、可変数のビューを条件にすることができる。
このモデルでは、ループや双眼の軌跡のような自然な順序のないビューを生成でき、そのようなタスクにおいて他の方法よりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2024-02-28T02:06:11Z) - Fast Non-Rigid Radiance Fields from Monocularized Data [66.74229489512683]
本稿では,不規則に変形するシーンを360度内向きに合成する新しい手法を提案する。
提案手法のコアとなるのは, 空間情報と時間情報の処理を分離し, 訓練と推論を高速化する効率的な変形モジュール, 2) 高速ハッシュ符号化ニューラルラジオアンスフィールドとしての標準シーンを表す静的モジュールである。
どちらの場合も,本手法は従来の手法よりもはるかに高速で,7分未満で収束し,1K解像度でリアルタイムのフレームレートを実現するとともに,生成した新規なビューに対して高い視覚的精度が得られる。
論文 参考訳(メタデータ) (2022-12-02T18:51:10Z) - Novel View Synthesis with Diffusion Models [56.55571338854636]
本稿では,3Dノベルビュー合成のための拡散モデルである3DiMを提案する。
単一のインプットビューを多くのビューで一貫したシャープな補完に変換することができる。
3DiMは、条件付けと呼ばれる新しい技術を使って、3D一貫性のある複数のビューを生成することができる。
論文 参考訳(メタデータ) (2022-10-06T16:59:56Z) - Free View Synthesis [100.86844680362196]
本稿では,シーンの周囲に自由に分布する入力画像から新規なビュー合成手法を提案する。
本手法は,入力ビューの規則的な配置に依存しず,シーンを通して自由なカメラ運動のための画像の合成が可能であり,制約のない幾何学的レイアウトの一般的な場面で機能する。
論文 参考訳(メタデータ) (2020-08-12T18:16:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。