論文の概要: OmniView: An All-Seeing Diffusion Model for 3D and 4D View Synthesis
- arxiv url: http://arxiv.org/abs/2512.10940v1
- Date: Thu, 11 Dec 2025 18:59:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-12 16:15:42.565325
- Title: OmniView: An All-Seeing Diffusion Model for 3D and 4D View Synthesis
- Title(参考訳): OmniView: 3Dおよび4Dビュー合成のための全方位拡散モデル
- Authors: Xiang Fan, Sharath Girish, Vivek Ramanujan, Chaoyang Wang, Ashkan Mirzaei, Petr Sushko, Aliaksandr Siarohin, Sergey Tulyakov, Ranjay Krishna,
- Abstract要約: OmniViewは、広範囲な4D一貫性タスクを一般化する統合フレームワークです。
提案手法は空間,時間,ビュー条件を別々に表現し,これらの入力の柔軟な組み合わせを可能にする。
例えば、OmniViewは静的、動的、マルチビューの入力から新しいビューを合成し、軌跡を前後に外挿し、フルカメラコントロールでテキストや画像プロンプトからビデオを作成することができる。
- 参考スコア(独自算出の注目度): 80.3346344429389
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Prior approaches injecting camera control into diffusion models have focused on specific subsets of 4D consistency tasks: novel view synthesis, text-to-video with camera control, image-to-video, amongst others. Therefore, these fragmented approaches are trained on disjoint slices of available 3D/4D data. We introduce OmniView, a unified framework that generalizes across a wide range of 4D consistency tasks. Our method separately represents space, time, and view conditions, enabling flexible combinations of these inputs. For example, OmniView can synthesize novel views from static, dynamic, and multiview inputs, extrapolate trajectories forward and backward in time, and create videos from text or image prompts with full camera control. OmniView is competitive with task-specific models across diverse benchmarks and metrics, improving image quality scores among camera-conditioned diffusion models by up to 33\% in multiview NVS LLFF dataset, 60\% in dynamic NVS Neural 3D Video benchmark, 20\% in static camera control on RE-10K, and reducing camera trajectory errors by 4x in text-conditioned video generation. With strong generalizability in one model, OmniView demonstrates the feasibility of a generalist 4D video model. Project page is available at https://snap-research.github.io/OmniView/
- Abstract(参考訳): カメラ制御を拡散モデルに注入する以前のアプローチでは、新しいビュー合成、カメラ制御によるテキスト・トゥ・ビデオ、画像・トゥ・ビデオなど、4D一貫性タスクの特定のサブセットに焦点が当てられていた。
したがって、これらの断片化アプローチは、利用可能な3D/4Dデータの解離スライスに基づいて訓練される。
OmniViewは、広範囲な4D一貫性タスクを一般化する統合フレームワークです。
提案手法は空間,時間,ビュー条件を別々に表現し,これらの入力の柔軟な組み合わせを可能にする。
例えば、OmniViewは静的、動的、マルチビューの入力から新しいビューを合成し、軌跡を前後に外挿し、フルカメラコントロールでテキストや画像プロンプトからビデオを作成することができる。
OmniViewは、さまざまなベンチマークやメトリクスのタスク固有のモデルと競合し、マルチビューのNVS LLFFデータセットでカメラ条件の拡散モデルの画質スコアを最大33倍改善し、動的NVS Neural 3D Videoベンチマークで60倍、RE-10Kでの静的カメラ制御で20倍、テキスト条件のビデオ生成でカメラ軌道誤差を4倍削減する。
1つのモデルで強力な一般化性を持つOmniViewは、ジェネラリストの4Dビデオモデルの実現可能性を示す。
プロジェクトページはhttps://snap-research.github.io/OmniView/で公開されている。
関連論文リスト
- CausNVS: Autoregressive Multi-view Diffusion for Flexible 3D Novel View Synthesis [48.43677384182078]
CausNVSは自動回帰設定における多視点拡散モデルである。
任意の入出力ビュー設定をサポートし、順次ビューを生成する。
多様な設定で一貫した視覚的品質を実現する。
論文 参考訳(メタデータ) (2025-09-08T11:49:51Z) - Stable Virtual Camera: Generative View Synthesis with Diffusion Models [51.71244310522393]
本稿では,シーンの新たなビューを生成する汎用拡散モデルであるスタブルバーチャルカメラ(Seva)を紹介する。
このアプローチは、シンプルなモデル設計、最適化されたトレーニングレシピ、柔軟なサンプリング戦略によってこれらの制限を克服する。
提案手法では,シームレスなループ閉鎖により,最大半分間の高品質なビデオを生成することができる。
論文 参考訳(メタデータ) (2025-03-18T17:57:22Z) - CAT4D: Create Anything in 4D with Multi-View Video Diffusion Models [98.03734318657848]
本研究では,モノクロ映像から4次元(ダイナミックな3D)シーンを生成するCAT4Dを提案する。
我々は、多様なデータセットの組み合わせに基づいて訓練された多視点ビデオ拡散モデルを活用して、新しいビュー合成を実現する。
新規なビュー合成と動的シーン再構成ベンチマークにおける競合性能を実証する。
論文 参考訳(メタデータ) (2024-11-27T18:57:16Z) - Controlling Space and Time with Diffusion Models [34.7002868116714]
4次元新規ビュー合成(NVS)のためのケースド拡散モデルである4DiMを提案する。
我々は3D(カメラポーズ付き)、4D(目的+時間)、ビデオ(時間だがポーズなし)のデータを混合してトレーニングすることができる。
4DiMは、直感的なメートルスケールカメラポーズ制御を備えた最初のNVS方式である。
論文 参考訳(メタデータ) (2024-07-10T17:23:33Z) - Holoported Characters: Real-time Free-viewpoint Rendering of Humans from Sparse RGB Cameras [65.54875149514274]
一般のアパレルにおいて,人間俳優の高度にリアルなフリー視点映像をレンダリングするための最初のアプローチを提案する。
提案手法は,動作中のアクターの4つのカメラビューと,各3次元骨格ポーズのみを必要とする。
広い服装の俳優を扱い、さらに細かなダイナミックディテールを再現する。
論文 参考訳(メタデータ) (2023-12-12T16:45:52Z) - FLEX: Parameter-free Multi-view 3D Human Motion Reconstruction [70.09086274139504]
マルチビューアルゴリズムはカメラパラメータ、特にカメラ間の相対的な位置に強く依存します。
エンドツーエンドのパラメータフリーマルチビューモデルであるFLEXを紹介します。
Human3.6MおよびKTH Multi-view Football IIデータセットの結果を実証する。
論文 参考訳(メタデータ) (2021-05-05T09:08:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。