論文の概要: AnyView: Synthesizing Any Novel View in Dynamic Scenes
- arxiv url: http://arxiv.org/abs/2601.16982v1
- Date: Fri, 23 Jan 2026 18:59:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-26 14:27:27.81246
- Title: AnyView: Synthesizing Any Novel View in Dynamic Scenes
- Title(参考訳): AnyView: ダイナミックなシーンで新しいビューを合成する
- Authors: Basile Van Hoorick, Dian Chen, Shun Iwase, Pavel Tokmakov, Muhammad Zubair Irshad, Igor Vasiljevic, Swati Gupta, Fangzhou Cheng, Sergey Zakharov, Vitor Campagnolo Guizilini,
- Abstract要約: bfAnyViewは、最小のバイアスや幾何学的仮定を伴って、エンファンダイナミックなビューテキスト合成のための拡散ベースのビデオ生成フレームワークである。
本稿では,現状と競合する結果を示すとともに,様々な実世界のシナリオにおいて,エフェクストリームのダイナミックなビューテキストに合わせた新しいベンチマークを提案する。
- 参考スコア(独自算出の注目度): 23.16723540943151
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern generative video models excel at producing convincing, high-quality outputs, but struggle to maintain multi-view and spatiotemporal consistency in highly dynamic real-world environments. In this work, we introduce \textbf{AnyView}, a diffusion-based video generation framework for \emph{dynamic view synthesis} with minimal inductive biases or geometric assumptions. We leverage multiple data sources with various levels of supervision, including monocular (2D), multi-view static (3D) and multi-view dynamic (4D) datasets, to train a generalist spatiotemporal implicit representation capable of producing zero-shot novel videos from arbitrary camera locations and trajectories. We evaluate AnyView on standard benchmarks, showing competitive results with the current state of the art, and propose \textbf{AnyViewBench}, a challenging new benchmark tailored towards \emph{extreme} dynamic view synthesis in diverse real-world scenarios. In this more dramatic setting, we find that most baselines drastically degrade in performance, as they require significant overlap between viewpoints, while AnyView maintains the ability to produce realistic, plausible, and spatiotemporally consistent videos when prompted from \emph{any} viewpoint. Results, data, code, and models can be viewed at: https://tri-ml.github.io/AnyView/
- Abstract(参考訳): 現代の生成ビデオモデルは、説得力があり高品質な出力を生み出すのに優れていますが、高ダイナミックな現実世界環境において、多視点と時空間の一貫性を維持するのに苦労しています。
本研究では,最小の帰納バイアスや幾何学的仮定を備えた拡散型ビデオ生成フレームワークである \textbf{AnyView} を紹介する。
モノクラー(2D)、マルチビュー静的(3D)、マルチビュー動的(4D)データセットなど、さまざまなレベルの監視レベルを持つ複数のデータソースを活用し、任意のカメラ位置や軌跡からゼロショットのノベルビデオを生成することができる一般の時空間的暗黙的表現を訓練する。
我々は、AnyViewを標準ベンチマークで評価し、現在の最先端技術と競合する結果を示し、多様な実世界のシナリオにおける \emph{extreme} 動的ビュー合成に適した、挑戦的な新しいベンチマークである \textbf{AnyViewBench} を提案する。
より劇的な設定では、ほとんどのベースラインは、視点間で大きなオーバーラップを必要とするため、パフォーマンスが劇的に低下するのに対して、AnyViewは、 \emph{any} 視点からトリガーされた時、現実的で、可視的で、時空間的に一貫したビデオを生成する能力を維持している。
結果、データ、コード、モデルは以下の通り。
関連論文リスト
- Stable Virtual Camera: Generative View Synthesis with Diffusion Models [51.71244310522393]
本稿では,シーンの新たなビューを生成する汎用拡散モデルであるスタブルバーチャルカメラ(Seva)を紹介する。
このアプローチは、シンプルなモデル設計、最適化されたトレーニングレシピ、柔軟なサンプリング戦略によってこれらの制限を克服する。
提案手法では,シームレスなループ閉鎖により,最大半分間の高品質なビデオを生成することができる。
論文 参考訳(メタデータ) (2025-03-18T17:57:22Z) - SimVS: Simulating World Inconsistencies for Robust View Synthesis [102.83898965828621]
本稿では、生成ビデオモデルを利用して、キャプチャ中に起こりうる世界の不整合をシミュレートする手法を提案する。
我々の世界シミュレーション戦略は、現実のシーンのバリエーションを扱う上で、従来の拡張手法よりも大幅に優れていることを実証する。
論文 参考訳(メタデータ) (2024-12-10T17:35:12Z) - Feed-Forward Bullet-Time Reconstruction of Dynamic Scenes from Monocular Videos [110.3924779333809]
動的シーンのリアルタイム再構成と新しいビュー合成のための,モーション対応フィードフォワードモデルであるBTimerを提案する。
提案手法は,すべてのコンテキストフレームから情報を集約することにより,所定の目標("bullet')タイムスタンプにおける3次元ガウススティング表現の全体像を再構成する。
カジュアルなモノクロのダイナミックビデオが与えられた後、BTimerは150ms以内の弾道時間シーンを再構築し、静的および動的両方のシーンデータセットで最先端のパフォーマンスに到達した。
論文 参考訳(メタデータ) (2024-12-04T18:15:06Z) - Generative Camera Dolly: Extreme Monocular Dynamic Novel View Synthesis [43.02778060969546]
制御可能な単分子動的ビュー合成パイプラインを提案する。
我々のモデルは入力として深度を必要としないし、明示的に3次元シーン形状をモデル化しない。
私たちのフレームワークは、リッチな動的シーン理解、ロボット工学の知覚、バーチャルリアリティのためのインタラクティブな3Dビデオ視聴体験において、強力なアプリケーションをアンロックできる可能性があると考えています。
論文 参考訳(メタデータ) (2024-05-23T17:59:52Z) - Fast View Synthesis of Casual Videos with Soup-of-Planes [24.35962788109883]
シーンのダイナミックスやパララックスの欠如といった課題のため、Wild ビデオからの新たなビュー合成は困難である。
本稿では,モノクロ映像から高品質な新規ビューを効率よく合成するために,明示的な映像表現を再考する。
本手法は,高品質で最先端の手法に匹敵する品質の動画から高品質な新奇なビューをレンダリングすると同時に,トレーニングの100倍高速でリアルタイムレンダリングを可能にする。
論文 参考訳(メタデータ) (2023-12-04T18:55:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。