論文の概要: Look Beyond: Two-Stage Scene View Generation via Panorama and Video Diffusion
- arxiv url: http://arxiv.org/abs/2509.00843v1
- Date: Sun, 31 Aug 2025 13:27:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.424856
- Title: Look Beyond: Two-Stage Scene View Generation via Panorama and Video Diffusion
- Title(参考訳): パノラマとビデオ拡散による2段階のシーンビュー生成
- Authors: Xueyang Kang, Zhengkang Xiang, Zezheng Zhang, Kourosh Khoshelham,
- Abstract要約: 単一画像からの新規なビュー合成(NVS)は、大きな未観測領域のため、高度に強調される。
単一視点のNVSを360度のシーン外挿に分解し,それに対応するモデルを提案する。
提案手法は,ユーザ定義トラジェクトリに沿ってコヒーレントなビューを生成する既存手法よりも優れている。
- 参考スコア(独自算出の注目度): 2.5479056464266994
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Novel view synthesis (NVS) from a single image is highly ill-posed due to large unobserved regions, especially for views that deviate significantly from the input. While existing methods focus on consistency between the source and generated views, they often fail to maintain coherence and correct view alignment across long-range or looped trajectories. We propose a model that addresses this by decomposing single-view NVS into a 360-degree scene extrapolation followed by novel view interpolation. This design ensures long-term view and scene consistency by conditioning on keyframes extracted and warped from a generated panoramic representation. In the first stage, a panorama diffusion model learns the scene prior from the input perspective image. Perspective keyframes are then sampled and warped from the panorama and used as anchor frames in a pre-trained video diffusion model, which generates novel views through a proposed spatial noise diffusion process. Compared to prior work, our method produces globally consistent novel views -- even in loop closure scenarios -- while enabling flexible camera control. Experiments on diverse scene datasets demonstrate that our approach outperforms existing methods in generating coherent views along user-defined trajectories. Our implementation is available at https://github.com/YiGuYT/LookBeyond.
- Abstract(参考訳): 単一の画像からの新しいビュー合成(NVS)は、大きな未観測領域のため、特に入力からかなり逸脱したビューに対して、非常に不適切である。
既存のメソッドはソースと生成されたビュー間の一貫性に重点を置いているが、長い範囲またはループの軌跡をまたいだコヒーレンスと正確なビューアライメントを維持するのに失敗することが多い。
単一ビューNVSを360度のシーン外挿に分解し,新規なビュー補間を行うモデルを提案する。
この設計は、生成されたパノラマ表現から抽出されたキーフレームを条件付けすることで、長期的なビューとシーンの一貫性を保証する。
第1段階では、パノラマ拡散モデルが入力視点画像から予めシーンを学習する。
その後、パースペクティブ・キーフレームをパノラマからサンプリングしてワープし、事前に訓練されたビデオ拡散モデルにおいてアンカー・フレームとして使用し、提案された空間ノイズ拡散プロセスを通じて新しいビューを生成する。
従来の作業と比較すると,ループクロージャシナリオにおいても,グローバルに一貫した新しいビューを生成すると同時に,フレキシブルなカメラコントロールを実現している。
多様なシーンデータセットの実験では、ユーザ定義の軌跡に沿ってコヒーレントなビューを生成する場合、我々のアプローチが既存の手法よりも優れていることが示されている。
私たちの実装はhttps://github.com/YiGuYT/LookBeyond.comで公開されています。
関連論文リスト
- Stable Virtual Camera: Generative View Synthesis with Diffusion Models [51.71244310522393]
本稿では,シーンの新たなビューを生成する汎用拡散モデルであるスタブルバーチャルカメラ(Seva)を紹介する。
このアプローチは、シンプルなモデル設計、最適化されたトレーニングレシピ、柔軟なサンプリング戦略によってこれらの制限を克服する。
提案手法では,シームレスなループ閉鎖により,最大半分間の高品質なビデオを生成することができる。
論文 参考訳(メタデータ) (2025-03-18T17:57:22Z) - ViewFusion: Learning Composable Diffusion Models for Novel View Synthesis [47.0052408875896]
ViewFusionは、非並列な柔軟性を備えた新しいビュー合成に対するエンドツーエンドのジェネレーティブアプローチである。
本手法は比較的小さなNeural 3D Mesh Rendererデータセットで検証する。
論文 参考訳(メタデータ) (2024-02-05T11:22:14Z) - UpFusion: Novel View Diffusion from Unposed Sparse View Observations [66.36092764694502]
UpFusionは、参照画像のスパースセットが与えられたオブジェクトに対して、新しいビュー合成と3D表現を推論することができる。
本研究では,この機構により,付加された(未提示)画像の合成品質を向上しつつ,高忠実度な新規ビューを生成することができることを示す。
論文 参考訳(メタデータ) (2023-12-11T18:59:55Z) - DiffDreamer: Towards Consistent Unsupervised Single-view Scene
Extrapolation with Conditional Diffusion Models [91.94566873400277]
DiffDreamerは、長いカメラ軌跡を描いた新しいビューを合成できる教師なしのフレームワークである。
画像条件付き拡散モデルでは, 従来のGAN法よりも一貫性を保ちながら, 長距離シーン外挿を効果的に行うことができることを示す。
論文 参考訳(メタデータ) (2022-11-22T10:06:29Z) - IBRNet: Learning Multi-View Image-Based Rendering [67.15887251196894]
本稿では,近接ビューの疎集合を補間することにより,複雑なシーンの新しいビューを合成する手法を提案する。
レンダリング時にソースビューを描画することで、画像ベースのレンダリングに関する古典的な作業に戻ります。
論文 参考訳(メタデータ) (2021-02-25T18:56:21Z) - Free View Synthesis [100.86844680362196]
本稿では,シーンの周囲に自由に分布する入力画像から新規なビュー合成手法を提案する。
本手法は,入力ビューの規則的な配置に依存しず,シーンを通して自由なカメラ運動のための画像の合成が可能であり,制約のない幾何学的レイアウトの一般的な場面で機能する。
論文 参考訳(メタデータ) (2020-08-12T18:16:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。