論文の概要: Generative View Stitching
- arxiv url: http://arxiv.org/abs/2510.24718v1
- Date: Tue, 28 Oct 2025 17:59:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-29 15:35:37.339655
- Title: Generative View Stitching
- Title(参考訳): ジェネレーティブ・ビュー・スティッチング
- Authors: Chonghyuk Song, Michal Stary, Boyuan Chen, George Kopanas, Vincent Sitzmann,
- Abstract要約: カメラ誘導映像生成のためのGVS(Generative View Stitching)を提案する。
GVSは、生成されたシーンが予め定義されたカメラ軌跡のすべての部分に忠実になるように、全シーケンスを並列にサンプリングする。
GVSは、安定的で、衝突のない、フレーム間一貫性のあるカメラ誘導ビデオ生成を実現し、様々な事前定義されたカメラパスのループを閉じる。
- 参考スコア(独自算出の注目度): 14.38845535978026
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Autoregressive video diffusion models are capable of long rollouts that are stable and consistent with history, but they are unable to guide the current generation with conditioning from the future. In camera-guided video generation with a predefined camera trajectory, this limitation leads to collisions with the generated scene, after which autoregression quickly collapses. To address this, we propose Generative View Stitching (GVS), which samples the entire sequence in parallel such that the generated scene is faithful to every part of the predefined camera trajectory. Our main contribution is a sampling algorithm that extends prior work on diffusion stitching for robot planning to video generation. While such stitching methods usually require a specially trained model, GVS is compatible with any off-the-shelf video model trained with Diffusion Forcing, a prevalent sequence diffusion framework that we show already provides the affordances necessary for stitching. We then introduce Omni Guidance, a technique that enhances the temporal consistency in stitching by conditioning on both the past and future, and that enables our proposed loop-closing mechanism for delivering long-range coherence. Overall, GVS achieves camera-guided video generation that is stable, collision-free, frame-to-frame consistent, and closes loops for a variety of predefined camera paths, including Oscar Reutersv\"ard's Impossible Staircase. Results are best viewed as videos at https://andrewsonga.github.io/gvs.
- Abstract(参考訳): 自己回帰ビデオ拡散モデルは、歴史と安定して長いロールアウトが可能であるが、未来からの条件付きで現在の世代を導くことはできない。
予め定義されたカメラ軌道を持つカメラ誘導ビデオ生成において、この制限は生成されたシーンと衝突し、自動回帰が急速に崩壊する。
そこで本研究では,生成シーンが予め定義されたカメラ軌跡のすべての部分に忠実であるように,全シーケンスを並列にサンプリングする生成ビュースチッチ(GVS)を提案する。
我々の主な貢献は、ビデオ生成のためのロボット計画のための拡散縫合の先行作業を拡張するサンプリングアルゴリズムである。
このような縫合法は通常、特別に訓練されたモデルを必要とするが、GVSはDiffusion Forcingで訓練された市販のビデオモデルと互換性がある。
Omni Guidanceは縫合における時間的一貫性を過去と未来の両方に条件付けることによって向上させる手法で,長距離コヒーレンスを実現するためのループ閉鎖機構を提案する。
全体として、GVSは安定した、衝突のないフレーム間一貫性のあるカメラ誘導ビデオ生成を実現し、Oscar Reutersv\"ardのImpossible Staircaseなど、予め定義された様々なカメラパスのループを閉じる。
結果はhttps://andrewsonga.github.io/gvs.comで最もよく見られる。
関連論文リスト
- Look Beyond: Two-Stage Scene View Generation via Panorama and Video Diffusion [2.5479056464266994]
単一画像からの新規なビュー合成(NVS)は、大きな未観測領域のため、高度に強調される。
単一視点のNVSを360度のシーン外挿に分解し,それに対応するモデルを提案する。
提案手法は,ユーザ定義トラジェクトリに沿ってコヒーレントなビューを生成する既存手法よりも優れている。
論文 参考訳(メタデータ) (2025-08-31T13:27:15Z) - Stable Virtual Camera: Generative View Synthesis with Diffusion Models [51.71244310522393]
本稿では,シーンの新たなビューを生成する汎用拡散モデルであるスタブルバーチャルカメラ(Seva)を紹介する。
このアプローチは、シンプルなモデル設計、最適化されたトレーニングレシピ、柔軟なサンプリング戦略によってこれらの制限を克服する。
提案手法では,シームレスなループ閉鎖により,最大半分間の高品質なビデオを生成することができる。
論文 参考訳(メタデータ) (2025-03-18T17:57:22Z) - Latent-Reframe: Enabling Camera Control for Video Diffusion Model without Training [51.851390459940646]
我々は、微調整なしで事前訓練されたビデオ拡散モデルでカメラ制御が可能なLatent-Reframeを紹介した。
Latent-Reframeはサンプリング段階で動作し、オリジナルのモデル分布を維持しながら効率を維持する。
当社のアプローチでは,ビデオフレームの潜在コードを再設計し,タイムアウェアな点雲を通して入力カメラ軌跡と整合する。
論文 参考訳(メタデータ) (2024-12-08T18:59:54Z) - Cavia: Camera-controllable Multi-view Video Diffusion with View-Integrated Attention [62.2447324481159]
Caviaはカメラ制御可能なマルチビュービデオ生成のための新しいフレームワークである。
我々のフレームワークは、空間的および時間的注意モジュールを拡張し、視点と時間的一貫性を改善します。
Caviaは、ユーザーが物体の動きを取得しながら、異なるカメラの動きを特定できる最初の製品だ。
論文 参考訳(メタデータ) (2024-10-14T17:46:32Z) - ViD-GPT: Introducing GPT-style Autoregressive Generation in Video Diffusion Models [66.84478240757038]
ビデオ拡散モデル(VDM)の大多数は、自己回帰的な方法で長いビデオを生成する。
我々は、VDMに因果生成(すなわち一方向)を導入し、過去のフレームを将来のフレームを生成するプロンプトとして利用する。
我々のVD-GPTは、長大なビデオ生成において、定量的かつ質的に最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-06-16T15:37:22Z) - Collaborative Video Diffusion: Consistent Multi-video Generation with Camera Control [70.17137528953953]
コラボレーション型ビデオ拡散(CVD)は、ビデオ生成のための最先端のカメラ制御モジュール上で訓練される。
CVDは、異なるカメラ軌跡からレンダリングされた複数のビデオを、ベースラインよりもはるかに優れた一貫性で生成する。
論文 参考訳(メタデータ) (2024-05-27T17:58:01Z) - Explorative Inbetweening of Time and Space [46.77750028273578]
与えられた開始フレームと終了フレームのみに基づいて映像生成を制御するために境界生成を導入する。
Time Reversal Fusionは、開始フレームと終了フレームに条件付けられた時間的に前方および後方にデノナイジングパスを融合する。
Time Reversal Fusionは、すべてのサブタスクにおける関連する作業よりも優れています。
論文 参考訳(メタデータ) (2024-03-21T17:57:31Z) - Infinite Nature: Perpetual View Generation of Natural Scenes from a
Single Image [73.56631858393148]
本研究では,1枚の画像から任意に長いカメラの軌跡に対応する新規ビューの長期生成という,永続的なビュー生成の問題について紹介する。
我々は、幾何合成と画像合成の両方を反復レンダリング、洗練、反復フレームワークで統合するハイブリッドアプローチを採用する。
提案手法は,手動のアノテーションを使わずに,一眼レフビデオシーケンスの集合から訓練することができる。
論文 参考訳(メタデータ) (2020-12-17T18:59:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。