論文の概要: OmniRoam: World Wandering via Long-Horizon Panoramic Video Generation
- arxiv url: http://arxiv.org/abs/2603.30045v1
- Date: Tue, 31 Mar 2026 17:59:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-01 15:25:03.971496
- Title: OmniRoam: World Wandering via Long-Horizon Panoramic Video Generation
- Title(参考訳): OmniRoam: 長距離パノラマ動画生成による世界 Wandering
- Authors: Yuheng Liu, Xin Lin, Xinke Li, Baihan Yang, Chen Wang, Kalyan Sunkavalli, Yannick Hold-Geoffroy, Hao Tan, Kai Zhang, Xiaohui Xie, Zifan Shi, Yiwei Hu,
- Abstract要約: 制御可能なパノラマビデオ生成フレームワークであるOmniRoamを提案する。
本フレームワークは,パノラマ表現の長期的・時間的一貫性と,フレーム単位のシーンのリッチなカバレッジを活用している。
実験により、我々のフレームワークは、視覚的品質、制御可能性、長期的なシーンの一貫性の観点から、常に最先端の手法より優れていることが示された。
- 参考スコア(独自算出の注目度): 42.159343032593014
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modeling scenes using video generation models has garnered growing research interest in recent years. However, most existing approaches rely on perspective video models that synthesize only limited observations of a scene, leading to issues of completeness and global consistency. We propose OmniRoam, a controllable panoramic video generation framework that exploits the rich per-frame scene coverage and inherent long-term spatial and temporal consistency of panoramic representation, enabling long-horizon scene wandering. Our framework begins with a preview stage, where a trajectory-controlled video generation model creates a quick overview of the scene from a given input image or video. Then, in the refine stage, this video is temporally extended and spatially upsampled to produce long-range, high-resolution videos, thus enabling high-fidelity world wandering. To train our model, we introduce two panoramic video datasets that incorporate both synthetic and real-world captured videos. Experiments show that our framework consistently outperforms state-of-the-art methods in terms of visual quality, controllability, and long-term scene consistency, both qualitatively and quantitatively. We further showcase several extensions of this framework, including real-time video generation and 3D reconstruction. Code is available at https://github.com/yuhengliu02/OmniRoam.
- Abstract(参考訳): 近年,映像生成モデルを用いたシーンのモデリングが研究の関心を高めている。
しかし、既存のほとんどのアプローチは、シーンの限られた観察のみを合成する視点ビデオモデルに依存しており、完全性やグローバルな一貫性の問題に繋がる。
OmniRoamは,パノラマ映像のリッチなフレーム単位のシーンカバレッジとパノラマ表現の時間的空間的・時間的一貫性を活かし,長時間のシーンの移動を可能にする,制御可能なパノラマ映像生成フレームワークである。
我々のフレームワークは、軌道制御されたビデオ生成モデルが与えられた入力画像やビデオからシーンのクイックオーバービューを生成するプレビューステージから始まります。
次に、このビデオは時間的に拡張され、空間的にアップサンプリングされ、長距離で高解像度なビデオを生成するため、高忠実度の世界をさまようことができる。
モデルをトレーニングするために、合成ビデオと実世界のビデオの両方を組み込んだ2つのパノラマビデオデータセットを導入しました。
実験の結果、我々のフレームワークは、視覚的品質、制御可能性、長期のシーンの一貫性において、質的かつ定量的に、常に最先端の手法より優れていることがわかった。
さらに、リアルタイムビデオ生成や3D再構成など、このフレームワークの拡張についても紹介する。
コードはhttps://github.com/yuhengliu02/OmniRoamで入手できる。
関連論文リスト
- Stepper: Stepwise Immersive Scene Generation with Multiview Panoramas [101.58587238272462]
テキスト駆動型没入型3Dシーン合成のための統合フレームワークであるStepperを提案する。
Stepperは新しい大規模なマルチビューパノラマデータセットでトレーニングされている。
最先端の忠実さと構造的な一貫性を実現し、以前のアプローチよりも優れています。
論文 参考訳(メタデータ) (2026-03-30T20:26:28Z) - Matrix-3D: Omnidirectional Explorable 3D World Generation [20.568791715708134]
広視野全方位3次元世界生成のためのパノラマ表現を利用するフレームワークMatrix-3Dを提案する。
まず,シーンメッシュレンダリングを条件として,軌跡誘導パノラマ動画拡散モデルを訓練する。
本研究では, パノラマシーン映像を3次元世界へ持ち上げるために, (1) 高速3次元シーン再構成のためのフィードフォワード大パノラマ再構成モデル, (2) 正確かつ詳細な3次元シーン再構成のための最適化ベースパイプラインの2つの方法を提案する。
論文 参考訳(メタデータ) (2025-08-11T15:29:57Z) - WorldExplorer: Towards Generating Fully Navigable 3D Scenes [48.16064304951891]
WorldExplorerは、幅広い視点で一貫した視覚的品質で、完全にナビゲート可能な3Dシーンを構築する。
私たちは、シーンを深く探求する、短く定義された軌道に沿って、複数のビデオを生成します。
我々の新しいシーン記憶は、各ビデオが最も関連性の高い先行ビューで条件付けされている一方、衝突検出機構は劣化を防止している。
論文 参考訳(メタデータ) (2025-06-02T15:41:31Z) - PanoWan: Lifting Diffusion Video Generation Models to 360° with Latitude/Longitude-aware Mechanisms [41.92179513409301]
既存のパノラマビデオ生成モデルは、高品質なパノラマビデオのための従来のテキスト・ツー・ビデオ・モデルから事前訓練された生成先を活用するのに苦労している。
本稿では,パノラマ領域に最小限のモジュールを備えた事前学習されたテキスト・ビデオ・モデルを効果的に持ち上げるパノラマモデルを提案する。
これらの揚力表現を学習するためのパノラマビデオを提供するため、キャプションと多様なシナリオを備えた高品質なパノラマビデオデータセットであるPanoVidをコントリビュートする。
論文 参考訳(メタデータ) (2025-05-28T06:24:21Z) - VidPanos: Generative Panoramic Videos from Casual Panning Videos [73.77443496436749]
パノラマ画像ステッチは、カメラの視野を越えて広がるシーンの統一された広角ビューを提供する。
本稿では,カジュアルにキャプチャされたパンニングビデオからパノラマ動画を合成する方法を提案する。
我々のシステムは、人、車、流れる水など、さまざまな場所のシーンにビデオパノラマを作成できる。
論文 参考訳(メタデータ) (2024-10-17T17:53:24Z) - Infinite Nature: Perpetual View Generation of Natural Scenes from a
Single Image [73.56631858393148]
本研究では,1枚の画像から任意に長いカメラの軌跡に対応する新規ビューの長期生成という,永続的なビュー生成の問題について紹介する。
我々は、幾何合成と画像合成の両方を反復レンダリング、洗練、反復フレームワークで統合するハイブリッドアプローチを採用する。
提案手法は,手動のアノテーションを使わずに,一眼レフビデオシーケンスの集合から訓練することができる。
論文 参考訳(メタデータ) (2020-12-17T18:59:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。