論文の概要: PanoWorld-X: Generating Explorable Panoramic Worlds via Sphere-Aware Video Diffusion
- arxiv url: http://arxiv.org/abs/2509.24997v1
- Date: Mon, 29 Sep 2025 16:22:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:20.126633
- Title: PanoWorld-X: Generating Explorable Panoramic Worlds via Sphere-Aware Video Diffusion
- Title(参考訳): PanoWorld-X: Sphere-Aware Video Diffusionによる探索可能なパノラマ世界の生成
- Authors: Yuyang Yin, HaoXiang Guo, Fangfu Liu, Mengyu Wang, Hanwen Liang, Eric Li, Yikai Wang, Xiaojie Jin, Yao Zhao, Yunchao Wei,
- Abstract要約: PanoWorld-Xは、多彩なカメラ軌道を持つ高忠実で制御可能なパノラマビデオ生成のための新しいフレームワークである。
動作範囲,制御精度,視覚的品質など,様々な面で優れた性能を示す実験を行った。
- 参考スコア(独自算出の注目度): 87.13016347332943
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generating a complete and explorable 360-degree visual world enables a wide range of downstream applications. While prior works have advanced the field, they remain constrained by either narrow field-of-view limitations, which hinder the synthesis of continuous and holistic scenes, or insufficient camera controllability that restricts free exploration by users or autonomous agents. To address this, we propose PanoWorld-X, a novel framework for high-fidelity and controllable panoramic video generation with diverse camera trajectories. Specifically, we first construct a large-scale dataset of panoramic video-exploration route pairs by simulating camera trajectories in virtual 3D environments via Unreal Engine. As the spherical geometry of panoramic data misaligns with the inductive priors from conventional video diffusion, we then introduce a Sphere-Aware Diffusion Transformer architecture that reprojects equirectangular features onto the spherical surface to model geometric adjacency in latent space, significantly enhancing visual fidelity and spatiotemporal continuity. Extensive experiments demonstrate that our PanoWorld-X achieves superior performance in various aspects, including motion range, control precision, and visual quality, underscoring its potential for real-world applications.
- Abstract(参考訳): 完全で探索可能な360度ビジュアルワールドの生成は、幅広い下流アプリケーションを可能にする。
以前の作品では視野の制限が狭く、連続的で全体的なシーンの合成を妨げたり、ユーザーや自律的なエージェントによる自由な探索を制限するカメラの制御が不十分であったりしていた。
そこで本研究では,多種多様なカメラトラジェクトリを用いた高忠実かつ制御可能なパノラマ映像生成のための新しいフレームワークであるPanoWorld-Xを提案する。
具体的には,Unreal Engineによる仮想3D環境におけるカメラ軌道のシミュレーションにより,パノラマ画像探索経路ペアの大規模データセットを構築する。
パノラマデータの球形幾何学は、従来のビデオ拡散から導出される先行現象と不一致であるので、球面に等角的特徴を再計画し、潜時空間における幾何学的隣接をモデル化し、視覚的忠実度と時空間連続性を著しく向上する球面認識拡散変換器アーキテクチャを導入する。
広汎な実験により、我々のPanoWorld-Xは、動作範囲、制御精度、視覚的品質など、様々な面で優れた性能を達成し、現実世界の応用の可能性を強調している。
関連論文リスト
- Matrix-3D: Omnidirectional Explorable 3D World Generation [20.568791715708134]
広視野全方位3次元世界生成のためのパノラマ表現を利用するフレームワークMatrix-3Dを提案する。
まず,シーンメッシュレンダリングを条件として,軌跡誘導パノラマ動画拡散モデルを訓練する。
本研究では, パノラマシーン映像を3次元世界へ持ち上げるために, (1) 高速3次元シーン再構成のためのフィードフォワード大パノラマ再構成モデル, (2) 正確かつ詳細な3次元シーン再構成のための最適化ベースパイプラインの2つの方法を提案する。
論文 参考訳(メタデータ) (2025-08-11T15:29:57Z) - ViewPoint: Panoramic Video Generation with Pretrained Diffusion Models [52.87334248847314]
本研究では,パノラマ映像の生成に事前学習した視点映像モデルを用いた新しいフレームワークを提案する。
具体的には,世界空間の連続性と細かな視覚的詳細を同時に持つビューポイントマップという新しいパノラマ表現を設計する。
提案手法は,パノラマ映像を高度にダイナミックかつ空間的に一貫したパノラマ映像を合成し,最先端の性能を達成し,従来の手法を超越することができる。
論文 参考訳(メタデータ) (2025-06-30T04:33:34Z) - WorldExplorer: Towards Generating Fully Navigable 3D Scenes [48.16064304951891]
WorldExplorerは、幅広い視点で一貫した視覚的品質で、完全にナビゲート可能な3Dシーンを構築する。
私たちは、シーンを深く探求する、短く定義された軌道に沿って、複数のビデオを生成します。
我々の新しいシーン記憶は、各ビデオが最も関連性の高い先行ビューで条件付けされている一方、衝突検出機構は劣化を防止している。
論文 参考訳(メタデータ) (2025-06-02T15:41:31Z) - PanoWan: Lifting Diffusion Video Generation Models to 360° with Latitude/Longitude-aware Mechanisms [41.92179513409301]
既存のパノラマビデオ生成モデルは、高品質なパノラマビデオのための従来のテキスト・ツー・ビデオ・モデルから事前訓練された生成先を活用するのに苦労している。
本稿では,パノラマ領域に最小限のモジュールを備えた事前学習されたテキスト・ビデオ・モデルを効果的に持ち上げるパノラマモデルを提案する。
これらの揚力表現を学習するためのパノラマビデオを提供するため、キャプションと多様なシナリオを備えた高品質なパノラマビデオデータセットであるPanoVidをコントリビュートする。
論文 参考訳(メタデータ) (2025-05-28T06:24:21Z) - DiffPano: Scalable and Consistent Text to Panorama Generation with Spherical Epipolar-Aware Diffusion [60.45000652592418]
本稿では,テキスト駆動型パノラマ生成フレームワークDiffPanoを提案し,拡張性,一貫性,多様なパノラマシーン生成を実現する。
DiffPanoは、不明瞭なテキスト記述とカメラのポーズによって、一貫した多様なパノラマ画像を生成することができることを示す。
論文 参考訳(メタデータ) (2024-10-31T17:57:02Z) - PanoGRF: Generalizable Spherical Radiance Fields for Wide-baseline
Panoramas [54.4948540627471]
広帯域パノラマのための一般化可能な球面放射場パノGRFを提案する。
パノGRFは、視線画像に基づいて訓練された一般化可能な放射場とは異なり、パノラマからパースペクティブへの変換から情報損失を回避する。
複数のパノラマデータセットの結果は、パノGRFが最先端の一般化可能なビュー合成法よりも著しく優れていることを示している。
論文 参考訳(メタデータ) (2023-06-02T13:35:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。