論文の概要: ViewPoint: Panoramic Video Generation with Pretrained Diffusion Models
- arxiv url: http://arxiv.org/abs/2506.23513v1
- Date: Mon, 30 Jun 2025 04:33:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:53.91874
- Title: ViewPoint: Panoramic Video Generation with Pretrained Diffusion Models
- Title(参考訳): ViewPoint: 事前学習拡散モデルによるパノラマ映像生成
- Authors: Zixun Fang, Kai Zhu, Zhiheng Liu, Yu Liu, Wei Zhai, Yang Cao, Zheng-Jun Zha,
- Abstract要約: 本研究では,パノラマ映像の生成に事前学習した視点映像モデルを用いた新しいフレームワークを提案する。
具体的には,世界空間の連続性と細かな視覚的詳細を同時に持つビューポイントマップという新しいパノラマ表現を設計する。
提案手法は,パノラマ映像を高度にダイナミックかつ空間的に一貫したパノラマ映像を合成し,最先端の性能を達成し,従来の手法を超越することができる。
- 参考スコア(独自算出の注目度): 52.87334248847314
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Panoramic video generation aims to synthesize 360-degree immersive videos, holding significant importance in the fields of VR, world models, and spatial intelligence. Existing works fail to synthesize high-quality panoramic videos due to the inherent modality gap between panoramic data and perspective data, which constitutes the majority of the training data for modern diffusion models. In this paper, we propose a novel framework utilizing pretrained perspective video models for generating panoramic videos. Specifically, we design a novel panorama representation named ViewPoint map, which possesses global spatial continuity and fine-grained visual details simultaneously. With our proposed Pano-Perspective attention mechanism, the model benefits from pretrained perspective priors and captures the panoramic spatial correlations of the ViewPoint map effectively. Extensive experiments demonstrate that our method can synthesize highly dynamic and spatially consistent panoramic videos, achieving state-of-the-art performance and surpassing previous methods.
- Abstract(参考訳): パノラマビデオ生成は360度没入型ビデオを合成することを目的としており、VR、世界モデル、空間知性といった分野において重要な役割を担っている。
既存の作品では、パノラマデータとパースペクティブデータの間に固有のモダリティギャップがあるため、高品質なパノラマビデオの合成に失敗した。
本稿では,パノラマ映像の生成に事前学習された視点映像モデルを用いた新しいフレームワークを提案する。
具体的には,世界空間の連続性と細かな視覚的詳細を同時に持つビューポイントマップという新しいパノラマ表現を設計する。
提案したパノ・パースペクティブ・アテンション・メカニズムにより、事前学習された視点の利点を生かし、ビューポイントマップのパノラマ空間相関を効果的に捉える。
広汎な実験により,本手法はパノラマ映像を高度にダイナミックかつ空間的に一貫したパノラマ映像を合成し,最先端の性能を達成し,先行手法を超越できることが示された。
関連論文リスト
- PanoWan: Lifting Diffusion Video Generation Models to 360° with Latitude/Longitude-aware Mechanisms [41.92179513409301]
既存のパノラマビデオ生成モデルは、高品質なパノラマビデオのための従来のテキスト・ツー・ビデオ・モデルから事前訓練された生成先を活用するのに苦労している。
本稿では,パノラマ領域に最小限のモジュールを備えた事前学習されたテキスト・ビデオ・モデルを効果的に持ち上げるパノラマモデルを提案する。
これらの揚力表現を学習するためのパノラマビデオを提供するため、キャプションと多様なシナリオを備えた高品質なパノラマビデオデータセットであるPanoVidをコントリビュートする。
論文 参考訳(メタデータ) (2025-05-28T06:24:21Z) - HoloTime: Taming Video Diffusion Models for Panoramic 4D Scene Generation [29.579493980120173]
HoloTimeは、ビデオ拡散モデルを統合して、単一のプロンプトまたは参照イメージからパノラマビデオを生成するフレームワークである。
360Worldデータセットは、下流の4Dシーン再構築タスクに適したパノラマビデオの包括的なコレクションである。
パノラマアニメーションは、パノラマ画像を高品質のパノラマビデオに変換する2段階のイメージ・ツー・ビデオ拡散モデルである。
パノラマ空間時間再構成は、空間時間深度推定法を用いて、生成されたパノラマ映像を4次元の点雲に変換する。
論文 参考訳(メタデータ) (2025-04-30T13:55:28Z) - VideoPanda: Video Panoramic Diffusion with Multi-view Attention [57.87428280844657]
高解像度パノラマビデオコンテンツはバーチャルリアリティーの没入体験にとって最重要であるが、特殊な機器や複雑なカメラのセットアップを必要とするため、収集は容易ではない。
VideoPandaは、既存の方法と比較して、すべての入力条件に対してよりリアルでコヒーレントな360$のパノラマを生成する。
論文 参考訳(メタデータ) (2025-04-15T16:58:15Z) - Beyond the Frame: Generating 360° Panoramic Videos from Perspective Videos [64.10180665546237]
360degのビデオは、私たちの周囲のより完全な視点を提供する。
既存のビデオモデルは、標準的なビデオを作るのに優れているが、完全なパノラマビデオを生成する能力は、まだ明らかになっていない。
高品質なデータフィルタリングパイプラインを開発し、双方向のトレーニングデータをキュレートし、360度ビデオ生成の品質を向上させる。
実験結果から,本モデルでは実写的でコヒーレントな360デグ映像を撮影できることが示された。
論文 参考訳(メタデータ) (2025-04-10T17:51:38Z) - ViewCrafter: Taming Video Diffusion Models for High-fidelity Novel View Synthesis [63.169364481672915]
単一またはスパース画像からジェネリックシーンの高忠実な新規ビューを合成する新しい方法である textbfViewCrafter を提案する。
提案手法は,映像拡散モデルの強力な生成能力と,ポイントベース表現によって提供される粗い3D手がかりを利用して高品質な映像フレームを生成する。
論文 参考訳(メタデータ) (2024-09-03T16:53:19Z) - PanoVOS: Bridging Non-panoramic and Panoramic Views with Transformer for Video Segmentation [39.269864548255576]
パノラマビデオデータセットPanoVOSを提案する。
データセットは150本のビデオに高解像度と多様なモーションを提供する。
パノラマ空間整合変換器(PSCFormer)は,従来のフレームのセマンティック境界情報を,現在のフレームとの画素レベルのマッチングに有効に利用することができる。
論文 参考訳(メタデータ) (2023-09-21T17:59:02Z) - Unsupervised Learning of Depth and Ego-Motion from Cylindrical Panoramic
Video with Applications for Virtual Reality [2.294014185517203]
円筒型パノラマビデオからの深度とエゴモーションの教師なし学習のための畳み込みニューラルネットワークモデルを提案する。
パノラマ深度推定は、仮想現実、3Dモデリング、自律型ロボットナビゲーションといったアプリケーションにとって重要な技術である。
論文 参考訳(メタデータ) (2020-10-14T16:41:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。