論文の概要: PanoWan: Lifting Diffusion Video Generation Models to 360° with Latitude/Longitude-aware Mechanisms
- arxiv url: http://arxiv.org/abs/2505.22016v1
- Date: Wed, 28 May 2025 06:24:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 17:35:50.443619
- Title: PanoWan: Lifting Diffusion Video Generation Models to 360° with Latitude/Longitude-aware Mechanisms
- Title(参考訳): PanoWan: 緯度・経度を考慮した拡散ビデオ生成モデルを360度にリフティング
- Authors: Yifei Xia, Shuchen Weng, Siqi Yang, Jingqi Liu, Chengxuan Zhu, Minggui Teng, Zijian Jia, Han Jiang, Boxin Shi,
- Abstract要約: 最小限のモジュールを備えたパノラマドメインに事前訓練されたテキスト・ビデオモデルを持ち上げるために,PanoWanを導入する。
PanoWanはパノラマビデオ生成における最先端のパフォーマンスを実現し、ゼロショットダウンストリームタスクの堅牢性を示す。
- 参考スコア(独自算出の注目度): 41.92179513409301
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Panoramic video generation enables immersive 360{\deg} content creation, valuable in applications that demand scene-consistent world exploration. However, existing panoramic video generation models struggle to leverage pre-trained generative priors from conventional text-to-video models for high-quality and diverse panoramic videos generation, due to limited dataset scale and the gap in spatial feature representations. In this paper, we introduce PanoWan to effectively lift pre-trained text-to-video models to the panoramic domain, equipped with minimal modules. PanoWan employs latitude-aware sampling to avoid latitudinal distortion, while its rotated semantic denoising and padded pixel-wise decoding ensure seamless transitions at longitude boundaries. To provide sufficient panoramic videos for learning these lifted representations, we contribute PanoVid, a high-quality panoramic video dataset with captions and diverse scenarios. Consequently, PanoWan achieves state-of-the-art performance in panoramic video generation and demonstrates robustness for zero-shot downstream tasks.
- Abstract(参考訳): パノラマビデオ生成は没入型360{\deg}コンテンツ作成を可能にする。
しかしながら、既存のパノラマビデオ生成モデルは、データセットスケールの制限と空間的特徴表現のギャップのために、従来のテキスト・ビデオ・モデルからの事前学習された生成先行を、高品質で多様なパノラマビデオ生成のために活用するのに苦労している。
本稿では,パノラマ領域に最小限のモジュールを備えた事前学習されたテキスト・ビデオ・モデルを効果的に持ち上げるパノラマモデルを提案する。
PanoWanは緯度対応サンプリングを使用して緯度歪みを回避し、回転するセマンティックデノイングとパッド付きピクセルワイズデコードにより、経度境界でのシームレスな遷移が保証される。
これらの揚力表現を学習するためのパノラマビデオを提供するため、キャプションと多様なシナリオを備えた高品質なパノラマビデオデータセットであるPanoVidをコントリビュートする。
その結果、パノラマビデオ生成における最先端のパフォーマンスを達成し、ゼロショットダウンストリームタスクの堅牢性を示す。
関連論文リスト
- VideoPanda: Video Panoramic Diffusion with Multi-view Attention [57.87428280844657]
高解像度パノラマビデオコンテンツはバーチャルリアリティーの没入体験にとって最重要であるが、特殊な機器や複雑なカメラのセットアップを必要とするため、収集は容易ではない。
VideoPandaは、既存の方法と比較して、すべての入力条件に対してよりリアルでコヒーレントな360$のパノラマを生成する。
論文 参考訳(メタデータ) (2025-04-15T16:58:15Z) - DiffPano: Scalable and Consistent Text to Panorama Generation with Spherical Epipolar-Aware Diffusion [60.45000652592418]
本稿では,テキスト駆動型パノラマ生成フレームワークDiffPanoを提案し,拡張性,一貫性,多様なパノラマシーン生成を実現する。
DiffPanoは、不明瞭なテキスト記述とカメラのポーズによって、一貫した多様なパノラマ画像を生成することができることを示す。
論文 参考訳(メタデータ) (2024-10-31T17:57:02Z) - VidPanos: Generative Panoramic Videos from Casual Panning Videos [73.77443496436749]
パノラマ画像ステッチは、カメラの視野を越えて広がるシーンの統一された広角ビューを提供する。
本稿では,カジュアルにキャプチャされたパンニングビデオからパノラマ動画を合成する方法を提案する。
我々のシステムは、人、車、流れる水など、さまざまな場所のシーンにビデオパノラマを作成できる。
論文 参考訳(メタデータ) (2024-10-17T17:53:24Z) - PanoVOS: Bridging Non-panoramic and Panoramic Views with Transformer for Video Segmentation [39.269864548255576]
パノラマビデオデータセットPanoVOSを提案する。
データセットは150本のビデオに高解像度と多様なモーションを提供する。
パノラマ空間整合変換器(PSCFormer)は,従来のフレームのセマンティック境界情報を,現在のフレームとの画素レベルのマッチングに有効に利用することができる。
論文 参考訳(メタデータ) (2023-09-21T17:59:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。