論文の概要: CamPVG: Camera-Controlled Panoramic Video Generation with Epipolar-Aware Diffusion
- arxiv url: http://arxiv.org/abs/2509.19979v1
- Date: Wed, 24 Sep 2025 10:34:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-25 20:53:19.779659
- Title: CamPVG: Camera-Controlled Panoramic Video Generation with Epipolar-Aware Diffusion
- Title(参考訳): CamPVG: エピポーラ対応拡散を用いたカメラ制御パノラマ映像生成
- Authors: Chenhao Ji, Chaohui Yu, Junyao Gao, Fan Wang, Cairong Zhao,
- Abstract要約: CamPVGは、正確なカメラポーズによってガイドされるパノラマビデオ生成のための初めての拡散ベースのフレームワークである。
球面投影に基づくパノラマ画像とクロスビュー特徴集計のためのカメラ位置符号化を実現する。
提案手法は,パノラマ映像生成における既存の手法をはるかに超え,カメラトラジェクトリーと整合した高品質なパノラマ映像を生成する。
- 参考スコア(独自算出の注目度): 31.032317079295762
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, camera-controlled video generation has seen rapid development, offering more precise control over video generation. However, existing methods predominantly focus on camera control in perspective projection video generation, while geometrically consistent panoramic video generation remains challenging. This limitation is primarily due to the inherent complexities in panoramic pose representation and spherical projection. To address this issue, we propose CamPVG, the first diffusion-based framework for panoramic video generation guided by precise camera poses. We achieve camera position encoding for panoramic images and cross-view feature aggregation based on spherical projection. Specifically, we propose a panoramic Pl\"ucker embedding that encodes camera extrinsic parameters through spherical coordinate transformation. This pose encoder effectively captures panoramic geometry, overcoming the limitations of traditional methods when applied to equirectangular projections. Additionally, we introduce a spherical epipolar module that enforces geometric constraints through adaptive attention masking along epipolar lines. This module enables fine-grained cross-view feature aggregation, substantially enhancing the quality and consistency of generated panoramic videos. Extensive experiments demonstrate that our method generates high-quality panoramic videos consistent with camera trajectories, far surpassing existing methods in panoramic video generation.
- Abstract(参考訳): 近年、カメラ制御ビデオ生成が急速に発展し、映像生成をより正確に制御できるようになった。
しかし、既存の手法は主に視点投影ビデオ生成におけるカメラ制御に焦点を当てているが、幾何学的に一貫したパノラマビデオ生成は依然として困難である。
この制限は主にパノラマ的なポーズ表現と球面射影に固有の複雑さに起因する。
そこで本研究では,パノラマ画像生成のための拡散型フレームワークであるCamPVGを提案する。
球面投影に基づくパノラマ画像とクロスビュー特徴集計のためのカメラ位置符号化を実現する。
具体的には、球面座標変換によりカメラ外部パラメータを符号化するパノラマPl\"ucker埋め込みを提案する。
このポーズエンコーダはパノラマ幾何学を効果的に捉え、等角射影に適用した場合の従来の手法の限界を克服する。
さらに, エピポーラ線に沿ったアダプティブアテンションマスキングにより, 幾何的制約を強制する球状エピポーラモジュールを導入する。
このモジュールは細粒度のクロスビュー機能アグリゲーションを可能にし、生成されたパノラマビデオの品質と一貫性を大幅に向上させる。
広範にわたる実験により,パノラマ映像生成法は,従来のパノラマ映像生成法をはるかに超え,カメラ軌道と整合した高品質なパノラマ映像を生成することが示された。
関連論文リスト
- ViewPoint: Panoramic Video Generation with Pretrained Diffusion Models [52.87334248847314]
本研究では,パノラマ映像の生成に事前学習した視点映像モデルを用いた新しいフレームワークを提案する。
具体的には,世界空間の連続性と細かな視覚的詳細を同時に持つビューポイントマップという新しいパノラマ表現を設計する。
提案手法は,パノラマ映像を高度にダイナミックかつ空間的に一貫したパノラマ映像を合成し,最先端の性能を達成し,従来の手法を超越することができる。
論文 参考訳(メタデータ) (2025-06-30T04:33:34Z) - PanoWan: Lifting Diffusion Video Generation Models to 360° with Latitude/Longitude-aware Mechanisms [41.92179513409301]
既存のパノラマビデオ生成モデルは、高品質なパノラマビデオのための従来のテキスト・ツー・ビデオ・モデルから事前訓練された生成先を活用するのに苦労している。
本稿では,パノラマ領域に最小限のモジュールを備えた事前学習されたテキスト・ビデオ・モデルを効果的に持ち上げるパノラマモデルを提案する。
これらの揚力表現を学習するためのパノラマビデオを提供するため、キャプションと多様なシナリオを備えた高品質なパノラマビデオデータセットであるPanoVidをコントリビュートする。
論文 参考訳(メタデータ) (2025-05-28T06:24:21Z) - CameraCtrl II: Dynamic Scene Exploration via Camera-controlled Video Diffusion Models [89.63787060844409]
CameraCtrl IIは、カメラ制御ビデオ拡散モデルによる大規模動的シーン探索を可能にするフレームワークである。
動的シーンの生成を段階的に拡大するアプローチを採っている。
論文 参考訳(メタデータ) (2025-03-13T17:42:01Z) - DiffPano: Scalable and Consistent Text to Panorama Generation with Spherical Epipolar-Aware Diffusion [60.45000652592418]
本稿では,テキスト駆動型パノラマ生成フレームワークDiffPanoを提案し,拡張性,一貫性,多様なパノラマシーン生成を実現する。
DiffPanoは、不明瞭なテキスト記述とカメラのポーズによって、一貫した多様なパノラマ画像を生成することができることを示す。
論文 参考訳(メタデータ) (2024-10-31T17:57:02Z) - VidPanos: Generative Panoramic Videos from Casual Panning Videos [73.77443496436749]
パノラマ画像ステッチは、カメラの視野を越えて広がるシーンの統一された広角ビューを提供する。
本稿では,カジュアルにキャプチャされたパンニングビデオからパノラマ動画を合成する方法を提案する。
我々のシステムは、人、車、流れる水など、さまざまな場所のシーンにビデオパノラマを作成できる。
論文 参考訳(メタデータ) (2024-10-17T17:53:24Z) - Cavia: Camera-controllable Multi-view Video Diffusion with View-Integrated Attention [62.2447324481159]
Caviaはカメラ制御可能なマルチビュービデオ生成のための新しいフレームワークである。
我々のフレームワークは、空間的および時間的注意モジュールを拡張し、視点と時間的一貫性を改善します。
Caviaは、ユーザーが物体の動きを取得しながら、異なるカメラの動きを特定できる最初の製品だ。
論文 参考訳(メタデータ) (2024-10-14T17:46:32Z) - PanoVOS: Bridging Non-panoramic and Panoramic Views with Transformer for Video Segmentation [39.269864548255576]
パノラマビデオデータセットPanoVOSを提案する。
データセットは150本のビデオに高解像度と多様なモーションを提供する。
パノラマ空間整合変換器(PSCFormer)は,従来のフレームのセマンティック境界情報を,現在のフレームとの画素レベルのマッチングに有効に利用することができる。
論文 参考訳(メタデータ) (2023-09-21T17:59:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。