論文の概要: VideoPanda: Video Panoramic Diffusion with Multi-view Attention
- arxiv url: http://arxiv.org/abs/2504.11389v1
- Date: Tue, 15 Apr 2025 16:58:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-16 22:11:06.932204
- Title: VideoPanda: Video Panoramic Diffusion with Multi-view Attention
- Title(参考訳): VideoPanda:マルチビュー対応ビデオパノラマ拡散
- Authors: Kevin Xie, Amirmojtaba Sabour, Jiahui Huang, Despoina Paschalidou, Greg Klar, Umar Iqbal, Sanja Fidler, Xiaohui Zeng,
- Abstract要約: 高解像度パノラマビデオコンテンツはバーチャルリアリティーにおける没入的な体験にとって最重要であるが、特殊な機器や複雑なカメラのセットアップを必要とするため、収集は容易ではない。
VideoPandaはテキストのみとシングルビューのビデオという2つの条件を使って共同で訓練されている。
実世界のビデオデータセットと合成ビデオデータセットの両方に対する大規模な評価は、VideoPandaがより現実的で一貫性のある360$circ$ panoramasを生成することを示している。
- 参考スコア(独自算出の注目度): 57.87428280844657
- License:
- Abstract: High resolution panoramic video content is paramount for immersive experiences in Virtual Reality, but is non-trivial to collect as it requires specialized equipment and intricate camera setups. In this work, we introduce VideoPanda, a novel approach for synthesizing 360$^\circ$ videos conditioned on text or single-view video data. VideoPanda leverages multi-view attention layers to augment a video diffusion model, enabling it to generate consistent multi-view videos that can be combined into immersive panoramic content. VideoPanda is trained jointly using two conditions: text-only and single-view video, and supports autoregressive generation of long-videos. To overcome the computational burden of multi-view video generation, we randomly subsample the duration and camera views used during training and show that the model is able to gracefully generalize to generating more frames during inference. Extensive evaluations on both real-world and synthetic video datasets demonstrate that VideoPanda generates more realistic and coherent 360$^\circ$ panoramas across all input conditions compared to existing methods. Visit the project website at https://research-staging.nvidia.com/labs/toronto-ai/VideoPanda/ for results.
- Abstract(参考訳): 高解像度パノラマビデオコンテンツはバーチャルリアリティーにおける没入的な体験にとって最重要であるが、特殊な機器や複雑なカメラのセットアップを必要とするため、収集は容易ではない。
本研究では,テキストやシングルビュービデオデータに条件付き360$^\circ$ビデオの合成手法であるVideoPandaを紹介する。
VideoPandaはマルチビューアテンションレイヤを活用してビデオ拡散モデルを強化し、一貫したマルチビュービデオを生成して、没入型パノラマコンテンツに組み込むことができる。
VideoPandaはテキストのみとシングルビューのビデオという2つの条件を使って共同で訓練されている。
マルチビュービデオ生成の計算負担を克服するため、トレーニング中に使用する時間とカメラビューをランダムにサブサンプリングし、モデルが適切に一般化でき、推論中により多くのフレームを生成することができることを示す。
実世界のビデオデータセットと合成ビデオデータセットの大規模な評価により、VideoPandaは既存の手法と比較して、すべての入力条件に対してより現実的で一貫性のある360$^\circ$パノラマを生成することが示された。
プロジェクトのWebサイトはhttps://research-staging.nvidia.com/labs/toronto-ai/VideoPanda/にある。
関連論文リスト
- Video Creation by Demonstration [59.389591010842636]
我々は、条件付き将来のフレーム予測によってラベルなしビデオから学習する自己教師型トレーニングアプローチである$delta$-Diffusionを提案する。
映像基盤モデルと外観ボトルネック設計を併用して,実演映像から動作遅延を抽出し,生成プロセスの条件付けを行う。
実証的に、$delta$-Diffusionは人間の好みと大規模マシン評価の両方の観点から、関連するベースラインを上回っている。
論文 参考訳(メタデータ) (2024-12-12T18:41:20Z) - SynCamMaster: Synchronizing Multi-Camera Video Generation from Diverse Viewpoints [43.14498014617223]
マルチカメラビデオ生成のための事前訓練されたテキスト・ツー・ビデオモデルを強化するプラグイン・アンド・プレイ・モジュールを提案する。
異なる視点における外観と幾何の整合性を維持するために,マルチビュー同期モジュールを導入する。
提案手法は,新しい視点からビデオを再レンダリングするなど,興味をそそる拡張を可能にする。
論文 参考訳(メタデータ) (2024-12-10T18:55:17Z) - DiffPano: Scalable and Consistent Text to Panorama Generation with Spherical Epipolar-Aware Diffusion [60.45000652592418]
本稿では,テキスト駆動型パノラマ生成フレームワークDiffPanoを提案し,拡張性,一貫性,多様なパノラマシーン生成を実現する。
DiffPanoは、不明瞭なテキスト記述とカメラのポーズによって、一貫した多様なパノラマ画像を生成することができることを示す。
論文 参考訳(メタデータ) (2024-10-31T17:57:02Z) - VidPanos: Generative Panoramic Videos from Casual Panning Videos [73.77443496436749]
パノラマ画像ステッチは、カメラの視野を越えて広がるシーンの統一された広角ビューを提供する。
本稿では,カジュアルにキャプチャされたパンニングビデオからパノラマ動画を合成する方法を提案する。
我々のシステムは、人、車、流れる水など、さまざまな場所のシーンにビデオパノラマを作成できる。
論文 参考訳(メタデータ) (2024-10-17T17:53:24Z) - Cavia: Camera-controllable Multi-view Video Diffusion with View-Integrated Attention [62.2447324481159]
Caviaはカメラ制御可能なマルチビュービデオ生成のための新しいフレームワークである。
我々のフレームワークは、空間的および時間的注意モジュールを拡張し、視点と時間的一貫性を改善します。
Caviaは、ユーザーが物体の動きを取得しながら、異なるカメラの動きを特定できる最初の製品だ。
論文 参考訳(メタデータ) (2024-10-14T17:46:32Z) - VideoDirectorGPT: Consistent Multi-scene Video Generation via LLM-Guided Planning [62.51232333352754]
VideoDirectorGPTは、一貫したマルチシーンビデオ生成のための新しいフレームワークである。
提案手法は,複数シーンのビデオ生成におけるレイアウトと移動制御を大幅に改善する。
論文 参考訳(メタデータ) (2023-09-26T17:36:26Z) - PanoVOS: Bridging Non-panoramic and Panoramic Views with Transformer for Video Segmentation [39.269864548255576]
パノラマビデオデータセットPanoVOSを提案する。
データセットは150本のビデオに高解像度と多様なモーションを提供する。
パノラマ空間整合変換器(PSCFormer)は,従来のフレームのセマンティック境界情報を,現在のフレームとの画素レベルのマッチングに有効に利用することができる。
論文 参考訳(メタデータ) (2023-09-21T17:59:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。