論文の概要: Beyond the Frame: Generating 360° Panoramic Videos from Perspective Videos
- arxiv url: http://arxiv.org/abs/2504.07940v2
- Date: Thu, 17 Apr 2025 14:35:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-18 14:33:35.026273
- Title: Beyond the Frame: Generating 360° Panoramic Videos from Perspective Videos
- Title(参考訳): 360度パノラマ動画を視界から生成する『Beyond the Frame』
- Authors: Rundong Luo, Matthew Wallingford, Ali Farhadi, Noah Snavely, Wei-Chiu Ma,
- Abstract要約: 360degのビデオは、私たちの周囲のより完全な視点を提供する。
既存のビデオモデルは、標準的なビデオを作るのに優れているが、完全なパノラマビデオを生成する能力は、まだ明らかになっていない。
高品質なデータフィルタリングパイプラインを開発し、双方向のトレーニングデータをキュレートし、360度ビデオ生成の品質を向上させる。
実験結果から,本モデルでは実写的でコヒーレントな360デグ映像を撮影できることが示された。
- 参考スコア(独自算出の注目度): 64.10180665546237
- License:
- Abstract: 360{\deg} videos have emerged as a promising medium to represent our dynamic visual world. Compared to the "tunnel vision" of standard cameras, their borderless field of view offers a more complete perspective of our surroundings. While existing video models excel at producing standard videos, their ability to generate full panoramic videos remains elusive. In this paper, we investigate the task of video-to-360{\deg} generation: given a perspective video as input, our goal is to generate a full panoramic video that is consistent with the original video. Unlike conventional video generation tasks, the output's field of view is significantly larger, and the model is required to have a deep understanding of both the spatial layout of the scene and the dynamics of objects to maintain spatio-temporal consistency. To address these challenges, we first leverage the abundant 360{\deg} videos available online and develop a high-quality data filtering pipeline to curate pairwise training data. We then carefully design a series of geometry- and motion-aware operations to facilitate the learning process and improve the quality of 360{\deg} video generation. Experimental results demonstrate that our model can generate realistic and coherent 360{\deg} videos from in-the-wild perspective video. In addition, we showcase its potential applications, including video stabilization, camera viewpoint control, and interactive visual question answering.
- Abstract(参考訳): 360{\deg}ビデオは、われわれのダイナミックな視覚世界を表現するための有望な媒体として登場した。
標準カメラの「トンネル視界」と比較すると、その境界のない視野は私たちの周囲をより完全な視界を与えてくれる。
既存のビデオモデルは、標準的なビデオを作るのに優れているが、フルパノラマビデオを生成する能力は、いまだに明白だ。
本稿では,ビデオから360{\degの生成の課題について検討する。視点映像を入力として,本来の映像と整合したフルパノラマ映像を生成することが目的である。
従来の映像生成タスクとは異なり、出力の視野はかなり大きく、空間配置とオブジェクトのダイナミックスの両方を深く理解し、時空間整合性を維持する必要がある。
これらの課題に対処するために、私たちはまず、オンラインで利用可能な豊富な360{\deg}ビデオを活用し、ペアのトレーニングデータをキュレートするための高品質なデータフィルタリングパイプラインを開発しました。
次に,学習プロセスの容易化と360{\deg}ビデオ生成の質向上のために,幾何および運動認識の一連の操作を慎重に設計する。
実験結果から,本モデルを用いて実写的でコヒーレントな360{\deg}ビデオが生成できることが示唆された。
さらに、ビデオ安定化、カメラ視点制御、対話型視覚質問応答など、潜在的な応用について紹介する。
関連論文リスト
- T-SVG: Text-Driven Stereoscopic Video Generation [87.62286959918566]
本稿では,テキスト駆動ステレオビデオ生成(T-SVG)システムを紹介する。
テキストプロンプトを使用してビデオ生成を合理化し、参照ビデオを作成する。
これらのビデオは、3Dポイントのクラウドシーケンスに変換され、微妙なパララックス差のある2つの視点からレンダリングされる。
論文 参考訳(メタデータ) (2024-12-12T14:48:46Z) - From an Image to a Scene: Learning to Imagine the World from a Million 360 Videos [71.22810401256234]
オブジェクトやシーンの3次元理解は、人間が世界と対話する能力において重要な役割を果たす。
大規模合成およびオブジェクト中心の3Dデータセットは、オブジェクトの3D理解を持つモデルのトレーニングに有効であることが示されている。
我々は360-1M、360度ビデオデータセット、およびスケールの多様な視点から対応するフレームを効率的に見つけるプロセスを紹介した。
論文 参考訳(メタデータ) (2024-12-10T18:59:44Z) - SynCamMaster: Synchronizing Multi-Camera Video Generation from Diverse Viewpoints [43.14498014617223]
マルチカメラビデオ生成のための事前訓練されたテキスト・ツー・ビデオモデルを強化するプラグイン・アンド・プレイ・モジュールを提案する。
異なる視点における外観と幾何の整合性を維持するために,マルチビュー同期モジュールを導入する。
提案手法は,新しい視点からビデオを再レンダリングするなど,興味をそそる拡張を可能にする。
論文 参考訳(メタデータ) (2024-12-10T18:55:17Z) - Imagine360: Immersive 360 Video Generation from Perspective Anchor [79.97844408255897]
Imagine360は、360円から360ドル程度のビデオ生成フレームワークだ。
360ドル(約3万3000円)の限られたビデオデータから、細粒の球面と動きのパターンを学習する。
最先端の360ドル(約3万3000円)の動画生成方法では、グラフィック品質とモーションコヒーレンスに優れています。
論文 参考訳(メタデータ) (2024-12-04T18:50:08Z) - Cavia: Camera-controllable Multi-view Video Diffusion with View-Integrated Attention [62.2447324481159]
Caviaはカメラ制御可能なマルチビュービデオ生成のための新しいフレームワークである。
我々のフレームワークは、空間的および時間的注意モジュールを拡張し、視点と時間的一貫性を改善します。
Caviaは、ユーザーが物体の動きを取得しながら、異なるカメラの動きを特定できる最初の製品だ。
論文 参考訳(メタデータ) (2024-10-14T17:46:32Z) - SVG: 3D Stereoscopic Video Generation via Denoising Frame Matrix [60.48666051245761]
本研究では,3次元立体映像生成のためのポーズフリーかつトレーニングフリーな手法を提案する。
提案手法は, 推定ビデオ深度を用いた立体視ベースライン上のカメラビューにモノクロ映像をワープする。
本研究では,映像の画質向上を図るために,非閉塞境界再注入方式を開発した。
論文 参考訳(メタデータ) (2024-06-29T08:33:55Z) - Generative Camera Dolly: Extreme Monocular Dynamic Novel View Synthesis [43.02778060969546]
制御可能な単分子動的ビュー合成パイプラインを提案する。
我々のモデルは入力として深度を必要としないし、明示的に3次元シーン形状をモデル化しない。
私たちのフレームワークは、リッチな動的シーン理解、ロボット工学の知覚、バーチャルリアリティのためのインタラクティブな3Dビデオ視聴体験において、強力なアプリケーションをアンロックできる可能性があると考えています。
論文 参考訳(メタデータ) (2024-05-23T17:59:52Z) - 360DVD: Controllable Panorama Video Generation with 360-Degree Video Diffusion Model [23.708946172342067]
本研究では,360度パノラマビデオを生成するために360DVDと呼ばれるパイプラインを提案する。
我々は,パノラマビデオ生成のためのトレーニング済みのT2Vモデルを変換するために,360 Enhancement Techniquesを併用した軽量な360-Adapterを提案する。
また,360DVDをトレーニングするためのパノラマビデオテキストペアからなる WEB360 という新しいパノラマデータセットを提案する。
論文 参考訳(メタデータ) (2024-01-12T13:52:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。