論文の概要: Beyond the Frame: Generating 360° Panoramic Videos from Perspective Videos
- arxiv url: http://arxiv.org/abs/2504.07940v2
- Date: Thu, 17 Apr 2025 14:35:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-25 12:27:06.643491
- Title: Beyond the Frame: Generating 360° Panoramic Videos from Perspective Videos
- Title(参考訳): 360度パノラマ動画を視界から生成する『Beyond the Frame』
- Authors: Rundong Luo, Matthew Wallingford, Ali Farhadi, Noah Snavely, Wei-Chiu Ma,
- Abstract要約: 360degのビデオは、私たちの周囲のより完全な視点を提供する。
既存のビデオモデルは、標準的なビデオを作るのに優れているが、完全なパノラマビデオを生成する能力は、まだ明らかになっていない。
高品質なデータフィルタリングパイプラインを開発し、双方向のトレーニングデータをキュレートし、360度ビデオ生成の品質を向上させる。
実験結果から,本モデルでは実写的でコヒーレントな360デグ映像を撮影できることが示された。
- 参考スコア(独自算出の注目度): 64.10180665546237
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: 360{\deg} videos have emerged as a promising medium to represent our dynamic visual world. Compared to the "tunnel vision" of standard cameras, their borderless field of view offers a more complete perspective of our surroundings. While existing video models excel at producing standard videos, their ability to generate full panoramic videos remains elusive. In this paper, we investigate the task of video-to-360{\deg} generation: given a perspective video as input, our goal is to generate a full panoramic video that is consistent with the original video. Unlike conventional video generation tasks, the output's field of view is significantly larger, and the model is required to have a deep understanding of both the spatial layout of the scene and the dynamics of objects to maintain spatio-temporal consistency. To address these challenges, we first leverage the abundant 360{\deg} videos available online and develop a high-quality data filtering pipeline to curate pairwise training data. We then carefully design a series of geometry- and motion-aware operations to facilitate the learning process and improve the quality of 360{\deg} video generation. Experimental results demonstrate that our model can generate realistic and coherent 360{\deg} videos from in-the-wild perspective video. In addition, we showcase its potential applications, including video stabilization, camera viewpoint control, and interactive visual question answering.
- Abstract(参考訳): 360{\deg}ビデオは、われわれのダイナミックな視覚世界を表現するための有望な媒体として登場した。
標準カメラの「トンネル視界」と比較すると、その境界のない視野は私たちの周囲をより完全な視界を与えてくれる。
既存のビデオモデルは、標準的なビデオを作るのに優れているが、フルパノラマビデオを生成する能力は、いまだに明白だ。
本稿では,ビデオから360{\degの生成の課題について検討する。視点映像を入力として,本来の映像と整合したフルパノラマ映像を生成することが目的である。
従来の映像生成タスクとは異なり、出力の視野はかなり大きく、空間配置とオブジェクトのダイナミックスの両方を深く理解し、時空間整合性を維持する必要がある。
これらの課題に対処するために、私たちはまず、オンラインで利用可能な豊富な360{\deg}ビデオを活用し、ペアのトレーニングデータをキュレートするための高品質なデータフィルタリングパイプラインを開発しました。
次に,学習プロセスの容易化と360{\deg}ビデオ生成の質向上のために,幾何および運動認識の一連の操作を慎重に設計する。
実験結果から,本モデルを用いて実写的でコヒーレントな360{\deg}ビデオが生成できることが示唆された。
さらに、ビデオ安定化、カメラ視点制御、対話型視覚質問応答など、潜在的な応用について紹介する。
関連論文リスト
- VideoPanda: Video Panoramic Diffusion with Multi-view Attention [57.87428280844657]
高解像度パノラマビデオコンテンツはバーチャルリアリティーの没入体験にとって最重要であるが、特殊な機器や複雑なカメラのセットアップを必要とするため、収集は容易ではない。
VideoPandaは、既存の方法と比較して、すべての入力条件に対してよりリアルでコヒーレントな360$のパノラマを生成する。
論文 参考訳(メタデータ) (2025-04-15T16:58:15Z) - WorldPrompter: Traversable Text-to-Scene Generation [18.405299478122693]
テキストプロンプトから可逆3Dシーンを合成するための新しい生成パイプラインであるWorldPrompterを紹介する。
WorldPrompterには条件付き360度パノラマビデオジェネレータが組み込まれており、仮想環境を歩いたり捉えたりする人をシミュレートする128フレームのビデオを生成することができる。
得られたビデオは、高速フィードフォワード3Dコンストラクタによってガウススプラッターとして再構成され、3Dシーン内で真の歩行可能な体験を可能にする。
論文 参考訳(メタデータ) (2025-04-02T18:04:32Z) - T-SVG: Text-Driven Stereoscopic Video Generation [87.62286959918566]
本稿では,テキスト駆動ステレオビデオ生成(T-SVG)システムを紹介する。
テキストプロンプトを使用してビデオ生成を合理化し、参照ビデオを作成する。
これらのビデオは、3Dポイントのクラウドシーケンスに変換され、微妙なパララックス差のある2つの視点からレンダリングされる。
論文 参考訳(メタデータ) (2024-12-12T14:48:46Z) - From an Image to a Scene: Learning to Imagine the World from a Million 360 Videos [71.22810401256234]
オブジェクトやシーンの3次元理解は、人間が世界と対話する能力において重要な役割を果たす。
大規模合成およびオブジェクト中心の3Dデータセットは、オブジェクトの3D理解を持つモデルのトレーニングに有効であることが示されている。
我々は360-1M、360度ビデオデータセット、およびスケールの多様な視点から対応するフレームを効率的に見つけるプロセスを紹介した。
論文 参考訳(メタデータ) (2024-12-10T18:59:44Z) - Imagine360: Immersive 360 Video Generation from Perspective Anchor [79.97844408255897]
Imagine360は、360円から360ドル程度のビデオ生成フレームワークだ。
360ドル(約3万3000円)の限られたビデオデータから、細粒の球面と動きのパターンを学習する。
最先端の360ドル(約3万3000円)の動画生成方法では、グラフィック品質とモーションコヒーレンスに優れています。
論文 参考訳(メタデータ) (2024-12-04T18:50:08Z) - Cavia: Camera-controllable Multi-view Video Diffusion with View-Integrated Attention [62.2447324481159]
Caviaはカメラ制御可能なマルチビュービデオ生成のための新しいフレームワークである。
我々のフレームワークは、空間的および時間的注意モジュールを拡張し、視点と時間的一貫性を改善します。
Caviaは、ユーザーが物体の動きを取得しながら、異なるカメラの動きを特定できる最初の製品だ。
論文 参考訳(メタデータ) (2024-10-14T17:46:32Z) - SVG: 3D Stereoscopic Video Generation via Denoising Frame Matrix [60.48666051245761]
本研究では,3次元立体映像生成のためのポーズフリーかつトレーニングフリーな手法を提案する。
提案手法は, 推定ビデオ深度を用いた立体視ベースライン上のカメラビューにモノクロ映像をワープする。
本研究では,映像の画質向上を図るために,非閉塞境界再注入方式を開発した。
論文 参考訳(メタデータ) (2024-06-29T08:33:55Z) - 360DVD: Controllable Panorama Video Generation with 360-Degree Video Diffusion Model [23.708946172342067]
本研究では,360度パノラマビデオを生成するために360DVDと呼ばれるパイプラインを提案する。
我々は,パノラマビデオ生成のためのトレーニング済みのT2Vモデルを変換するために,360 Enhancement Techniquesを併用した軽量な360-Adapterを提案する。
また,360DVDをトレーニングするためのパノラマビデオテキストペアからなる WEB360 という新しいパノラマデータセットを提案する。
論文 参考訳(メタデータ) (2024-01-12T13:52:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。