論文の概要: StereoWorld: Geometry-Aware Monocular-to-Stereo Video Generation
- arxiv url: http://arxiv.org/abs/2512.09363v2
- Date: Thu, 11 Dec 2025 15:59:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-12 14:11:15.280681
- Title: StereoWorld: Geometry-Aware Monocular-to-Stereo Video Generation
- Title(参考訳): StereoWorld:幾何学を意識したモノクロ・ステレオビデオ生成
- Authors: Ke Xing, Xiaojie Jin, Longfei Li, Yuyang Yin, Hanwen Liang, Guixun Luo, Chen Fang, Jue Wang, Konstantinos N. Plataniotis, Yao Zhao, Yunchao Wei,
- Abstract要約: StereoWorldは、高忠実なモノクル・ツー・ステレオビデオ生成のためのエンドツーエンドフレームワークである。
我々のフレームワークは、幾何学的に認識された正規化で生成を明示的に監視しながら、単眼ビデオ入力のモデルを規定する。
大規模なトレーニングと評価を可能にするため,高精細度ステレオビデオデータセットをキュレートする。
- 参考スコア(独自算出の注目度): 108.97993219426509
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: The growing adoption of XR devices has fueled strong demand for high-quality stereo video, yet its production remains costly and artifact-prone. To address this challenge, we present StereoWorld, an end-to-end framework that repurposes a pretrained video generator for high-fidelity monocular-to-stereo video generation. Our framework jointly conditions the model on the monocular video input while explicitly supervising the generation with a geometry-aware regularization to ensure 3D structural fidelity. A spatio-temporal tiling scheme is further integrated to enable efficient, high-resolution synthesis. To enable large-scale training and evaluation, we curate a high-definition stereo video dataset containing over 11M frames aligned to natural human interpupillary distance (IPD). Extensive experiments demonstrate that StereoWorld substantially outperforms prior methods, generating stereo videos with superior visual fidelity and geometric consistency. The project webpage is available at https://ke-xing.github.io/StereoWorld/.
- Abstract(参考訳): XRデバイスの普及は、高品質なステレオビデオの需要を強く押し付けているが、製造コストは高く、工芸品も高い。
この課題に対処するため,高忠実度モノクロ・ステレオビデオ生成のための事前学習ビデオジェネレータを応用した,エンドツーエンドのフレームワークであるStereoWorldを紹介した。
本フレームワークは, 立体構造忠実度を確保するために, 形状認識正則化による生成を明示的に監視しながら, 単眼ビデオ入力のモデルを協調的に構成する。
効率的な高分解能合成を可能にするため、時空間タイリング方式がさらに統合される。
大規模トレーニングと評価を可能にするため,自然人体間距離(IPD)に合わせた1100万フレームを超える高精細ステレオビデオデータセットをキュレートした。
大規模な実験により、StereoWorldは以前の手法よりも大幅に優れており、優れた視覚的忠実度と幾何的整合性を持つステレオビデオを生成する。
プロジェクトのWebページはhttps://ke-xing.github.io/StereoWorld/.comで公開されている。
関連論文リスト
- S^2VG: 3D Stereoscopic and Spatial Video Generation via Denoising Frame Matrix [60.060882467801484]
そこで本研究では,既製の単眼ビデオ生成モデルを利用して,没入型3Dビデオを生成する,ポーズフリーかつトレーニングフリーな手法を提案する。
提案手法はまず,生成したモノクロ映像を推定深度情報を用いて予め定義されたカメラ視点にワープし,新しいテキストフレーム・マトリクス・インペイント・フレームワークを適用した。
提案手法の有効性は,Sora, Lumiere, WALT, Zeroscope など,様々な生成モデルを用いた実験により検証した。
論文 参考訳(メタデータ) (2025-08-11T14:50:03Z) - Restereo: Diffusion stereo video generation and restoration [43.208256051997616]
ステレオビデオを生成するだけでなく、左ビデオと右ビデオの両方を1つのモデルで一貫した拡張を行う新しいパイプラインを導入する。
本手法は,比較的小さなステレオビデオデータセットを用いて微調整し,高品質な実世界のビデオに適用することができる。
論文 参考訳(メタデータ) (2025-06-06T12:14:24Z) - SpatialMe: Stereo Video Conversion Using Depth-Warping and Blend-Inpainting [20.98704347305053]
本研究では,深度ワープとブレンドインペインティングに基づく新しいステレオビデオ変換フレームワークであるSpatialMeを紹介する。
データ不足を軽減するために、高品質な現実世界のステレオビデオデータセット -- StereoV1K を実行しています。
論文 参考訳(メタデータ) (2024-12-16T07:42:49Z) - T-SVG: Text-Driven Stereoscopic Video Generation [87.62286959918566]
本稿では,テキスト駆動ステレオビデオ生成(T-SVG)システムを紹介する。
テキストプロンプトを使用してビデオ生成を合理化し、参照ビデオを作成する。
これらのビデオは、3Dポイントのクラウドシーケンスに変換され、微妙なパララックス差のある2つの視点からレンダリングされる。
論文 参考訳(メタデータ) (2024-12-12T14:48:46Z) - StereoCrafter-Zero: Zero-Shot Stereo Video Generation with Noisy Restart [44.671043951223574]
ゼロショットステレオビデオ生成のための新しいフレームワークであるStereoCrafter-Zeroを紹介する。
主なイノベーションは、ステレオ認識の潜在表現を初期化するノイズリスタート戦略である。
我々は,StereoCrafter-Zeroが高精細度と時間的滑らかさを向上した高品質なステレオビデオを生成することを示す。
論文 参考訳(メタデータ) (2024-11-21T16:41:55Z) - Stereo Anything: Unifying Zero-shot Stereo Matching with Large-Scale Mixed Data [77.27700893908012]
ステレオマッチングは3次元視覚の基盤として機能し、深度回復のためのステレオ画像対間の画素ワイド対応を確立することを目的としている。
現在のモデルは、目に見えないドメインにデプロイすると、しばしば深刻なパフォーマンス劣化を示す。
データ中心のフレームワークであるStereoAnythingを導入し、既存のステレオモデルのゼロショット一般化能力を大幅に強化する。
論文 参考訳(メタデータ) (2024-11-21T11:59:04Z) - SpatialDreamer: Self-supervised Stereo Video Synthesis from Monocular Input [6.275971782566314]
本研究では,SpatialDreamerと呼ばれるビデオ拡散モデルを用いて,自己監督型ステレオ合成ビデオパラダイムを提案する。
ステレオビデオデータ不足に対処するため,Depth ベースのビデオ生成モジュール DVG を提案する。
また,RefinerNetと,効率的で専用のトレーニングを容易にするための自己教師型合成フレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-18T15:12:59Z) - StereoCrafter: Diffusion-based Generation of Long and High-fidelity Stereoscopic 3D from Monocular Videos [44.51044100125421]
本稿では,没入型立体映像を没入型立体映像に変換するための新しい枠組みを提案し,没入型体験における3Dコンテンツの需要の増加に対処する。
われわれのフレームワークは、2Dから3Dへの変換を大幅に改善し、Apple Vision Proや3Dディスプレイのような3Dデバイス用の没入型コンテンツを作るための実用的なソリューションを提供する。
論文 参考訳(メタデータ) (2024-09-11T17:52:07Z) - DynamicStereo: Consistent Dynamic Depth from Stereo Videos [91.1804971397608]
ステレオビデオの相違を推定するためにDynamicStereoを提案する。
ネットワークは、その予測の時間的一貫性を改善するために、隣接するフレームからの情報をプールすることを学ぶ。
スキャンされた環境における人や動物の合成ビデオを含む新しいベンチマークデータセットであるDynamic Replicaも導入した。
論文 参考訳(メタデータ) (2023-05-03T17:40:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。