論文の概要: Stereo World Model: Camera-Guided Stereo Video Generation
- arxiv url: http://arxiv.org/abs/2603.17375v1
- Date: Wed, 18 Mar 2026 05:42:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-19 18:32:57.524831
- Title: Stereo World Model: Camera-Guided Stereo Video Generation
- Title(参考訳): ステレオワールドモデル:カメラによるステレオビデオ生成
- Authors: Yang-Tian Sun, Zehuan Huang, Yifan Niu, Lin Ma, Yan-Pei Cao, Yuewen Ma, Xiaojuan Qi,
- Abstract要約: 本稿では、ステレオビデオ生成のための外観と両眼形状を共同で学習するカメラコンディショニングステレオワールドモデルであるStereoWorldを紹介する。
単分子RGBやRGBDのアプローチとは異なり、StereoWorldはRGBモードでのみ動作する。
- 参考スコア(独自算出の注目度): 52.3922115596956
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We present StereoWorld, a camera-conditioned stereo world model that jointly learns appearance and binocular geometry for end-to-end stereo video generation.Unlike monocular RGB or RGBD approaches, StereoWorld operates exclusively within the RGB modality, while simultaneously grounding geometry directly from disparity. To efficiently achieve consistent stereo generation, our approach introduces two key designs: (1) a unified camera-frame RoPE that augments latent tokens with camera-aware rotary positional encoding, enabling relative, view- and time-consistent conditioning while preserving pretrained video priors via a stable attention initialization; and (2) a stereo-aware attention decomposition that factors full 4D attention into 3D intra-view attention plus horizontal row attention, leveraging the epipolar prior to capture disparity-aligned correspondences with substantially lower compute. Across benchmarks, StereoWorld improves stereo consistency, disparity accuracy, and camera-motion fidelity over strong monocular-then-convert pipelines, achieving more than 3x faster generation with an additional 5% gain in viewpoint consistency. Beyond benchmarks, StereoWorld enables end-to-end binocular VR rendering without depth estimation or inpainting, enhances embodied policy learning through metric-scale depth grounding, and is compatible with long-video distillation for extended interactive stereo synthesis.
- Abstract(参考訳): 本稿では,モノクラーRGBやRGBDのアプローチとは異なり,StereoWorldはRGBモダリティ内でのみ動作すると同時に,幾何学と相違点を直接的にグルーピングしながら,外観と両眼図形を同時学習するステレオワールドモデルを提案する。
ステレオ生成を効率よく行うために,1)カメラ対応回転位置符号化による潜在トークンの強化,2)カメラ対応位置符号化による相対的,視点的,時間的整合性条件の維持,2)3次元視野内注意と水平列注意に4次元の注意をフルに分解するステレオ認識分解,の2つの重要な設計を提案する。
ベンチマーク全体では、StereoWorldはステレオ一貫性、不均一さの正確性、カメラモーションの忠実さを、強力なモノクロ・タン変換パイプラインよりも向上させ、視点整合性で5%向上した3倍以上の高速な生成を実現している。
ベンチマーク以外にも、StereoWorldは、深度推定や塗装を行わずに、エンドツーエンドの両眼VRレンダリングを可能にし、メートル法スケールの深度グラウンドングによるエボデードポリシー学習を強化し、インタラクティブなステレオ合成を拡張するための長期ビデオ蒸留と互換性がある。
関連論文リスト
- StereoPilot: Learning Unified and Efficient Stereo Conversion via Generative Priors [41.34827274890319]
ステレオビデオ変換のための大規模な統合データセットUniStereoを紹介する。
本稿では,対象の視点を直接合成する効率的なフィードフォワードモデルであるStereoPilotを提案する。
実験により、StereoPilotは視覚的忠実度と計算効率の両方において最先端の手法を大幅に上回っていることが示された。
論文 参考訳(メタデータ) (2025-12-18T18:59:50Z) - StereoWorld: Geometry-Aware Monocular-to-Stereo Video Generation [108.97993219426509]
StereoWorldは、高忠実なモノクル・ツー・ステレオビデオ生成のためのエンドツーエンドフレームワークである。
我々のフレームワークは、幾何学的に認識された正規化で生成を明示的に監視しながら、単眼ビデオ入力のモデルを規定する。
大規模なトレーニングと評価を可能にするため,高精細度ステレオビデオデータセットをキュレートする。
論文 参考訳(メタデータ) (2025-12-10T06:50:16Z) - Boosting Omnidirectional Stereo Matching with a Pre-trained Depth Foundation Model [70.67610495024459]
カメラベースの設定は、立体深度推定を用いて高解像度の高解像度深度マップを生成することで、コスト効率のよい選択肢を提供する。
既存の全方位ステレオマッチング手法は、様々な環境において限られた深度精度しか達成できない。
DFI-OmniStereoは, 大規模事前学習基礎モデルを用いて, 相対的な単眼深度推定を行う新しい全方位ステレオマッチング法である。
論文 参考訳(メタデータ) (2025-03-30T16:24:22Z) - Stereo Any Video: Temporally Consistent Stereo Matching [15.876953256378224]
本稿では,ビデオステレオマッチングのための強力なフレームワークであるStereo Any Videoを紹介する。
カメラのポーズや光の流れといった補助的な情報に頼ることなく、空間的精度と時間的整合性を推定することができる。
主要なアーキテクチャ革新は、スムーズでロバストなコストボリュームを構成する全対対相関と、時間的コヒーレンスを改善する時間的凸アップサンプリングである。
論文 参考訳(メタデータ) (2025-03-07T16:20:36Z) - Video Frame Interpolation with Stereo Event and Intensity Camera [40.07341828127157]
高品質な中間フレームを生成するための新しいステレオイベントベースVFIネットワーク(SE-VFI-Net)を提案する。
我々は,正確な光学的流れと不均一性推定を実現するために,融合した特徴を利用する。
提案するSEVFI-Netは最先端の手法よりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2023-07-17T04:02:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。