Fugu-MT 論文翻訳(概要): WorldStereo: Bridging Camera-Guided Video Generation and Scene Reconstruction via 3D Geometric Memories

論文の概要: WorldStereo: Bridging Camera-Guided Video Generation and Scene Reconstruction via 3D Geometric Memories

arxiv url: http://arxiv.org/abs/2603.02049v1
Date: Mon, 02 Mar 2026 16:36:56 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-03 19:50:56.974607
Title: WorldStereo: Bridging Camera-Guided Video Generation and Scene Reconstruction via 3D Geometric Memories
Title（参考訳）: WorldStereo:3Dジオメトリによるカメラ誘導ビデオ生成とシーン再構築
Authors: Yisu Zhang, Chenjie Cao, Tengfei Wang, Xuhui Zuo, Junta Wu, Jianke Zhu, Chunchao Guo,
Abstract要約: WorldStereoは、カメラ誘導のビデオ生成と3D再構成を橋渡しする新しいフレームワークだ。我々はWorldStereoが強力な世界モデルとして機能し,多種多様なシーン生成タスクと高忠実度3D結果に対処していることを示す。
参考スコア（独自算出の注目度）: 36.79437857022868
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent advances in foundational Video Diffusion Models (VDMs) have yielded significant progress. Yet, despite the remarkable visual quality of generated videos, reconstructing consistent 3D scenes from these outputs remains challenging, due to limited camera controllability and inconsistent generated content when viewed from distinct camera trajectories. In this paper, we propose WorldStereo, a novel framework that bridges camera-guided video generation and 3D reconstruction via two dedicated geometric memory modules. Formally, the global-geometric memory enables precise camera control while injecting coarse structural priors through incrementally updated point clouds. Moreover, the spatial-stereo memory constrains the model's attention receptive fields with 3D correspondence to focus on fine-grained details from the memory bank. These components enable WorldStereo to generate multi-view-consistent videos under precise camera control, facilitating high-quality 3D reconstruction. Furthermore, the flexible control branch-based WorldStereo shows impressive efficiency, benefiting from the distribution matching distilled VDM backbone without joint training. Extensive experiments across both camera-guided video generation and 3D reconstruction benchmarks demonstrate the effectiveness of our approach. Notably, we show that WorldStereo acts as a powerful world model, tackling diverse scene generation tasks (whether starting from perspective or panoramic images) with high-fidelity 3D results. Models will be released.
Abstract（参考訳）: 基礎的ビデオ拡散モデル(VDM)の最近の進歩は大きな進歩をもたらした。しかし、生成されたビデオの目覚ましい品質にもかかわらず、これらの出力から一貫した3Dシーンを再構成することは、カメラの制御性や、異なるカメラ軌跡から見るときの不整合性のために、依然として困難である。本稿では,2つの専用メモリモジュールによるカメラ誘導映像生成と3次元再構成をブリッジする新しいフレームワークであるWorldStereoを提案する。正式には、グローバルジオメトリックメモリは、インクリメンタルに更新されたポイントクラウドを通じて、粗い構造上の事前を注入しながら、正確なカメラ制御を可能にする。さらに、空間ステレオメモリは、メモリバンクの微細な詳細に焦点を合わせるために、3次元対応でモデルの注意受容フィールドを制約する。これらのコンポーネントにより、WorldStereoは正確なカメラ制御の下で複数のビューに一貫性のあるビデオを生成することができ、高品質な3D再構成が容易になる。さらに, フレキシブル・コントロール・ブランチをベースとしたWorldStereoは, 継手トレーニングを伴わずに蒸留したVDMバックボーンの分散により, 優れた効率性を示した。カメラ誘導ビデオ生成と3D再構成のベンチマークによる大規模な実験により,本手法の有効性が示された。とくに、WorldStereoは強力な世界モデルとして機能し、多種多様なシーン生成タスク(視点やパノラマ画像から始めるか)に高忠実度3D結果で対応している。モデルがリリースされる。

関連論文リスト

AnchorWeave: World-Consistent Video Generation with Retrieved Local Spatial Memories [78.78355829813793]
既存のメモリベースのアプローチでは、歴史的に再構成された幾何学のアンカービデオをレンダリングすることで、グローバルに再構成された3Dシーンを条件付けすることが多い。 AnchorWeaveは、単一の不整合グローバルメモリを複数のローカルな幾何学的メモリに置き換える、メモリ拡張ビデオ生成フレームワークである。実験によると、AnchorWeaveは視覚的品質を維持しながら、長期的なシーンの一貫性を著しく向上する。
論文参考訳（メタデータ） (2026-02-16T17:23:08Z)
Beyond Inpainting: Unleash 3D Understanding for Precise Camera-Controlled Video Generation [21.084121261693365]
正確なカメラ制御性を備えたビデオ再レンダリングフレームワークであるDepthDirectorを提案する。本手法は, カメラ制御ガイダンスとして, 鮮明な3次元映像から深度映像を活用することにより, 新規なカメラ軌道下での入力映像のダイナミックなシーンを忠実に再現することができる。
論文参考訳（メタデータ） (2026-01-15T09:26:45Z)
Infinite-Homography as Robust Conditioning for Camera-Controlled Video Generation [49.12018869332346]
InfCamは、高ポーズ忠実度でカメラ制御されたビデオ・ビデオ生成フレームワークである。 1)ビデオ拡散モデルの2次元潜在空間内で直接3次元カメラ回転を符号化する。
論文参考訳（メタデータ） (2025-12-18T20:03:05Z)
Matrix-3D: Omnidirectional Explorable 3D World Generation [20.568791715708134]
広視野全方位3次元世界生成のためのパノラマ表現を利用するフレームワークMatrix-3Dを提案する。まず,シーンメッシュレンダリングを条件として,軌跡誘導パノラマ動画拡散モデルを訓練する。本研究では, パノラマシーン映像を3次元世界へ持ち上げるために, (1) 高速3次元シーン再構成のためのフィードフォワード大パノラマ再構成モデル, (2) 正確かつ詳細な3次元シーン再構成のための最適化ベースパイプラインの2つの方法を提案する。
論文参考訳（メタデータ） (2025-08-11T15:29:57Z)
Voyager: Long-Range and World-Consistent Video Diffusion for Explorable 3D Scene Generation [66.95956271144982]
本稿では,単一画像から一貫した3Dポイントクラウドシーケンスを生成する新しいビデオ拡散フレームワークであるVoyagerを紹介する。既存のアプローチとは異なり、Voyagerはフレーム間で固有の一貫性を持って、エンドツーエンドのシーン生成と再構築を実現している。
論文参考訳（メタデータ） (2025-06-04T17:59:04Z)
SpatialCrafter: Unleashing the Imagination of Video Diffusion Models for Scene Reconstruction from Limited Observations [44.53106180688135]
この作業は、スパースやシングルビューのインプットから3Dシーンを再構築する上での課題である。 SpatialCrafterは,ビデオ拡散モデルにおける豊富な知識を活用して,可算的な追加観測を生成するフレームワークである。トレーニング可能なカメラエンコーダと、明示的な幾何学的制約に対するエピポーラアテンション機構により、精密なカメラ制御と3D整合性を実現する。
論文参考訳（メタデータ） (2025-05-17T13:05:13Z)
Wonderland: Navigating 3D Scenes from a Single Image [43.99037613068823]
本研究では,映像拡散モデルからの潜伏分を利用した大規模再構成モデルを導入し,映像の3次元ガウススプラッティングをフィードフォワードで予測する。プログレッシブ・ラーニング・ストラテジーを用いて3次元再構成モデルをトレーニングし,高品質でワイドスコープ,ジェネリックな3次元シーンの効率的な生成を可能にする。
論文参考訳（メタデータ） (2024-12-16T18:58:17Z)
LiftImage3D: Lifting Any Single Image to 3D Gaussians with Video Generation Priors [107.83398512719981]
シングルイメージの3D再構成は、コンピュータビジョンの根本的な課題である。遅延ビデオ拡散モデルの最近の進歩は、大規模ビデオデータから学ぶ有望な3D事前情報を提供する。本稿では,LVDMの生成先行情報を効果的にリリースするフレームワークであるLiftImage3Dを提案する。
論文参考訳（メタデータ） (2024-12-12T18:58:42Z)
Cavia: Camera-controllable Multi-view Video Diffusion with View-Integrated Attention [62.2447324481159]
Caviaはカメラ制御可能なマルチビュービデオ生成のための新しいフレームワークである。我々のフレームワークは、空間的および時間的注意モジュールを拡張し、視点と時間的一貫性を改善します。 Caviaは、ユーザーが物体の動きを取得しながら、異なるカメラの動きを特定できる最初の製品だ。
論文参考訳（メタデータ） (2024-10-14T17:46:32Z)
MagicDrive3D: Controllable 3D Generation for Any-View Rendering in Street Scenes [72.02827211293736]
MagicDrive3Dは、コントロール可能な3Dストリートシーン生成のための新しいフレームワークである。ロードマップ、3Dオブジェクト、テキスト記述を含むマルチコンディション制御をサポートする。多様な高品質な3Dドライビングシーンを生成し、任意のビューレンダリングをサポートし、BEVセグメンテーションのような下流タスクを強化する。
論文参考訳（メタデータ） (2024-05-23T12:04:51Z)
MagicDrive: Street View Generation with Diverse 3D Geometry Control [82.69871576797166]
多様な3D幾何学制御を提供する新しいストリートビュー生成フレームワークであるMagicDriveを紹介した。私たちの設計では、複数のカメラビュー間の一貫性を確保するために、クロスビューアテンションモジュールが組み込まれています。
論文参考訳（メタデータ） (2023-10-04T06:14:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。