論文の概要: WorldWarp: Propagating 3D Geometry with Asynchronous Video Diffusion
- arxiv url: http://arxiv.org/abs/2512.19678v1
- Date: Mon, 22 Dec 2025 18:53:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 18:54:32.888273
- Title: WorldWarp: Propagating 3D Geometry with Asynchronous Video Diffusion
- Title(参考訳): WorldWarp: 非同期ビデオ拡散による3D幾何学の進展
- Authors: Hanyang Kong, Xingyi Yang, Xiaoxu Zheng, Xinchao Wang,
- Abstract要約: WorldWarpは、3D構造アンカーと2D生成ファインダを結合するフレームワークだ。
WorldWarpは、各ステップで3Dキャッシュを動的に更新することで、ビデオチャンク間の一貫性を維持する。
3Dロジックが構造をガイドし、拡散ロジックがテクスチャを完璧にすることで、最先端の忠実さを実現する。
- 参考スコア(独自算出の注目度): 78.20778143251171
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generating long-range, geometrically consistent video presents a fundamental dilemma: while consistency demands strict adherence to 3D geometry in pixel space, state-of-the-art generative models operate most effectively in a camera-conditioned latent space. This disconnect causes current methods to struggle with occluded areas and complex camera trajectories. To bridge this gap, we propose WorldWarp, a framework that couples a 3D structural anchor with a 2D generative refiner. To establish geometric grounding, WorldWarp maintains an online 3D geometric cache built via Gaussian Splatting (3DGS). By explicitly warping historical content into novel views, this cache acts as a structural scaffold, ensuring each new frame respects prior geometry. However, static warping inevitably leaves holes and artifacts due to occlusions. We address this using a Spatio-Temporal Diffusion (ST-Diff) model designed for a "fill-and-revise" objective. Our key innovation is a spatio-temporal varying noise schedule: blank regions receive full noise to trigger generation, while warped regions receive partial noise to enable refinement. By dynamically updating the 3D cache at every step, WorldWarp maintains consistency across video chunks. Consequently, it achieves state-of-the-art fidelity by ensuring that 3D logic guides structure while diffusion logic perfects texture. Project page: \href{https://hyokong.github.io/worldwarp-page/}{https://hyokong.github.io/worldwarp-page/}.
- Abstract(参考訳): 長距離で幾何学的に一貫したビデオを生成することは、基本的なジレンマを示す: 一貫性は画素空間における3次元幾何学への厳密な固執を要求するが、最先端の生成モデルはカメラ条件の潜在空間において最も効果的に動作する。
この切断により、現在の手法は隠蔽領域と複雑なカメラ軌道に苦しむことになる。
このギャップを埋めるために、我々は3次元構造アンカーと2次元生成精製器を結合するWorldWarpを提案する。
幾何学的接地を確立するため、WorldWarpはガウススティング(3DGS)を介して構築されたオンライン3D幾何学的キャッシュを維持している。
歴史的コンテンツを新しいビューに明示的にワープすることで、このキャッシュは構造的な足場として機能し、それぞれの新しいフレームが以前の幾何学を尊重することを保証する。
しかし、スタティック・ワープは必然的に閉塞による穴や遺物を残している。
本稿では,「補充・修正」目的のために設計された時空間拡散モデルを用いてこの問題に対処する。
我々の重要な革新は時空間変動ノイズスケジュールである:空白領域は完全なノイズを受け取って生成をトリガーし、一方、歪んだ領域は部分ノイズを受け取り、改善を可能にする。
ステップ毎に3Dキャッシュを動的に更新することで、WorldWarpはビデオチャンク間の一貫性を維持する。
これにより、3次元論理が構造を案内し、拡散論理がテクスチャを完璧にすることで、最先端の忠実性を実現する。
プロジェクトページ: \href{https://hyokong.github.io/worldwarp-page/}{https://hyokong.github.io/worldwarp-page/}。
関連論文リスト
- EA3D: Online Open-World 3D Object Extraction from Streaming Videos [55.48835711373918]
オープンワールド3Dオブジェクト抽出のための統合オンラインフレームワークであるExtractAnything3D(EA3D)を提案する。
ストリーミングビデオが与えられると、EA3Dは視覚言語と2D視覚基盤エンコーダを使用して各フレームを動的に解釈し、オブジェクトレベルの知識を抽出する。
リカレントな共同最適化モジュールは、モデルの関心領域への注意を向け、幾何学的再構成と意味的理解の両面を同時に強化する。
論文 参考訳(メタデータ) (2025-10-29T03:56:41Z) - WorldGrow: Generating Infinite 3D World [75.81531067447203]
我々は、無限に拡張可能な3D世界、すなわちコヒーレントな幾何学と現実的な外観を持つ大規模で連続的な環境を生み出すという課題に取り組む。
本研究では,非有界な3次元シーン合成のための階層的フレームワークWorldGrowを提案する。
提案手法は,(1)高品質なシーンブロックを抽出し,シーン生成に適した3D構造化潜在表現を作成するデータキュレーションパイプライン,(2)コンテキスト認識シーン拡張を可能にする3Dブロックインペイント機構,(3)グローバルなレイアウトの妥当性と局所幾何学的/音声的忠実性の両立を保証する粗大かつ微細な生成戦略,の3つのコアコンポーネントを特徴とする。
論文 参考訳(メタデータ) (2025-10-24T17:39:52Z) - 3D Scene Prompting for Scene-Consistent Camera-Controllable Video Generation [55.29423122177883]
3DScenePromptは任意の長さの入力から次のチャンクを生成するフレームワークである。
カメラの制御とシーンの一貫性の維持を可能にする。
我々のフレームワークは、シーンの一貫性、カメラ制御性、生成品質において、既存の手法よりも大幅に優れています。
論文 参考訳(メタデータ) (2025-10-16T17:55:25Z) - GeoPurify: A Data-Efficient Geometric Distillation Framework for Open-Vocabulary 3D Segmentation [57.8059956428009]
2次元視覚言語モデルから3次元セマンティックセグメンテーションへ機能を移行しようとする最近の試みは、永続的なトレードオフを露呈している。
3次元教師モデルから抽出した幾何学的事前情報を用いて2次元VLM生成した3次元点特徴に小さな学生親和性ネットワークを適用したGeoPurifyを提案する。
遅延幾何学情報と学習された親和性ネットワークから恩恵を受けることで、GeoPurifyはトレードオフを効果的に軽減し、優れたデータ効率を実現する。
論文 参考訳(メタデータ) (2025-10-02T16:37:56Z) - WonderVerse: Extendable 3D Scene Generation with Video Generative Models [28.002645364066005]
拡張可能な3Dシーンを生成するフレームワークであるWonderVerseを紹介する。
WonderVerseは、ビデオ生成基盤モデルに埋め込まれた強力な世界レベルの事前情報を活用する。
様々な3D再構成手法と互換性があり、効率的かつ高品質な生成を可能にする。
論文 参考訳(メタデータ) (2025-03-12T08:44:51Z) - GaussRender: Learning 3D Occupancy with Gaussian Rendering [86.89653628311565]
GaussRenderは、投影的一貫性を強制することによって3D占有学習を改善するモジュールである。
提案手法は,不整合な2次元プロジェクションを生成する3次元構成をペナライズすることにより,より一貫性のある3次元構造を実現する。
論文 参考訳(メタデータ) (2025-02-07T16:07:51Z) - Deep Geometric Moments Promote Shape Consistency in Text-to-3D Generation [27.43973967994717]
MT3Dは高忠実度3Dオブジェクトを利用して視点バイアスを克服するテキスト・ツー・3D生成モデルである。
3Dアセットから幾何学的詳細を取り入れることで、MT3Dは多様で幾何学的に一貫したオブジェクトを作成することができる。
論文 参考訳(メタデータ) (2024-08-12T06:25:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。