論文の概要: Geometry Forcing: Marrying Video Diffusion and 3D Representation for Consistent World Modeling
- arxiv url: http://arxiv.org/abs/2507.07982v1
- Date: Thu, 10 Jul 2025 17:55:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-11 16:40:15.52879
- Title: Geometry Forcing: Marrying Video Diffusion and 3D Representation for Consistent World Modeling
- Title(参考訳): 幾何強制:連続世界モデリングのためのビデオ拡散と3次元表現の結婚
- Authors: Haoyu Wu, Diankun Wu, Tianyu He, Junliang Guo, Yang Ye, Yueqi Duan, Jiang Bian,
- Abstract要約: 本稿では,映像拡散モデルと物理世界の3次元的性質のギャップを埋めるために,幾何学的強制法を提案する。
我々の重要な洞察は、事前訓練された幾何学基礎モデルの特徴と整列することで、モデル中間表現を幾何学的構造へ導くことである。
我々は、カメラビューコンディショニングとアクションコンディショニングの両方のビデオ生成タスクにおいて、Geometry Forcingを評価する。
- 参考スコア(独自算出の注目度): 29.723534231743038
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Videos inherently represent 2D projections of a dynamic 3D world. However, our analysis suggests that video diffusion models trained solely on raw video data often fail to capture meaningful geometric-aware structure in their learned representations. To bridge this gap between video diffusion models and the underlying 3D nature of the physical world, we propose Geometry Forcing, a simple yet effective method that encourages video diffusion models to internalize latent 3D representations. Our key insight is to guide the model's intermediate representations toward geometry-aware structure by aligning them with features from a pretrained geometric foundation model. To this end, we introduce two complementary alignment objectives: Angular Alignment, which enforces directional consistency via cosine similarity, and Scale Alignment, which preserves scale-related information by regressing unnormalized geometric features from normalized diffusion representation. We evaluate Geometry Forcing on both camera view-conditioned and action-conditioned video generation tasks. Experimental results demonstrate that our method substantially improves visual quality and 3D consistency over the baseline methods. Project page: https://GeometryForcing.github.io.
- Abstract(参考訳): ビデオは本質的にダイナミックな3D世界の2Dプロジェクションを表す。
しかし,本研究では,生のビデオデータのみを訓練した映像拡散モデルでは,意味のある幾何学的構造を認識できない場合が多いことを示唆する。
映像拡散モデルと物理世界の基盤となる3次元特性のギャップを埋めるために,映像拡散モデルに潜伏した3次元表現を内在化させる簡易かつ効果的な手法であるGeometry Forcingを提案する。
我々の重要な洞察は、事前訓練された幾何学基礎モデルの特徴と整列することで、モデル中間表現を幾何学的構造へ導くことである。
この目的のために、コサイン類似性による方向整合性を実現するAngular Alignmentと、正規化拡散表現から非正規化幾何学的特徴を回帰することでスケール関連情報を保存するScale Alignmentの2つの相補的アライメントを提案する。
我々は、カメラビューコンディショニングとアクションコンディショニングの両方のビデオ生成タスクにおいて、Geometry Forcingを評価する。
実験により,本手法はベースライン法よりも視覚的品質と3次元の整合性を大幅に向上することが示された。
プロジェクトページ: https://GeometryForcing.github.io
関連論文リスト
- Geometry and Perception Guided Gaussians for Multiview-consistent 3D Generation from a Single Image [10.36303976374455]
既存のアプローチはしばしば、微調整された事前訓練された2D拡散モデルや、高速ネットワーク推論を通じて直接3D情報を生成することに依存している。
本稿では,新たなモデルトレーニングを必要とせず,幾何や知覚をシームレスに統合する新しい手法を提案する。
提案手法の高忠実度化を実証し, 新規なビュー合成法と3次元再構成法とを比較検討した。
論文 参考訳(メタデータ) (2025-06-26T11:22:06Z) - UniGeo: Taming Video Diffusion for Unified Consistent Geometry Estimation [63.90470530428842]
本研究では、適切な設計と微調整により、ビデオ生成モデルの本質的な一貫性を一貫した幾何推定に有効に活用できることを実証する。
その結果,ビデオのグローバルな幾何学的属性の予測性能が向上し,再構成作業に直接適用できることがわかった。
論文 参考訳(メタデータ) (2025-05-30T12:31:59Z) - MagicPortrait: Temporally Consistent Face Reenactment with 3D Geometric Guidance [21.0593460047148]
本稿では,3次元顔パラメトリックモデルを潜在拡散フレームワークに統合した映像顔再現手法を提案する。
本手法では, 3次元顔パラメトリック表現として, FLAME(Articulated Model and Expressions)モデルを用いる。
提案手法は,高精度な表情表現と頭部ポーズ変動モデルを用いて,高品質な顔アニメーションを生成するのに優れていることを示す。
論文 参考訳(メタデータ) (2025-04-30T10:30:46Z) - Enhancing Single Image to 3D Generation using Gaussian Splatting and Hybrid Diffusion Priors [17.544733016978928]
単一の画像から3Dオブジェクトを生成するには、野生で撮影された未ポーズのRGB画像から、目に見えない景色の完全な3D形状とテクスチャを推定する必要がある。
3次元オブジェクト生成の最近の進歩は、物体の形状とテクスチャを再構築する技術を導入している。
本稿では, この限界に対応するために, 2次元拡散モデルと3次元拡散モデルとのギャップを埋めることを提案する。
論文 参考訳(メタデータ) (2024-10-12T10:14:11Z) - Deep Geometric Moments Promote Shape Consistency in Text-to-3D Generation [27.43973967994717]
MT3Dは高忠実度3Dオブジェクトを利用して視点バイアスを克服するテキスト・ツー・3D生成モデルである。
3Dアセットから幾何学的詳細を取り入れることで、MT3Dは多様で幾何学的に一貫したオブジェクトを作成することができる。
論文 参考訳(メタデータ) (2024-08-12T06:25:44Z) - A3D: Does Diffusion Dream about 3D Alignment? [73.97853402817405]
幾何学的アライメントの観点からテキスト駆動型3D生成の問題に取り組む。
テキストプロンプトのセットが与えられたら、意味的に対応する部分同士が整列したオブジェクトの集合を生成することを目指している。
我々は、これらのオブジェクトを共通の潜在空間に埋め込み、これらのオブジェクト間の連続的な遷移を最適化することを提案する。
論文 参考訳(メタデータ) (2024-06-21T09:49:34Z) - GeoGS3D: Single-view 3D Reconstruction via Geometric-aware Diffusion Model and Gaussian Splatting [81.03553265684184]
単視点画像から詳細な3Dオブジェクトを再構成するフレームワークであるGeoGS3Dを紹介する。
本稿では,GDS(Gaussian Divergence Significance)という新しい指標を提案する。
実験により、GeoGS3Dはビュー間で高い一貫性を持つ画像を生成し、高品質な3Dオブジェクトを再構成することを示した。
論文 参考訳(メタデータ) (2024-03-15T12:24:36Z) - Wonder3D: Single Image to 3D using Cross-Domain Diffusion [105.16622018766236]
Wonder3Dは、単一視点画像から高忠実なテクスチャメッシュを効率的に生成する新しい手法である。
画像から3Dまでのタスクの品質,一貫性,効率性を総括的に改善するため,領域間拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-10-23T15:02:23Z) - Joint Deep Multi-Graph Matching and 3D Geometry Learning from
Inhomogeneous 2D Image Collections [57.60094385551773]
非均質な画像コレクションから変形可能な3Dジオメトリモデルを学ぶためのトレーニング可能なフレームワークを提案する。
さらに,2次元画像で表現された物体の3次元形状も取得する。
論文 参考訳(メタデータ) (2021-03-31T17:25:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。