論文の概要: GeometryCrafter: Consistent Geometry Estimation for Open-world Videos with Diffusion Priors
- arxiv url: http://arxiv.org/abs/2504.01016v1
- Date: Tue, 01 Apr 2025 17:58:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-03 13:23:29.827153
- Title: GeometryCrafter: Consistent Geometry Estimation for Open-world Videos with Diffusion Priors
- Title(参考訳): GeometryCrafter: 拡散優先度を持つオープンワールドビデオの一貫性幾何推定
- Authors: Tian-Xing Xu, Xiangjun Gao, Wenbo Hu, Xiaoyu Li, Song-Hai Zhang, Ying Shan,
- Abstract要約: オープンワールドビデオから時間的コヒーレンスで高忠実度点マップシーケンスを復元する新しいフレームワークであるGeometryCrafterを提案する。
GeometryCrafterは最先端の3D精度、時間的一貫性、一般化能力を実現する。
- 参考スコア(独自算出の注目度): 47.21120442961684
- License:
- Abstract: Despite remarkable advancements in video depth estimation, existing methods exhibit inherent limitations in achieving geometric fidelity through the affine-invariant predictions, limiting their applicability in reconstruction and other metrically grounded downstream tasks. We propose GeometryCrafter, a novel framework that recovers high-fidelity point map sequences with temporal coherence from open-world videos, enabling accurate 3D/4D reconstruction, camera parameter estimation, and other depth-based applications. At the core of our approach lies a point map Variational Autoencoder (VAE) that learns a latent space agnostic to video latent distributions for effective point map encoding and decoding. Leveraging the VAE, we train a video diffusion model to model the distribution of point map sequences conditioned on the input videos. Extensive evaluations on diverse datasets demonstrate that GeometryCrafter achieves state-of-the-art 3D accuracy, temporal consistency, and generalization capability.
- Abstract(参考訳): ビデオ深度推定の顕著な進歩にもかかわらず、既存の手法はアフィン不変の予測を通じて幾何学的忠実性を達成するのに固有の限界を示し、再構成やその他の計量的に基礎付けられた下流のタスクに適用性を制限する。
オープンワールドビデオから高忠実度点マップシーケンスを時間的コヒーレンスで復元し,正確な3D/4D再構成,カメラパラメータ推定,その他の深度に基づくアプリケーションを実現する新しいフレームワークであるGeometryCrafterを提案する。
提案手法のコアとなる点マップの変分オートエンコーダ(VAE)は,実効点マップの符号化と復号のために,ビデオの潜時分布に非依存な潜時空間を学習する。
VAEを利用すると、ビデオ拡散モデルをトレーニングし、入力ビデオ上で条件付けられたポイントマップシーケンスの分布をモデル化する。
多様なデータセットに対する大規模な評価は、GeometryCrafterが最先端の3D精度、時間的一貫性、一般化能力を達成したことを示している。
関連論文リスト
- CVCP-Fusion: On Implicit Depth Estimation for 3D Bounding Box Prediction [2.0375637582248136]
Cross-View Center Point-Fusionは、3Dオブジェクト検出を行う最先端モデルである。
我々のアーキテクチャは、以前に確立されたアルゴリズム、クロスビュートランスフォーマー、CenterPointのアスペクトを利用する。
論文 参考訳(メタデータ) (2024-10-15T02:55:07Z) - DoubleTake: Geometry Guided Depth Estimation [17.464549832122714]
RGB画像の列から深度を推定することは、基本的なコンピュータビジョンタスクである。
本稿では,現在のカメラ位置から深度マップとして描画された,ボリューム特徴と先行幾何学のヒントを組み合わせた再構成手法を提案する。
本手法は, オフライン・インクリメンタルな評価シナリオにおいて, 対話的な速度, 最先端の深度推定, および3次元シーンで動作可能であることを示す。
論文 参考訳(メタデータ) (2024-06-26T14:29:05Z) - COMO: Compact Mapping and Odometry [17.71754144808295]
我々は3次元アンカー点のコンパクトな集合を通して密度幾何学を符号化する実時間単分子マッピングおよびオドメトリーシステムであるCOMOを提案する。
この表現は、カメラポーズと密な幾何学、本質的な3次元一貫性、効率的な2階推論の合同最適化を可能にする。
論文 参考訳(メタデータ) (2024-04-04T15:35:43Z) - FrozenRecon: Pose-free 3D Scene Reconstruction with Frozen Depth Models [67.96827539201071]
本稿では,3次元シーン再構成のための新しいテスト時間最適化手法を提案する。
本手法は5つのゼロショットテストデータセット上で,最先端のクロスデータセット再構築を実現する。
論文 参考訳(メタデータ) (2023-08-10T17:55:02Z) - AutoDecoding Latent 3D Diffusion Models [95.7279510847827]
本稿では,3次元オートデコーダをコアとした静的・明瞭な3次元アセットの生成に対して,新しいアプローチを提案する。
3D Autodecoderフレームワークは、ターゲットデータセットから学んだプロパティを潜時空間に埋め込む。
次に、適切な中間体積潜在空間を特定し、ロバストな正規化と非正規化演算を導入する。
論文 参考訳(メタデータ) (2023-07-07T17:59:14Z) - Learning Monocular Depth in Dynamic Scenes via Instance-Aware Projection
Consistency [114.02182755620784]
本稿では,複数の動的物体の6-DoF動作,エゴモーション,深度を,監督なしで一眼レフカメラで明示的にモデル化する,エンドツーエンドのジョイントトレーニングフレームワークを提案する。
筆者らのフレームワークは,最先端の深度・動き推定法より優れていた。
論文 参考訳(メタデータ) (2021-02-04T14:26:42Z) - Multi-view Depth Estimation using Epipolar Spatio-Temporal Networks [87.50632573601283]
一つのビデオから多視点深度を推定する新しい手法を提案する。
提案手法は,新しいEpipolar Spatio-Temporal Transformer(EST)を用いて時間的コヒーレントな深度推定を行う。
最近のMixture-of-Expertsモデルにインスパイアされた計算コストを削減するため、我々はコンパクトなハイブリッドネットワークを設計する。
論文 参考訳(メタデータ) (2020-11-26T04:04:21Z) - Consistent Video Depth Estimation [57.712779457632024]
モノクロ映像中の全画素に対して, 密度, 幾何的に整合した深度を再構成するアルゴリズムを提案する。
動画中の画素の幾何的制約を確立するために、従来の動きから再構成した構造を利用する。
我々のアルゴリズムは、手持ちの映像をある程度のダイナミックな動きで処理することができる。
論文 参考訳(メタデータ) (2020-04-30T17:59:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。