論文の概要: UniGeo: Taming Video Diffusion for Unified Consistent Geometry Estimation
- arxiv url: http://arxiv.org/abs/2505.24521v1
- Date: Fri, 30 May 2025 12:31:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 19:47:52.943129
- Title: UniGeo: Taming Video Diffusion for Unified Consistent Geometry Estimation
- Title(参考訳): UniGeo:一貫した幾何推定のためのビデオ拡散のモデリング
- Authors: Yang-Tian Sun, Xin Yu, Zehuan Huang, Yi-Hua Huang, Yuan-Chen Guo, Ziyi Yang, Yan-Pei Cao, Xiaojuan Qi,
- Abstract要約: 本研究では、適切な設計と微調整により、ビデオ生成モデルの本質的な一貫性を一貫した幾何推定に有効に活用できることを実証する。
その結果,ビデオのグローバルな幾何学的属性の予測性能が向上し,再構成作業に直接適用できることがわかった。
- 参考スコア(独自算出の注目度): 63.90470530428842
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recently, methods leveraging diffusion model priors to assist monocular geometric estimation (e.g., depth and normal) have gained significant attention due to their strong generalization ability. However, most existing works focus on estimating geometric properties within the camera coordinate system of individual video frames, neglecting the inherent ability of diffusion models to determine inter-frame correspondence. In this work, we demonstrate that, through appropriate design and fine-tuning, the intrinsic consistency of video generation models can be effectively harnessed for consistent geometric estimation. Specifically, we 1) select geometric attributes in the global coordinate system that share the same correspondence with video frames as the prediction targets, 2) introduce a novel and efficient conditioning method by reusing positional encodings, and 3) enhance performance through joint training on multiple geometric attributes that share the same correspondence. Our results achieve superior performance in predicting global geometric attributes in videos and can be directly applied to reconstruction tasks. Even when trained solely on static video data, our approach exhibits the potential to generalize to dynamic video scenes.
- Abstract(参考訳): 近年, 拡散モデルを用いた単図形幾何学的推定(例えば, 深さ, 正規値)を支援する手法が, 強い一般化能力によって注目されている。
しかし、既存のほとんどの研究は、フレーム間の対応を決定するための拡散モデル固有の能力を無視して、個々のビデオフレームのカメラ座標系内の幾何学的性質を推定することに焦点を当てている。
本研究では、適切な設計と微調整により、ビデオ生成モデルの本質的な一貫性を一貫した幾何推定に有効に活用できることを実証する。
具体的には
1)大域座標系における幾何学的属性の選択は,予測対象と同じ映像フレームに対応する。
2 位置エンコーディングの再利用による新規で効率的な条件付け手法の導入、及び
3) 同一の対応性を持つ複数の幾何学的属性を用いた共同学習により, 性能の向上が図られた。
その結果,ビデオのグローバルな幾何学的属性の予測性能が向上し,再構成作業に直接適用できることがわかった。
静的な映像データのみを訓練しても,ダイナミックな映像シーンに一般化する可能性を示す。
関連論文リスト
- DiffusionSfM: Predicting Structure and Motion via Ray Origin and Endpoint Diffusion [53.70278210626701]
マルチビュー画像から3次元シーン形状とカメラポーズを直接推定するデータ駆動型マルチビュー推論手法を提案する。
我々のフレームワークであるDiffusionSfMは、シーン幾何学とカメラを、グローバルフレーム内のピクセルワイズ線源とエンドポイントとしてパラメータ化します。
我々は、DiffusionSfMを合成データセットと実データセットの両方で実証的に検証し、古典的および学習ベースのアプローチよりも優れていることを示す。
論文 参考訳(メタデータ) (2025-05-08T17:59:47Z) - Learning Multi-frame and Monocular Prior for Estimating Geometry in Dynamic Scenes [56.936178608296906]
我々は,MMPと呼ばれる新しいモデルを提案し,その形状をフィードフォワード方式で推定する。
近年のシームズアーキテクチャに基づいて,新しい軌道符号化モジュールを導入する。
MMPはフィードフォワードのポイントマップ予測において最先端の品質を実現することができる。
論文 参考訳(メタデータ) (2025-05-03T08:28:15Z) - GeometryCrafter: Consistent Geometry Estimation for Open-world Videos with Diffusion Priors [47.21120442961684]
オープンワールドビデオから時間的コヒーレンスで高忠実度点マップシーケンスを復元する新しいフレームワークであるGeometryCrafterを提案する。
GeometryCrafterは最先端の3D精度、時間的一貫性、一般化能力を実現する。
論文 参考訳(メタデータ) (2025-04-01T17:58:03Z) - Str-L Pose: Integrating Point and Structured Line for Relative Pose Estimation in Dual-Graph [45.115555973941255]
ロボットや自律運転など、さまざまなコンピュータビジョンアプリケーションにおいて、相対的なポーズ推定が不可欠である。
本稿では,余分な構造線セグメントと点特徴を統合した幾何対応グラフニューラルネットワークを提案する。
この整合点と線分の統合は、幾何学的制約をさらに活用し、異なる環境におけるモデル性能を向上させる。
論文 参考訳(メタデータ) (2024-08-28T12:33:26Z) - GeoWizard: Unleashing the Diffusion Priors for 3D Geometry Estimation from a Single Image [94.56927147492738]
単一画像から幾何学的属性を推定するための新しい生成基盤モデルであるGeoWizardを紹介する。
拡散前処理の活用は,資源利用における一般化,詳細な保存,効率性を著しく向上させることが示唆された。
本稿では,様々なシーンの複雑なデータ分布を,個別のサブディストリビューションに分離する,シンプルかつ効果的な戦略を提案する。
論文 参考訳(メタデータ) (2024-03-18T17:50:41Z) - Self-supervised Geometric Perception [96.89966337518854]
自己教師付き幾何知覚(self-supervised geometric perception)は、基底幾何モデルラベルなしで対応マッチングのための特徴記述子を学ぶためのフレームワークである。
また,SGPは,地上トラスラベルを用いて訓練した教師付きオークルよりも同等か優れる最先端性能を達成できることを示す。
論文 参考訳(メタデータ) (2021-03-04T15:34:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。