Fugu-MT 論文翻訳(概要): UniGeo: Taming Video Diffusion for Unified Consistent Geometry Estimation

論文の概要: UniGeo: Taming Video Diffusion for Unified Consistent Geometry Estimation

arxiv url: http://arxiv.org/abs/2505.24521v1
Date: Fri, 30 May 2025 12:31:59 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-02 19:47:52.943129
Title: UniGeo: Taming Video Diffusion for Unified Consistent Geometry Estimation
Title（参考訳）: UniGeo:一貫した幾何推定のためのビデオ拡散のモデリング
Authors: Yang-Tian Sun, Xin Yu, Zehuan Huang, Yi-Hua Huang, Yuan-Chen Guo, Ziyi Yang, Yan-Pei Cao, Xiaojuan Qi,
Abstract要約: 本研究では、適切な設計と微調整により、ビデオ生成モデルの本質的な一貫性を一貫した幾何推定に有効に活用できることを実証する。その結果,ビデオのグローバルな幾何学的属性の予測性能が向上し,再構成作業に直接適用できることがわかった。
参考スコア（独自算出の注目度）: 63.90470530428842
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Recently, methods leveraging diffusion model priors to assist monocular geometric estimation (e.g., depth and normal) have gained significant attention due to their strong generalization ability. However, most existing works focus on estimating geometric properties within the camera coordinate system of individual video frames, neglecting the inherent ability of diffusion models to determine inter-frame correspondence. In this work, we demonstrate that, through appropriate design and fine-tuning, the intrinsic consistency of video generation models can be effectively harnessed for consistent geometric estimation. Specifically, we 1) select geometric attributes in the global coordinate system that share the same correspondence with video frames as the prediction targets, 2) introduce a novel and efficient conditioning method by reusing positional encodings, and 3) enhance performance through joint training on multiple geometric attributes that share the same correspondence. Our results achieve superior performance in predicting global geometric attributes in videos and can be directly applied to reconstruction tasks. Even when trained solely on static video data, our approach exhibits the potential to generalize to dynamic video scenes.
Abstract（参考訳）: 近年, 拡散モデルを用いた単図形幾何学的推定(例えば, 深さ, 正規値)を支援する手法が, 強い一般化能力によって注目されている。しかし、既存のほとんどの研究は、フレーム間の対応を決定するための拡散モデル固有の能力を無視して、個々のビデオフレームのカメラ座標系内の幾何学的性質を推定することに焦点を当てている。本研究では、適切な設計と微調整により、ビデオ生成モデルの本質的な一貫性を一貫した幾何推定に有効に活用できることを実証する。具体的には 1)大域座標系における幾何学的属性の選択は,予測対象と同じ映像フレームに対応する。 2 位置エンコーディングの再利用による新規で効率的な条件付け手法の導入、及び 3) 同一の対応性を持つ複数の幾何学的属性を用いた共同学習により, 性能の向上が図られた。その結果,ビデオのグローバルな幾何学的属性の予測性能が向上し,再構成作業に直接適用できることがわかった。静的な映像データのみを訓練しても,ダイナミックな映像シーンに一般化する可能性を示す。

関連論文リスト

UniGeo: A Unified 3D Indoor Object Detection Framework Integrating Geometry-Aware Learning and Dynamic Channel Gating [20.395441875640955]
我々はUniGeoと呼ばれる3次元屋内検出フレームワークを提案する。まず,空間的関係から特徴量への学習可能なマッピングを確立する幾何学的学習モジュールを提案する。そこで本研究では,学習可能なチャネルワイド重み付けを利用する動的チャネルゲーティング機構を提案する。
論文参考訳（メタデータ） (2026-01-30T06:15:50Z)
GeoVideo: Introducing Geometric Regularization into Video Generation Model [46.38507581500745]
フレームごとの深度予測による潜時拡散モデルの拡大により,ビデオ生成に幾何正則化損失を導入する。本手法は, 外観生成と3次元構造モデリングのギャップを埋めることにより, 構造的コヒーレンス・時間的形状, 整合性, 物理的妥当性が向上する。
論文参考訳（メタデータ） (2025-12-03T05:11:57Z)
GeoWorld: Unlocking the Potential of Geometry Models to Facilitate High-Fidelity 3D Scene Generation [68.02988074681427]
画像から3Dのシーン生成にビデオモデルを利用する以前の研究は、幾何学的歪みやぼやけた内容に悩まされる傾向にある。本稿では,幾何学モデルの可能性を解き放つことにより,画像から3次元のシーン生成のパイプラインを再構築する。我々のGeoWorldは、1つの画像と所定のカメラ軌道から高忠実度3Dシーンを生成することができ、定性的かつ定量的に先行手法より優れている。
論文参考訳（メタデータ） (2025-11-28T13:55:45Z)
Epipolar Geometry Improves Video Generation Models [73.44978239787501]
3D一貫性のあるビデオ生成は、生成および再構成タスクにおける多くの下流アプリケーションに大きな影響を与える可能性がある。エピポーラ幾何学的制約が現代のビデオ拡散モデルをどのように改善するかを考察する。データ駆動型ディープラーニングを古典的幾何学的コンピュータビジョンでブリッジすることで、空間的に一貫したビデオを生成する実用的な方法を提案する。
論文参考訳（メタデータ） (2025-10-24T16:21:37Z)
Geometry Forcing: Marrying Video Diffusion and 3D Representation for Consistent World Modeling [29.723534231743038]
本稿では,映像拡散モデルと物理世界の3次元的性質のギャップを埋めるために,幾何学的強制法を提案する。我々の重要な洞察は、事前訓練された幾何学基礎モデルの特徴と整列することで、モデル中間表現を幾何学的構造へ導くことである。我々は、カメラビューコンディショニングとアクションコンディショニングの両方のビデオ生成タスクにおいて、Geometry Forcingを評価する。
論文参考訳（メタデータ） (2025-07-10T17:55:08Z)
DiffusionSfM: Predicting Structure and Motion via Ray Origin and Endpoint Diffusion [53.70278210626701]
マルチビュー画像から3次元シーン形状とカメラポーズを直接推定するデータ駆動型マルチビュー推論手法を提案する。我々のフレームワークであるDiffusionSfMは、シーン幾何学とカメラを、グローバルフレーム内のピクセルワイズ線源とエンドポイントとしてパラメータ化します。我々は、DiffusionSfMを合成データセットと実データセットの両方で実証的に検証し、古典的および学習ベースのアプローチよりも優れていることを示す。
論文参考訳（メタデータ） (2025-05-08T17:59:47Z)
Learning Multi-frame and Monocular Prior for Estimating Geometry in Dynamic Scenes [56.936178608296906]
我々は,MMPと呼ばれる新しいモデルを提案し,その形状をフィードフォワード方式で推定する。近年のシームズアーキテクチャに基づいて,新しい軌道符号化モジュールを導入する。 MMPはフィードフォワードのポイントマップ予測において最先端の品質を実現することができる。
論文参考訳（メタデータ） (2025-05-03T08:28:15Z)
GeometryCrafter: Consistent Geometry Estimation for Open-world Videos with Diffusion Priors [47.21120442961684]
オープンワールドビデオから時間的コヒーレンスで高忠実度点マップシーケンスを復元する新しいフレームワークであるGeometryCrafterを提案する。 GeometryCrafterは最先端の3D精度、時間的一貫性、一般化能力を実現する。
論文参考訳（メタデータ） (2025-04-01T17:58:03Z)
Str-L Pose: Integrating Point and Structured Line for Relative Pose Estimation in Dual-Graph [45.115555973941255]
ロボットや自律運転など、さまざまなコンピュータビジョンアプリケーションにおいて、相対的なポーズ推定が不可欠である。本稿では,余分な構造線セグメントと点特徴を統合した幾何対応グラフニューラルネットワークを提案する。この整合点と線分の統合は、幾何学的制約をさらに活用し、異なる環境におけるモデル性能を向上させる。
論文参考訳（メタデータ） (2024-08-28T12:33:26Z)
GeoWizard: Unleashing the Diffusion Priors for 3D Geometry Estimation from a Single Image [94.56927147492738]
単一画像から幾何学的属性を推定するための新しい生成基盤モデルであるGeoWizardを紹介する。拡散前処理の活用は,資源利用における一般化,詳細な保存,効率性を著しく向上させることが示唆された。本稿では,様々なシーンの複雑なデータ分布を,個別のサブディストリビューションに分離する,シンプルかつ効果的な戦略を提案する。
論文参考訳（メタデータ） (2024-03-18T17:50:41Z)
Self-supervised Geometric Perception [96.89966337518854]
自己教師付き幾何知覚(self-supervised geometric perception)は、基底幾何モデルラベルなしで対応マッチングのための特徴記述子を学ぶためのフレームワークである。また,SGPは,地上トラスラベルを用いて訓練した教師付きオークルよりも同等か優れる最先端性能を達成できることを示す。
論文参考訳（メタデータ） (2021-03-04T15:34:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。