論文の概要: Lotus-2: Advancing Geometric Dense Prediction with Powerful Image Generative Model
- arxiv url: http://arxiv.org/abs/2512.01030v1
- Date: Sun, 30 Nov 2025 18:57:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.545778
- Title: Lotus-2: Advancing Geometric Dense Prediction with Powerful Image Generative Model
- Title(参考訳): Lotus-2:パワーフル画像生成モデルによる幾何線量予測の改善
- Authors: Jing He, Haodong Li, Mingzhi Sheng, Ying-Cong Chen,
- Abstract要約: 安定, 高精度, 微粒な幾何的密度予測のための2段階決定的フレームワークを提案する。
特に、第1段階では、コア予測器は、クリーンデータ目的の単一ステップ決定論的定式化を採用する。
第2段階では、ディテールシャープナーは、コア予測器によって定義される多様体内で制約付き多段階整流補正を行う。
- 参考スコア(独自算出の注目度): 32.831576387973875
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recovering pixel-wise geometric properties from a single image is fundamentally ill-posed due to appearance ambiguity and non-injective mappings between 2D observations and 3D structures. While discriminative regression models achieve strong performance through large-scale supervision, their success is bounded by the scale, quality and diversity of available data and limited physical reasoning. Recent diffusion models exhibit powerful world priors that encode geometry and semantics learned from massive image-text data, yet directly reusing their stochastic generative formulation is suboptimal for deterministic geometric inference: the former is optimized for diverse and high-fidelity image generation, whereas the latter requires stable and accurate predictions. In this work, we propose Lotus-2, a two-stage deterministic framework for stable, accurate and fine-grained geometric dense prediction, aiming to provide an optimal adaption protocol to fully exploit the pre-trained generative priors. Specifically, in the first stage, the core predictor employs a single-step deterministic formulation with a clean-data objective and a lightweight local continuity module (LCM) to generate globally coherent structures without grid artifacts. In the second stage, the detail sharpener performs a constrained multi-step rectified-flow refinement within the manifold defined by the core predictor, enhancing fine-grained geometry through noise-free deterministic flow matching. Using only 59K training samples, less than 1% of existing large-scale datasets, Lotus-2 establishes new state-of-the-art results in monocular depth estimation and highly competitive surface normal prediction. These results demonstrate that diffusion models can serve as deterministic world priors, enabling high-quality geometric reasoning beyond traditional discriminative and generative paradigms.
- Abstract(参考訳): 単一の画像から画素単位の幾何特性を復元することは、外見の曖昧さと2次元観察と3次元構造の間の非射影マッピングにより、基本的に不適切である。
識別回帰モデルは大規模監視を通じて高い性能を達成するが、その成功は、利用可能なデータのスケール、品質、多様性、限られた物理的推論によって制限される。
最近の拡散モデルは、大規模な画像テキストデータから学習した幾何学や意味をエンコードする強力な世界先行性を示すが、その確率的生成式を直接再利用することは、決定論的幾何学的推論に最適である: 前者は多種多様な高忠実な画像生成に最適化され、後者は安定かつ正確な予測を必要とする。
そこで本研究では,2段階決定型フレームワークであるLotus-2を提案する。
具体的には、第1段階では、コア予測器は、クリーンデータ目的と軽量局所連続モジュール(LCM)を備えた単一ステップ決定論的定式化を用いて、グリッドアーティファクトのないグローバルコヒーレントな構造を生成する。
第2段階では、ディテールシャープナーは、コア予測器によって定義された多様体内で制約付き多段階整流補正を行い、ノイズフリーな決定論的フローマッチングにより微細な幾何を向上する。
既存の大規模データセットの1%未満である59Kのトレーニングサンプルのみを使用して、Lotus-2はモノクロ深度推定と高度に競争力のある表面正規予測のための新しい最先端結果を確立する。
これらの結果は、拡散モデルが決定論的世界先行として機能し、従来の差別的および生成的パラダイムを超えた高品質な幾何学的推論を可能にすることを示している。
関連論文リスト
- Generative Human Geometry Distribution [49.58025398670139]
我々は、最近提案された、高忠実度で単一の人間の幾何学をモデル化可能な、幾何学的分布に基づいて構築する。
本稿では,ネットワークパラメータではなく2次元特徴写像として分布を符号化する手法と,ガウスではなく領域としてSMPLモデルを提案する。
実験の結果,提案手法は既存の最先端手法よりも優れており,幾何学的品質が57%向上していることがわかった。
論文 参考訳(メタデータ) (2025-03-03T11:55:19Z) - GeoWizard: Unleashing the Diffusion Priors for 3D Geometry Estimation from a Single Image [94.56927147492738]
単一画像から幾何学的属性を推定するための新しい生成基盤モデルであるGeoWizardを紹介する。
拡散前処理の活用は,資源利用における一般化,詳細な保存,効率性を著しく向上させることが示唆された。
本稿では,様々なシーンの複雑なデータ分布を,個別のサブディストリビューションに分離する,シンプルかつ効果的な戦略を提案する。
論文 参考訳(メタデータ) (2024-03-18T17:50:41Z) - Exploiting Diffusion Prior for Generalizable Dense Prediction [85.4563592053464]
近年のテキスト・トゥ・イメージ(T2I)拡散モデルでは、既成の高密度予測器では予測できないことがある。
我々は,事前学習したT2Iモデルを用いたパイプラインDMPを,高密度予測タスクの先駆けとして導入する。
限られたドメインのトレーニングデータにもかかわらず、この手法は任意の画像に対して忠実に推定し、既存の最先端のアルゴリズムを超越する。
論文 参考訳(メタデータ) (2023-11-30T18:59:44Z) - RGM: A Robust Generalizable Matching Model [49.60975442871967]
RGM(Robust Generalist Matching)と呼ばれる疎密マッチングのための深部モデルを提案する。
合成トレーニングサンプルと実世界のシナリオのギャップを狭めるために、我々は、疎対応基盤真理を持つ新しい大規模データセットを構築した。
さまざまな密集したスパースなデータセットを混ぜ合わせることができ、トレーニングの多様性を大幅に改善しています。
論文 参考訳(メタデータ) (2023-10-18T07:30:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。