論文の概要: Iris: Bringing Real-World Priors into Diffusion Model for Monocular Depth Estimation
- arxiv url: http://arxiv.org/abs/2603.16340v1
- Date: Tue, 17 Mar 2026 10:13:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-18 17:42:07.215309
- Title: Iris: Bringing Real-World Priors into Diffusion Model for Monocular Depth Estimation
- Title(参考訳): Iris: モノクラー深さ推定のための拡散モデルに現実の優先順位を導入する
- Authors: Xinhao Cai, Gensheng Pei, Zeren Sun, Yazhou Yao, Fumin Shen, Wenguan Wang,
- Abstract要約: textbfIrisはモノクロ深さ推定のための決定論的フレームワークである。
アイリスは、合成シーンから現実シーンへと強く一般化する。
Irisは、強力なインザワイルド一般化によるMDEの大幅な改善を実現している。
- 参考スコア(独自算出の注目度): 79.21856613345118
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we propose \textbf{Iris}, a deterministic framework for Monocular Depth Estimation (MDE) that integrates real-world priors into the diffusion model. Conventional feed-forward methods rely on massive training data, yet still miss details. Previous diffusion-based methods leverage rich generative priors yet struggle with synthetic-to-real domain transfer. Iris, in contrast, preserves fine details, generalizes strongly from synthetic to real scenes, and remains efficient with limited training data. To this end, we introduce a two-stage Priors-to-Geometry Deterministic (PGD) schedule: the prior stage uses Spectral-Gated Distillation (SGD) to transfer low-frequency real priors while leaving high-frequency details unconstrained, and the geometry stage applies Spectral-Gated Consistency (SGC) to enforce high-frequency fidelity while refining with synthetic ground truth. The two stages share weights and are executed with a high-to-low timestep schedule. Extensive experimental results confirm that Iris achieves significant improvements in MDE performance with strong in-the-wild generalization.
- Abstract(参考訳): 本稿では,現実世界の先行情報を拡散モデルに統合するモノクロ深度推定(MDE)のための決定論的フレームワークであるtextbf{Iris}を提案する。
従来のフィードフォワード方式は大規模なトレーニングデータに依存しているが、詳細を見逃している。
それまでの拡散に基づく手法は、リッチな生成前駆体を利用していたが、合成から現実へのドメイン移動に苦慮していた。
対照的にアイリスは細部を保存し、合成シーンから実シーンまで強く一般化し、限られた訓練データで効率を保っている。
この目的のために,2段階の先行測位決定性 (PGD) スケジュールを導入する。前段では,低周波前駆体を移動させるためにスペクトルゲート蒸留 (SGD) を用いて,高周波の詳細を拘束することなく,幾何学段階ではスペクトルゲート整合性 (SGC) を適用し,合成基底真理で精製しながら高周波忠実性を強制する。
2つのステージは重みを共有し、ハイ・ツー・ロー・タイム・ステップ・スケジュールで実行される。
大規模な実験結果から,IrisはMDE性能の大幅な向上を実現していることがわかった。
関連論文リスト
- Diffusion Models as Dataset Distillation Priors [39.4727398182562]
本稿では,特徴空間における合成データと実データとの類似性を定量化し,代表性を定式化するAs Diffusion Priors (DAP)を提案する。
DAPは、高忠実度データセットを生成する上で、最先端の手法よりも優れています。
我々の研究は、拡散先行とデータセット蒸留の目的との理論的関係を確立する。
論文 参考訳(メタデータ) (2025-10-20T11:04:09Z) - Large Scale Diffusion Distillation via Score-Regularized Continuous-Time Consistency [60.74505433956616]
連続時間一貫性モデル(sCM)は理論的に原理化され、学術規模の拡散を加速するために実証的に強力である。
まず並列性互換なFlashAttention-2 JVPカーネルを開発し、100億以上のパラメータと高次元ビデオタスクを持つモデル上でsCMトレーニングを可能にする。
本稿では, スコア蒸留を長軸正則化器として組み込んだスコア規則化連続時間一貫性モデル(rCM)を提案する。
論文 参考訳(メタデータ) (2025-10-09T16:45:30Z) - Diffusion Prior Interpolation for Flexibility Real-World Face Super-Resolution [48.34173818491552]
拡散事前補間(DPI)は、一貫性と多様性のバランスをとることができ、事前訓練されたモデルにシームレスに統合することができる。
合成および実データに対して行われた広範な実験において、DPIはSOTA FSR法よりも優れていることを示した。
論文 参考訳(メタデータ) (2024-12-21T09:28:44Z) - FiffDepth: Feed-forward Transformation of Diffusion-Based Generators for Detailed Depth Estimation [31.06080108012735]
FiffDepth という,効率的な単眼深度推定手法を提案する。
FiffDepthは拡散に基づく画像生成装置をフィードフォワードアーキテクチャに変換し、詳細な深さ推定を行う。
We demonstrate that FiffDepth achieves extra accuracy, stability, and fine-fine detail, offered significant improvement in MDE performance。
論文 参考訳(メタデータ) (2024-12-01T04:59:34Z) - BetterDepth: Plug-and-Play Diffusion Refiner for Zero-Shot Monocular Depth Estimation [25.047835960649167]
BetterDepthは、事前訓練されたMDEモデルからの予測を深度条件として取り込む条件拡散ベースの精錬機である。
BetterDepthは、さまざまな公開データセットと、その中のシーンで、最先端のゼロショットMDEパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-07-25T11:16:37Z) - LDM-ISP: Enhancing Neural ISP for Low Light with Latent Diffusion Models [54.93010869546011]
本稿では,事前学習した潜伏拡散モデルを用いて,超低照度画像の高精細化のためのニューラルISPを実現することを提案する。
具体的には、RAWドメイン上で動作するために事前訓練された潜在拡散モデルを調整するために、軽量なテーミングモジュールのセットをトレーニングする。
遅延拡散モデルにおけるUNet復調と復号化の異なる役割を観察し、低照度画像強調タスクを遅延空間低周波コンテンツ生成と復号位相高周波ディテール保守に分解するきっかけとなる。
論文 参考訳(メタデータ) (2023-12-02T04:31:51Z) - Hierarchical Integration Diffusion Model for Realistic Image Deblurring [71.76410266003917]
拡散モデル (DM) は画像劣化に導入され, 有望な性能を示した。
本稿では,階層型統合拡散モデル(HI-Diff)を提案する。
人工的および実世界のぼかしデータセットの実験は、HI-Diffが最先端の手法より優れていることを示した。
論文 参考訳(メタデータ) (2023-05-22T12:18:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。