論文の概要: $\mathrm{D}^{\mathrm{3}}$-Predictor: Noise-Free Deterministic Diffusion for Dense Prediction
- arxiv url: http://arxiv.org/abs/2512.07062v1
- Date: Mon, 08 Dec 2025 00:39:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:54.661771
- Title: $\mathrm{D}^{\mathrm{3}}$-Predictor: Noise-Free Deterministic Diffusion for Dense Prediction
- Title(参考訳): $\mathrm{D}^{\mathrm{3}}$-Predictor: Nono-Free Deterministic Diffusion for Dense Prediction
- Authors: Changliang Xia, Chengyou Jia, Minnan Luo, Zhuohang Dang, Xin Shen, Bowen Ping,
- Abstract要約: $mathrmDmathrm3$-Predictorは、ノイズのない決定論的なフレームワークである。
$mathrmDmathrm3$-Predictorは、さまざまなシナリオで、競争力や最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 32.91851342240063
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although diffusion models with strong visual priors have emerged as powerful dense prediction backboens, they overlook a core limitation: the stochastic noise at the core of diffusion sampling is inherently misaligned with dense prediction that requires a deterministic mapping from image to geometry. In this paper, we show that this stochastic noise corrupts fine-grained spatial cues and pushes the model toward timestep-specific noise objectives, consequently destroying meaningful geometric structure mappings. To address this, we introduce $\mathrm{D}^{\mathrm{3}}$-Predictor, a noise-free deterministic framework built by reformulating a pretrained diffusion model without stochasticity noise. Instead of relying on noisy inputs to leverage diffusion priors, $\mathrm{D}^{\mathrm{3}}$-Predictor views the pretrained diffusion network as an ensemble of timestep-dependent visual experts and self-supervisedly aggregates their heterogeneous priors into a single, clean, and complete geometric prior. Meanwhile, we utilize task-specific supervision to seamlessly adapt this noise-free prior to dense prediction tasks. Extensive experiments on various dense prediction tasks demonstrate that $\mathrm{D}^{\mathrm{3}}$-Predictor achieves competitive or state-of-the-art performance in diverse scenarios. In addition, it requires less than half the training data previously used and efficiently performs inference in a single step. Our code, data, and checkpoints are publicly available at https://x-gengroup.github.io/HomePage_D3-Predictor/.
- Abstract(参考訳): 強い視覚的先行性を持つ拡散モデルは強力な密度予測バックボーンとして現れるが、拡散サンプリングのコアにおける確率的ノイズは、画像から幾何学への決定論的マッピングを必要とする密度予測と本質的には一致していない。
本稿では, この確率的雑音が空間的きめ細粒度を劣化させ, 時間ステップ特異的な雑音対象に向かってモデルを押し上げ, 意味のある幾何学的構造マッピングを破壊していることを示す。
これを解決するために、確率性ノイズを伴わずに事前学習した拡散モデルを変更することで構築された雑音のない決定論的なフレームワークである$\mathrm{D}^{\mathrm{3}}$-Predictorを導入する。
拡散事前を利用するためにノイズの多い入力に頼る代わりに、$\mathrm{D}^{\mathrm{3}}$-Predictorは、事前訓練された拡散ネットワークをタイムステップ依存の視覚専門家のアンサンブルとみなし、不均一な事前を単一の、クリーンで完全な幾何学的事前に自己監督的に集約する。
一方,高密度な予測タスクに先立って,タスク固有の監督を利用して,このノイズフリーをシームレスに適応する。
様々な密集予測タスクに関する大規模な実験は、$\mathrm{D}^{\mathrm{3}}$-Predictorが様々なシナリオで競争力や最先端のパフォーマンスを達成することを示した。
さらに、以前使用したトレーニングデータの半数未満を必要とし、単一のステップで推論を効率的に実行する。
私たちのコード、データ、チェックポイントはhttps://x-gengroup.github.io/HomePage_D3-Predictor/で公開されています。
関連論文リスト
- TRIM: Scalable 3D Gaussian Diffusion Inference with Temporal and Spatial Trimming [10.73970270886881]
3次元ガウス拡散モデルの最近の進歩は、時間集約的な認知とポストデノゲーション処理に悩まされている。
我々は、$textbfT$rajectory $textbfR$eductionと$textbfI$nstance $textbfM$ask denoisingを提案する。
論文 参考訳(メタデータ) (2025-11-20T18:49:09Z) - Matching the Optimal Denoiser in Point Cloud Diffusion with (Improved) Rotational Alignment [5.8069334875117775]
拡散モデルのトレーニングは、ノイズレベルの異なるサンプルをノイズにする方法を学ぶことで構成される。
最適デノイザは行列フィッシャー分布を$SO(3)$で表現できることを示す。
我々はこの視点に基づいて、小さな雑音の限界において最適なデノイザにより良い近似器を導出する。
論文 参考訳(メタデータ) (2025-10-02T05:55:22Z) - Robust Representation Consistency Model via Contrastive Denoising [83.47584074390842]
ランダムな平滑化は、敵の摂動に対する堅牢性を証明する理論的保証を提供する。
拡散モデルは、ノイズ摂動サンプルを浄化するためにランダムな平滑化に成功している。
我々は,画素空間における拡散軌跡に沿った生成的モデリングタスクを,潜在空間における識別的タスクとして再構成する。
論文 参考訳(メタデータ) (2025-01-22T18:52:06Z) - Amortizing intractable inference in diffusion models for vision, language, and control [89.65631572949702]
本稿では,p(mathbfx)$以前の拡散生成モデルとブラックボックス制約,あるいは関数$r(mathbfx)$からなるモデルにおいて,データ上の後部サンプルである $mathbfxsim prm post(mathbfx)propto p(mathbfx)r(mathbfx)$について検討する。
我々は,データフリー学習目標である相対軌道バランスの正しさを,サンプルから抽出した拡散モデルの訓練のために証明する。
論文 参考訳(メタデータ) (2024-05-31T16:18:46Z) - Exploiting Diffusion Prior for Generalizable Dense Prediction [85.4563592053464]
近年のテキスト・トゥ・イメージ(T2I)拡散モデルでは、既成の高密度予測器では予測できないことがある。
我々は,事前学習したT2Iモデルを用いたパイプラインDMPを,高密度予測タスクの先駆けとして導入する。
限られたドメインのトレーニングデータにもかかわらず、この手法は任意の画像に対して忠実に推定し、既存の最先端のアルゴリズムを超越する。
論文 参考訳(メタデータ) (2023-11-30T18:59:44Z) - Diffusion models as plug-and-play priors [98.16404662526101]
我々は、事前の$p(mathbfx)$と補助的な制約である$c(mathbfx,mathbfy)$からなるモデルにおいて、高次元データ$mathbfx$を推論する問題を考える。
拡散モデルの構造は,異なるノイズ量に富んだ定性デノナイジングネットワークを通じて,微分を反復することで近似推論を行うことができる。
論文 参考訳(メタデータ) (2022-06-17T21:11:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。