論文の概要: Jasmine: Harnessing Diffusion Prior for Self-supervised Depth Estimation
- arxiv url: http://arxiv.org/abs/2503.15905v1
- Date: Thu, 20 Mar 2025 07:15:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-21 16:35:39.819925
- Title: Jasmine: Harnessing Diffusion Prior for Self-supervised Depth Estimation
- Title(参考訳): ジャスミン氏:自己監督深度推定に先立って拡散を悩ませる
- Authors: Jiyuan Wang, Chunyu Lin, Cheng Guan, Lang Nie, Jing He, Haodong Li, Kang Liao, Yao Zhao,
- Abstract要約: ジャスミン(Jasmine)は、単分子深度推定のための安定拡散に基づく自己教師型フレームワークである。
SDの視覚的先行性を利用して、教師なし予測のシャープネスと一般化を強化する。
KITTIベンチマークでSoTAのパフォーマンスを達成し、複数のデータセットにまたがる優れたゼロショット一般化を示す。
- 参考スコア(独自算出の注目度): 55.501710766726234
- License:
- Abstract: In this paper, we propose Jasmine, the first Stable Diffusion (SD)-based self-supervised framework for monocular depth estimation, which effectively harnesses SD's visual priors to enhance the sharpness and generalization of unsupervised prediction. Previous SD-based methods are all supervised since adapting diffusion models for dense prediction requires high-precision supervision. In contrast, self-supervised reprojection suffers from inherent challenges (e.g., occlusions, texture-less regions, illumination variance), and the predictions exhibit blurs and artifacts that severely compromise SD's latent priors. To resolve this, we construct a novel surrogate task of hybrid image reconstruction. Without any additional supervision, it preserves the detail priors of SD models by reconstructing the images themselves while preventing depth estimation from degradation. Furthermore, to address the inherent misalignment between SD's scale and shift invariant estimation and self-supervised scale-invariant depth estimation, we build the Scale-Shift GRU. It not only bridges this distribution gap but also isolates the fine-grained texture of SD output against the interference of reprojection loss. Extensive experiments demonstrate that Jasmine achieves SoTA performance on the KITTI benchmark and exhibits superior zero-shot generalization across multiple datasets.
- Abstract(参考訳): 本稿では,SDの視覚的優位性を効果的に活用し,教師なし予測のシャープネスと一般化を効果的に活用する,初めての安定拡散(SD)に基づく単眼深度推定フレームワークであるJasmineを提案する。
密度予測に拡散モデルを適用するためには高精度の監視が必要であるため、従来のSDベースの手法はすべて監視されている。
対照的に、自己監督的再計画は固有の課題(例えば、オクルージョン、テクスチャのない領域、照明のばらつき)に悩まされ、予測はSDの潜伏した先行を著しく損なうぼやけや人工物を示す。
そこで我々は,ハイブリッド画像再構成のための新しいサロゲートタスクを構築した。
追加の監視がなければ、画像自体を再構成し、深度推定を劣化から防ぎ、SDモデルの詳細を保存できる。
さらに,SDのスケールとシフト不変度推定と自己教師付きスケール不変度推定との相違に対処するため,スケールシフトGRUを構築した。
この分布ギャップを橋渡しするだけでなく、再射損失の干渉に対してSD出力のきめ細かいテクスチャを分離する。
大規模な実験により、JasmineはKITTIベンチマークでSoTAのパフォーマンスを達成し、複数のデータセットにわたって優れたゼロショットの一般化を示す。
関連論文リスト
- How to Use Diffusion Priors under Sparse Views? [29.738350228085928]
Inline Prior Guided Score Matching is proposed to provide visual supervision over sparse view in 3D reconstruction。
提案手法は,最先端の復元品質を実現する。
論文 参考訳(メタデータ) (2024-12-03T07:31:54Z) - GroCo: Ground Constraint for Metric Self-Supervised Monocular Depth [2.805351469151152]
本稿では,自己監督パラダイムに特化して設計された地盤領域に関する新しい制約を提案する。
このメカニズムはスケールを正確に回復するだけでなく、深度予測と地上とのコヒーレンスを確保する。
論文 参考訳(メタデータ) (2024-09-23T09:30:27Z) - Unsupervised Monocular Depth Estimation Based on Hierarchical Feature-Guided Diffusion [21.939618694037108]
教師なし単分子深度推定は、地上の真実を示さずに訓練できるため、広く注目を集めている。
我々は、教師なし単眼深度推定のために、生成ネットワーク間でよく収束する拡散モデルを用いる。
このモデルは深度分布の学習と解釈の能力を大幅に向上させる。
論文 参考訳(メタデータ) (2024-06-14T07:31:20Z) - Uncertainty-guided Optimal Transport in Depth Supervised Sparse-View 3D Gaussian [49.21866794516328]
3次元ガウシアンスプラッティングは、リアルタイムな新規ビュー合成において顕著な性能を示した。
これまでのアプローチでは、3Dガウスの訓練に奥行き監視を取り入れ、オーバーフィッティングを軽減してきた。
本研究では,3次元ガウスの深度分布を可視化する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-05-30T03:18:30Z) - Exploiting Diffusion Prior for Generalizable Dense Prediction [85.4563592053464]
近年のテキスト・トゥ・イメージ(T2I)拡散モデルでは、既成の高密度予測器では予測できないことがある。
我々は,事前学習したT2Iモデルを用いたパイプラインDMPを,高密度予測タスクの先駆けとして導入する。
限られたドメインのトレーニングデータにもかかわらず、この手法は任意の画像に対して忠実に推定し、既存の最先端のアルゴリズムを超越する。
論文 参考訳(メタデータ) (2023-11-30T18:59:44Z) - FG-Depth: Flow-Guided Unsupervised Monocular Depth Estimation [17.572459787107427]
そこで本研究では,典型的な測光損失を代替する流量蒸留損失と,不適切な画素を除去するための前向きフローベースマスクを提案する。
提案手法は,KITTIとNYU-Depth-v2の両方のデータセットの最先端結果を実現する。
論文 参考訳(メタデータ) (2023-01-20T04:02:13Z) - ShadowDiffusion: When Degradation Prior Meets Diffusion Model for Shadow
Removal [74.86415440438051]
画像と劣化先行情報を統合した統合拡散フレームワークを提案する。
SRDデータセット上でのPSNRは31.69dBから34.73dBへと大幅に向上した。
論文 参考訳(メタデータ) (2022-12-09T07:48:30Z) - Uncertainty-Aware Adaptation for Self-Supervised 3D Human Pose
Estimation [70.32536356351706]
本稿では、2つの出力ヘッドを2つの異なる構成にサブスクライブする共通のディープネットワークバックボーンを構成するMPP-Netを紹介する。
ポーズと関節のレベルで予測の不確実性を定量化するための適切な尺度を導出する。
本稿では,提案手法の総合評価を行い,ベンチマークデータセット上での最先端性能を示す。
論文 参考訳(メタデータ) (2022-03-29T07:14:58Z) - A high-precision self-supervised monocular visual odometry in foggy
weather based on robust cycled generative adversarial networks and multi-task
learning aided depth estimation [0.0]
本稿では,霧の天候下でのナビゲーションに特化して設計された,高精度な自己監督型単分子VOを提案する。
サイクル生成対向ネットワークは、前と後ろの半サイクルに一貫した推定を強制することで、高品質な自己監督的損失を得るように設計されている。
霧の天候における自己監督的損失に対する複雑な光度変化の干渉を取り除くため、勾配に基づく損失と知覚的損失が導入された。
論文 参考訳(メタデータ) (2022-03-09T15:41:57Z) - Adaptive confidence thresholding for monocular depth estimation [83.06265443599521]
本稿では,自己教師付ステレオマッチング法から生成されたステレオ画像の擬似地上真実深度マップを利用する新しい手法を提案する。
擬似地底深度マップの信頼度マップを推定し、不正確な擬似地底深度マップによる性能劣化を緩和する。
実験結果から, 最先端の単分子深度推定法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2020-09-27T13:26:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。