論文の概要: CDPR: Cross-modal Diffusion with Polarization for Reliable Monocular Depth Estimation
- arxiv url: http://arxiv.org/abs/2604.11097v1
- Date: Mon, 13 Apr 2026 07:12:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:16.389623
- Title: CDPR: Cross-modal Diffusion with Polarization for Reliable Monocular Depth Estimation
- Title(参考訳): CDPR:信頼性の高い単眼深度推定のための偏光を用いたクロスモーダル拡散
- Authors: Rongjia Yu, Tong Jia, Hao Wang, Xiaofang Li, Xiao Yang, Zinuo Zhang, Cuiwei Liu,
- Abstract要約: CDPRは、推定ロバスト性を高めるために物理的に接地された偏光前処理を統合する新しい拡散ベースのフレームワークである。
また,CDPRは,標準シーンにおける競争性能を維持しつつ,挑戦的な領域においてRGBのみのベースラインを著しく上回ることを示す。
- 参考スコア(独自算出の注目度): 12.658602122161989
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Monocular depth estimation is a fundamental yet challenging task in computer vision, especially under complex conditions such as textureless surfaces, transparency, and specular reflections. Recent diffusion-based approaches have significantly advanced performance by reformulating depth prediction as a denoising process in the latent space. However, existing methods rely solely on RGB inputs, which often lack sufficient cues in challenging regions. In this work, we present CDPR - Cross-modal Diffusion with Polarization for Reliable Monocular Depth Estimation - a novel diffusion-based framework that integrates physically grounded polarization priors to enhance estimation robustness. Specifically, we encode both RGB and polarization (AoLP/DoLP) images into a shared latent space via a pre-trained Variational Autoencoder (VAE), and dynamically fuse multi-modal information through a learnable confidence-aware gating mechanism. This fusion module adaptively suppresses noisy signals in polarization inputs while preserving informative cues, particularly around reflective or transparent surfaces, and provides the integrated latent representation for subsequent monocular depth estimation. Beyond depth estimation, we further verify that our framework can be easily generalized to surface normal prediction with minimal modification, showcasing its scalability to general polarization-guided dense prediction tasks. Experiments on both synthetic and real-world datasets validate that CDPR significantly outperforms RGB-only baselines in challenging regions while maintaining competitive performance in standard scenes.
- Abstract(参考訳): 単眼深度推定はコンピュータビジョンにおける基本的な課題であり、特にテクスチャのない表面、透過性、特異反射のような複雑な条件下では難しい課題である。
近年の拡散型アプローチは,潜伏空間におけるデノナイジング過程として深度予測を再構成することにより,顕著な性能向上を実現している。
しかし、既存の手法はRGB入力のみに依存しており、しばしば挑戦する領域で十分な手がかりを欠いている。
本稿では,CDPR-Cross-modal Diffusion with Polarization for Reliable Monocular Depth Estimationについて述べる。
具体的には、RGBと偏光(AoLP/DoLP)の両方の画像を、事前訓練された変分オートエンコーダ(VAE)を介して共有潜在空間にエンコードし、学習可能な信頼認識ゲーティング機構によって動的にマルチモーダル情報を融合する。
この融合モジュールは、特に反射面や透明表面の情報を保存しながら、偏光入力のノイズ信号を適応的に抑制し、その後の単分子深度推定のための統合潜在表現を提供する。
深度推定以外にも、我々のフレームワークは最小限の修正で通常の予測に容易に一般化できることを検証し、そのスケーラビリティを一般化偏光誘導密度予測タスクに示す。
合成と実世界の両方のデータセットの実験では、CDPRが標準シーンでの競争性能を維持しながら、挑戦する領域でRGBのみのベースラインを著しく上回っていることが確認された。
関連論文リスト
- Conditional Polarization Guidance for Camouflaged Object Detection [5.146223292969599]
擬似物体検出のためのRGB特徴学習を制御するための非対称なRGB偏極フレームワークを提案する。
従来の特徴融合戦略とは異なり、提案した条件付き誘導機構は偏光前処理を用いてRGB特徴を動的に変調する。
また、偏光制約下で高周波成分を増強する偏光エッジ誘導周波数改善戦略を導入する。
論文 参考訳(メタデータ) (2026-03-31T17:03:06Z) - A Single Image and Multimodality Is All You Need for Novel View Synthesis [8.273110298367644]
スパースマルチモーダルレンジ測定を組み込むことによって,拡散に基づくアプローチの限界を克服する上で,単純かつ効果的な方法が提供されることを示す。
本稿では,自動車レーダやLiDARなどの極端にスパースな距離センシングデータを活用するマルチモーダル深度再構成フレームワークを提案する。
本手法は,局所化ガウス過程の定式化を用いて,角領域の深さをモデル化し,計算効率の良い推論を可能にする。
論文 参考訳(メタデータ) (2026-02-20T00:13:11Z) - RGB-Thermal Infrared Fusion for Robust Depth Estimation in Complex Environments [0.0]
本稿では,深度推定精度とロバスト性を向上させるマルチモーダル深度推定モデルRTFusionを提案する。
このモデルは、相互補完的アライメント(MCA)モジュールからなる独自の融合機構であるEGFusionを組み込んでいる。
MS2およびViViD++データセットの実験では、提案モデルが高品質な深度マップを一貫して生成していることが示されている。
論文 参考訳(メタデータ) (2025-03-05T01:35:14Z) - Digging into contrastive learning for robust depth estimation with diffusion models [55.62276027922499]
そこで我々はD4RDと呼ばれる新しい頑健な深度推定法を提案する。
複雑な環境での性能劣化を軽減するために、拡散モデルに適した独自のコントラスト学習モードを備えている。
実験では、D4RDは合成汚職データセットや現実世界の気象条件に関する最先端のソリューションを超越している。
論文 参考訳(メタデータ) (2024-04-15T14:29:47Z) - Robust Depth Enhancement via Polarization Prompt Fusion Tuning [112.88371907047396]
様々な深度センサによる不正確な深度測定を改善するために偏光イメージングを利用するフレームワークを提案する。
まず、偏光データとセンサ深度マップから高密度で完全な深度マップを推定するために、ニューラルネットワークを訓練した学習ベースの戦略を採用する。
大規模データセット上で事前学習したRGBモデルを有効に活用するためのPPFT(Polarization Prompt Fusion Tuning)戦略を提案する。
論文 参考訳(メタデータ) (2024-04-05T17:55:33Z) - Unveiling the Depths: A Multi-Modal Fusion Framework for Challenging
Scenarios [103.72094710263656]
本稿では,学習に基づくフレームワークを用いて,支配的モダリティの奥行きを識別し,統合する手法を提案する。
本稿では,信頼度予測ネットワークを操り,潜在電位深度領域を特定する信頼マップを作成する新しい信頼損失を提案する。
得られた信頼度マップを用いて,最終深度をエンドツーエンドに融合するマルチモーダル融合ネットワークを提案する。
論文 参考訳(メタデータ) (2024-02-19T04:39:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。