論文の概要: PDDM: Pseudo Depth Diffusion Model for RGB-PD Semantic Segmentation Based in Complex Indoor Scenes
- arxiv url: http://arxiv.org/abs/2503.18393v1
- Date: Mon, 24 Mar 2025 07:05:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 14:36:08.142529
- Title: PDDM: Pseudo Depth Diffusion Model for RGB-PD Semantic Segmentation Based in Complex Indoor Scenes
- Title(参考訳): PDDM:複雑な屋内シーンに基づくRGB-PDセマンティックセマンティックセグメンテーションのための擬似深さ拡散モデル
- Authors: Xinhua Xu, Hong Liu, Jianbing Wu, Jinfu Liu,
- Abstract要約: 高精度深度推定アルゴリズムからの擬似深さ(PD)は、RGB-Dセンサやアライメントプロセスへの依存をなくすことができる。
PDはセマンティックセグメンテーションにおいて有意な潜在性を示した。
PDは複数の擬似深度写像を単一のモードに集約する。
PDは最先端のパフォーマンスを達成し、NYUv2では+6.98 mIoU、SUNRGB-Dでは+2.11 mIoUに勝る。
- 参考スコア(独自算出の注目度): 6.698379291727345
- License:
- Abstract: The integration of RGB and depth modalities significantly enhances the accuracy of segmenting complex indoor scenes, with depth data from RGB-D cameras playing a crucial role in this improvement. However, collecting an RGB-D dataset is more expensive than an RGB dataset due to the need for specialized depth sensors. Aligning depth and RGB images also poses challenges due to sensor positioning and issues like missing data and noise. In contrast, Pseudo Depth (PD) from high-precision depth estimation algorithms can eliminate the dependence on RGB-D sensors and alignment processes, as well as provide effective depth information and show significant potential in semantic segmentation. Therefore, to explore the practicality of utilizing pseudo depth instead of real depth for semantic segmentation, we design an RGB-PD segmentation pipeline to integrate RGB and pseudo depth and propose a Pseudo Depth Aggregation Module (PDAM) for fully exploiting the informative clues provided by the diverse pseudo depth maps. The PDAM aggregates multiple pseudo depth maps into a single modality, making it easily adaptable to other RGB-D segmentation methods. In addition, the pre-trained diffusion model serves as a strong feature extractor for RGB segmentation tasks, but multi-modal diffusion-based segmentation methods remain unexplored. Therefore, we present a Pseudo Depth Diffusion Model (PDDM) that adopts a large-scale text-image diffusion model as a feature extractor and a simple yet effective fusion strategy to integrate pseudo depth. To verify the applicability of pseudo depth and our PDDM, we perform extensive experiments on the NYUv2 and SUNRGB-D datasets. The experimental results demonstrate that pseudo depth can effectively enhance segmentation performance, and our PDDM achieves state-of-the-art performance, outperforming other methods by +6.98 mIoU on NYUv2 and +2.11 mIoU on SUNRGB-D.
- Abstract(参考訳): RGB-Dカメラの奥行きデータによって、複雑な屋内シーンのセグメンテーションの精度を大幅に向上させる。
しかし、特殊な深度センサーを必要とするため、RGB-Dデータセットの収集はRGBデータセットよりも高価である。
奥行きやRGB画像の調整は、センサーの位置決めや、データ不足やノイズなどの問題によっても問題となる。
対照的に、高精度深度推定アルゴリズムからの擬似深度(PD)は、RGB-Dセンサやアライメントプロセスへの依存を排除し、効果的な深度情報を提供し、セマンティックセグメンテーションにおいて有意義なポテンシャルを示す。
そこで本研究では,RGBと擬似深度を統合するためのRGB-PDセグメンテーションパイプラインを設計し,擬似深度マップが提供する情報的手がかりをフル活用するための擬似深度アグリゲーションモジュール(PDAM)を提案する。
PDAMは複数の擬似深度マップを単一のモードに集約し、他のRGB-Dセグメンテーション法に容易に適応できる。
さらに、事前学習された拡散モデルは、RGBセグメンテーションタスクの強力な特徴抽出器として機能するが、マルチモーダル拡散に基づくセグメンテーション手法は未探索のままである。
そこで本研究では,大規模テキスト画像拡散モデルを特徴抽出器として採用し,擬似深度を統合するための簡易かつ効果的な融合戦略である擬似深度拡散モデル(PDDM)を提案する。
擬似深度とPDDMの適用性を検証するため,我々はNYUv2とSUNRGB-Dデータセットについて広範囲にわたる実験を行った。
実験の結果, 擬似深度はセグメント化性能を効果的に向上し, PDDMは, NYUv2では+6.98 mIoU, SUNRGB-Dでは+2.11 mIoUよりも優れ, 最先端性能を実現していることがわかった。
関連論文リスト
- RBF Weighted Hyper-Involution for RGB-D Object Detection [0.0]
リアルタイムと2つのストリームRGBDオブジェクト検出モデルを提案する。
提案モデルでは, 深度誘導型ハイパーインボリューションを生深度マップの空間的相互作用パターンに基づいて動的に適応する深度誘導型ハイパーインボリューションと, アップサンプリングに基づくトレーニング可能な融合層からなる。
提案モデルは,NYU Depth v2データセットで他のRGB-Dベースオブジェクト検出モデルよりも優れており,SUN RGB-Dで比較した(第2位)結果が得られることを示す。
論文 参考訳(メタデータ) (2023-09-30T11:25:34Z) - Symmetric Uncertainty-Aware Feature Transmission for Depth
Super-Resolution [52.582632746409665]
カラー誘導DSRのためのSymmetric Uncertainty-aware Feature Transmission (SUFT)を提案する。
本手法は最先端の手法と比較して優れた性能を実現する。
論文 参考訳(メタデータ) (2023-06-01T06:35:59Z) - RGB-D Grasp Detection via Depth Guided Learning with Cross-modal
Attention [14.790193023912973]
本稿では,DGCAN(Depth Guided Cross-modal Attention Network)を用いた新しい学習手法を提案する。
深度チャネルに記録された幾何情報をよりよく活用するために、全6次元矩形表現を専用に考慮して採用する。
余分な掴み深度の予測は特徴学習を大幅に強化し、より正確な結果をもたらす。
論文 参考訳(メタデータ) (2023-02-28T02:41:27Z) - Pyramidal Attention for Saliency Detection [30.554118525502115]
本稿では,RGB画像のみを活用し,RGBから深度を推定し,中間深度特性を利用する。
ピラミッド型アテンション構造を用いて,マルチレベル畳み込み変換器の特徴を抽出し,初期表現の処理を行う。
我々は8つのRGBおよびRGB-Dデータセット上で21と40の最先端SOD法に対する性能を著しく改善したことを報告した。
論文 参考訳(メタデータ) (2022-04-14T06:57:46Z) - Joint Learning of Salient Object Detection, Depth Estimation and Contour
Extraction [91.43066633305662]
RGB-D Salient Object Detection (SOD) のための新しいマルチタスク・マルチモーダルフィルタトランス (MMFT) ネットワークを提案する。
具体的には、深度推定、健全な物体検出、輪郭推定の3つの相補的なタスクを統合する。マルチタスク機構は、タスク認識の特徴を補助タスクから学習するためのモデルを促進する。
実験の結果、複数のデータセット上での深度に基づくRGB-D SOD法をはるかに上回るだけでなく、高品質の深度マップと塩分濃度を同時に正確に予測できることがわかった。
論文 参考訳(メタデータ) (2022-03-09T17:20:18Z) - Boosting RGB-D Saliency Detection by Leveraging Unlabeled RGB Images [89.81919625224103]
RGB-D Salient Object Detection (SOD) のための深層モデルの訓練は、しばしば多数のラベル付きRGB-D画像を必要とする。
本稿では、ラベルのないRGB画像を活用するために、Dual-Semi RGB-D Salient Object Detection Network (DS-Net)を提案する。
論文 参考訳(メタデータ) (2022-01-01T03:02:27Z) - Cross-modality Discrepant Interaction Network for RGB-D Salient Object
Detection [78.47767202232298]
本稿では,RGB-D SODのためのクロスモダリティ離散相互作用ネットワーク(CDINet)を提案する。
2つのコンポーネントは、効果的な相互モダリティ相互作用を実装するように設計されている。
我々のネットワークは、定量的にも質的にも15ドルの最先端の手法より優れています。
論文 参考訳(メタデータ) (2021-08-04T11:24:42Z) - Deep RGB-D Saliency Detection with Depth-Sensitive Attention and
Automatic Multi-Modal Fusion [15.033234579900657]
RGB-Dサラエントオブジェクト検出(SOD)は通常、2つのモダリティ、すなわちRGBと深さの分類または回帰の問題として定式化される。
本稿では,salient objectsの奥行き方向幾何学的前置を用いた深さ感応型rgb特徴モデリング手法を提案する。
7つの標準ベンチマークに関する実験は、最先端技術に対する提案手法の有効性を示している。
論文 参考訳(メタデータ) (2021-03-22T13:28:45Z) - Dual Pixel Exploration: Simultaneous Depth Estimation and Image
Restoration [77.1056200937214]
本研究では,ぼかしと深度情報をリンクするDPペアの形成について検討する。
本稿では,画像の深さを共同で推定し,復元するためのエンドツーエンドDDDNet(DPベースのDepth and De Network)を提案する。
論文 参考訳(メタデータ) (2020-12-01T06:53:57Z) - Bi-directional Cross-Modality Feature Propagation with
Separation-and-Aggregation Gate for RGB-D Semantic Segmentation [59.94819184452694]
深度情報はRGBD画像のセマンティックセグメンテーションにおいて有用であることが証明されている。
既存のほとんどの研究は、深度測定がRGBピクセルと正確で整合していると仮定し、問題をモーダルな特徴融合としてモデル化している。
本稿では,RGB特徴量応答を効果的に再検討するだけでなく,複数の段階を通して正確な深度情報を抽出し,代わりに2つの補正表現を集約する,統一的で効率的なクロスモダリティガイドを提案する。
論文 参考訳(メタデータ) (2020-07-17T18:35:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。