論文の概要: DepthMatch: Semi-Supervised RGB-D Scene Parsing through Depth-Guided Regularization
- arxiv url: http://arxiv.org/abs/2505.20041v1
- Date: Mon, 26 May 2025 14:26:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:43.508934
- Title: DepthMatch: Semi-Supervised RGB-D Scene Parsing through Depth-Guided Regularization
- Title(参考訳): DepthMatch:depth-Guided Regularizationによる半スーパービジョンRGB-Dシーン解析
- Authors: Jianxin Huang, Jiahang Li, Sergey Vityazev, Alexander Dvorkovich, Rui Fan,
- Abstract要約: 本稿では,RGB-Dシーン解析に特化して設計された半教師付き学習フレームワークDepthMatchを紹介する。
本稿では,RGB-D画像対におけるテクスチャと空間的特徴の潜伏関係を明らかにするために,補間パッチ混在拡大法を提案する。
また,従来の複合核融合モジュールを代替する軽量空間先行インジェクタを設計し,不均一な特徴核融合の効率を向上する。
- 参考スコア(独自算出の注目度): 43.974708665104565
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: RGB-D scene parsing methods effectively capture both semantic and geometric features of the environment, demonstrating great potential under challenging conditions such as extreme weather and low lighting. However, existing RGB-D scene parsing methods predominantly rely on supervised training strategies, which require a large amount of manually annotated pixel-level labels that are both time-consuming and costly. To overcome these limitations, we introduce DepthMatch, a semi-supervised learning framework that is specifically designed for RGB-D scene parsing. To make full use of unlabeled data, we propose complementary patch mix-up augmentation to explore the latent relationships between texture and spatial features in RGB-D image pairs. We also design a lightweight spatial prior injector to replace traditional complex fusion modules, improving the efficiency of heterogeneous feature fusion. Furthermore, we introduce depth-guided boundary loss to enhance the model's boundary prediction capabilities. Experimental results demonstrate that DepthMatch exhibits high applicability in both indoor and outdoor scenes, achieving state-of-the-art results on the NYUv2 dataset and ranking first on the KITTI Semantics benchmark.
- Abstract(参考訳): RGB-Dシーン解析法は環境のセマンティックな特徴と幾何学的特徴の両方を効果的に捉え、極端な天候や低照度といった困難な条件下で大きな可能性を示す。
しかし、既存のRGB-Dシーン解析手法は主に教師付きトレーニング戦略に依存しており、大量の手動注釈付きピクセルレベルラベルが必要であり、時間と費用がかかる。
これらの制限を克服するために,RGB-Dシーン解析用に特別に設計されたセミ教師付き学習フレームワークであるDepthMatchを紹介した。
RGB-D画像対におけるテクスチャと空間的特徴の潜伏関係を探索するために,ラベル付きデータを完全に活用するために補足パッチ混成拡張を提案する。
また,従来の複合核融合モジュールを代替する軽量空間先行インジェクタを設計し,不均一な特徴核融合の効率を向上する。
さらに,モデルの境界予測能力を高めるために,奥行き誘導境界損失を導入する。
実験結果から,DepthMatchは室内および屋外の両方で高い適用性を示し,NYUv2データセットで最先端の結果が得られ,KITTIセマンティックスベンチマークで第1位となった。
関連論文リスト
- Diffusion-based RGB-D Semantic Segmentation with Deformable Attention Transformer [10.982521876026281]
本稿では,RGB-Dセマンティックセグメンテーション問題に対処する拡散型フレームワークを提案する。
本研究では,デフォルマブルアテンション変換器をエンコーダとして利用し,奥行き画像から特徴を抽出することにより,デフォルマブルアテンション変換器の特性を効果的に把握できることを実証する。
論文 参考訳(メタデータ) (2024-09-23T15:23:01Z) - Depth-Guided Semi-Supervised Instance Segmentation [62.80063539262021]
Semi-Supervised Instance (SSIS)は、トレーニング中にラベルなしデータの量を活用することを目的としている。
従来のフレームワークは主に、ラベルなし画像のRGB情報を利用して擬似ラベルを生成する。
この制限を克服するために、Depth-Guided (DG)フレームワークを導入します。
論文 参考訳(メタデータ) (2024-06-25T09:36:50Z) - Symmetric Uncertainty-Aware Feature Transmission for Depth
Super-Resolution [52.582632746409665]
カラー誘導DSRのためのSymmetric Uncertainty-aware Feature Transmission (SUFT)を提案する。
本手法は最先端の手法と比較して優れた性能を実現する。
論文 参考訳(メタデータ) (2023-06-01T06:35:59Z) - Spherical Space Feature Decomposition for Guided Depth Map
Super-Resolution [123.04455334124188]
誘導深度マップ超解像(GDSR)は、低解像度(LR)深度マップに高解像度(HR)RGB画像を含む追加情報を加えることを目的としている。
本稿では,この問題を解決するために,Spherical Space Feature Decomposition Network (SSDNet)を提案する。
提案手法は,4つのテストデータセットの最先端結果と実世界のシーンへの一般化を実現する。
論文 参考訳(メタデータ) (2023-03-15T21:22:21Z) - SpiderMesh: Spatial-aware Demand-guided Recursive Meshing for RGB-T
Semantic Segmentation [13.125707028339292]
本稿では,実用的なRGB-Tセグメンテーションのための空間対応需要誘導型再帰メッシュ(SpiderMesh)フレームワークを提案する。
SpiderMeshは、光学障害領域におけるコンテキストセマンティクスの不十分さを積極的に補償する。
MFNetとPST900データセットの実験は、SpiderMeshが標準的なRGB-Tセグメンテーションベンチマークで最先端のパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2023-03-15T15:24:01Z) - Pyramidal Attention for Saliency Detection [30.554118525502115]
本稿では,RGB画像のみを活用し,RGBから深度を推定し,中間深度特性を利用する。
ピラミッド型アテンション構造を用いて,マルチレベル畳み込み変換器の特徴を抽出し,初期表現の処理を行う。
我々は8つのRGBおよびRGB-Dデータセット上で21と40の最先端SOD法に対する性能を著しく改善したことを報告した。
論文 参考訳(メタデータ) (2022-04-14T06:57:46Z) - Accurate RGB-D Salient Object Detection via Collaborative Learning [101.82654054191443]
RGB-Dサリエンシ検出は、いくつかの課題シナリオにおいて素晴らしい能力を示している。
本稿では,エッジ,深度,塩分濃度をより効率的に活用する新しい協調学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-23T04:33:36Z) - Bi-directional Cross-Modality Feature Propagation with
Separation-and-Aggregation Gate for RGB-D Semantic Segmentation [59.94819184452694]
深度情報はRGBD画像のセマンティックセグメンテーションにおいて有用であることが証明されている。
既存のほとんどの研究は、深度測定がRGBピクセルと正確で整合していると仮定し、問題をモーダルな特徴融合としてモデル化している。
本稿では,RGB特徴量応答を効果的に再検討するだけでなく,複数の段階を通して正確な深度情報を抽出し,代わりに2つの補正表現を集約する,統一的で効率的なクロスモダリティガイドを提案する。
論文 参考訳(メタデータ) (2020-07-17T18:35:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。