論文の概要: HDBFormer: Efficient RGB-D Semantic Segmentation with A Heterogeneous Dual-Branch Framework
- arxiv url: http://arxiv.org/abs/2504.13579v1
- Date: Fri, 18 Apr 2025 09:29:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-28 16:29:43.227324
- Title: HDBFormer: Efficient RGB-D Semantic Segmentation with A Heterogeneous Dual-Branch Framework
- Title(参考訳): HDBFormer: 異種デュアルブランチフレームワークによる効率的なRGB-Dセマンティックセグメンテーション
- Authors: Shuobin Wei, Zhuang Zhou, Zhengan Lu, Zizhao Yuan, Binghua Su,
- Abstract要約: 屋内シーンのRGB-Dセマンティックセグメンテーションにおいて、RGB画像からのリッチな色情報と奥行き画像からの空間的距離情報とを効果的に統合することが重要な課題である。
本稿では,HDBFormerと呼ばれる新しい異種二分岐フレームワークを提案する。
リッチディテールを含むRGB画像に対しては,局所的特徴とグローバルな特徴を抽出するために,基本および詳細エンコーダを併用する。
より単純な深度画像に対して,より少ないパラメータで効率的に深度特徴を抽出する軽量階層エンコーダLDFormerを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In RGB-D semantic segmentation for indoor scenes, a key challenge is effectively integrating the rich color information from RGB images with the spatial distance information from depth images. However, most existing methods overlook the inherent differences in how RGB and depth images express information. Properly distinguishing the processing of RGB and depth images is essential to fully exploiting their unique and significant characteristics. To address this, we propose a novel heterogeneous dual-branch framework called HDBFormer, specifically designed to handle these modality differences. For RGB images, which contain rich detail, we employ both a basic and detail encoder to extract local and global features. For the simpler depth images, we propose LDFormer, a lightweight hierarchical encoder that efficiently extracts depth features with fewer parameters. Additionally, we introduce the Modality Information Interaction Module (MIIM), which combines transformers with large kernel convolutions to interact global and local information across modalities efficiently. Extensive experiments show that HDBFormer achieves state-of-the-art performance on the NYUDepthv2 and SUN-RGBD datasets. The code is available at: https://github.com/Weishuobin/HDBFormer.
- Abstract(参考訳): 屋内シーンのRGB-Dセマンティックセグメンテーションにおいて、RGB画像からのリッチな色情報と奥行き画像からの空間的距離情報とを効果的に統合することが重要な課題である。
しかし、既存のほとんどの手法は、RGBと深度画像が情報を表現する方法に固有の違いを見落としている。
RGBと深度画像の処理を適切に区別することは、その特徴と重要な特徴を完全に活用するために不可欠である。
そこで本研究では,HDBFormerという異種二分岐フレームワークを提案する。
リッチディテールを含むRGB画像に対しては,局所的特徴とグローバルな特徴を抽出するために,基本および詳細エンコーダを併用する。
より単純な深度画像に対して,より少ないパラメータで効率的に深度特徴を抽出する軽量階層エンコーダLDFormerを提案する。
さらに、トランスフォーマーと大きなカーネルの畳み込みを組み合わせたModality Information Interaction Module (MIIM)を導入し、モジュール間のグローバルおよびローカル情報を効率的にやり取りする。
大規模な実験により、HDBFormerはNYUDepthv2とSUN-RGBDデータセット上で最先端のパフォーマンスを達成した。
コードは、https://github.com/Weishuobin/HDBFormer.comで入手できる。
関連論文リスト
- DFormerv2: Geometry Self-Attention for RGBD Semantic Segmentation [66.7989548848166]
既存のアプローチでは、深度マップとRGBイメージをエンコードし、それらの間に特徴融合を行い、より堅牢な予測を可能にする。
我々はDFormerv2という強力なRGBDエンコーダを提案し、ニューラルネットワークで深度情報をエンコードするのではなく、深度マップを幾何先行として明示的に利用する。
我々のゴールは、すべての画像パッチトークンの深さと空間距離から幾何学的手がかりを抽出し、それを用いて、自己注意における注意重みを割り当てることである。
論文 参考訳(メタデータ) (2025-04-07T03:06:07Z) - Diffusion-based RGB-D Semantic Segmentation with Deformable Attention Transformer [10.982521876026281]
本稿では,RGB-Dセマンティックセグメンテーション問題に対処する拡散型フレームワークを提案する。
本研究では,デフォルマブルアテンション変換器をエンコーダとして利用し,奥行き画像から特徴を抽出することにより,デフォルマブルアテンション変換器の特性を効果的に把握できることを実証する。
論文 参考訳(メタデータ) (2024-09-23T15:23:01Z) - Semantic RGB-D Image Synthesis [22.137419841504908]
この問題に対処するために,意味的RGB-D画像合成を導入する。
しかし、現在のアプローチはユニモーダルであり、マルチモーダルデータには対応できない。
意味的レイアウトのモーダル非依存情報とモーダル依存情報とを分離したマルチモーダルデータのジェネレータを提案する。
論文 参考訳(メタデータ) (2023-08-22T11:16:24Z) - Spherical Space Feature Decomposition for Guided Depth Map
Super-Resolution [123.04455334124188]
誘導深度マップ超解像(GDSR)は、低解像度(LR)深度マップに高解像度(HR)RGB画像を含む追加情報を加えることを目的としている。
本稿では,この問題を解決するために,Spherical Space Feature Decomposition Network (SSDNet)を提案する。
提案手法は,4つのテストデータセットの最先端結果と実世界のシーンへの一般化を実現する。
論文 参考訳(メタデータ) (2023-03-15T21:22:21Z) - Robust Double-Encoder Network for RGB-D Panoptic Segmentation [31.807572107839576]
パノプティックセグメンテーションは、ピクセルワイズセマンティックラベルをインスタンスIDと共に計算することでシーンの解釈を提供する。
本稿では、2つのエンコーダを通してRGBと深さを別々に処理する新しいエンコーダデコーダニューラルネットワークを提案する。
提案手法は,他の汎視的セグメンテーション手法と比較して,優れた結果が得られることを示す。
論文 参考訳(メタデータ) (2022-10-06T11:46:37Z) - RGB-D Saliency Detection via Cascaded Mutual Information Minimization [122.8879596830581]
既存のRGB-Dサリエンシ検出モデルは、RGBと深さを効果的にマルチモーダル学習を実現するために明示的に奨励するものではない。
本稿では,RGB画像と深度データ間のマルチモーダル情報を「明示的」にモデル化するために,相互情報最小化による新しい多段階学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-15T12:31:27Z) - Cross-modality Discrepant Interaction Network for RGB-D Salient Object
Detection [78.47767202232298]
本稿では,RGB-D SODのためのクロスモダリティ離散相互作用ネットワーク(CDINet)を提案する。
2つのコンポーネントは、効果的な相互モダリティ相互作用を実装するように設計されている。
我々のネットワークは、定量的にも質的にも15ドルの最先端の手法より優れています。
論文 参考訳(メタデータ) (2021-08-04T11:24:42Z) - Bi-directional Cross-Modality Feature Propagation with
Separation-and-Aggregation Gate for RGB-D Semantic Segmentation [59.94819184452694]
深度情報はRGBD画像のセマンティックセグメンテーションにおいて有用であることが証明されている。
既存のほとんどの研究は、深度測定がRGBピクセルと正確で整合していると仮定し、問題をモーダルな特徴融合としてモデル化している。
本稿では,RGB特徴量応答を効果的に再検討するだけでなく,複数の段階を通して正確な深度情報を抽出し,代わりに2つの補正表現を集約する,統一的で効率的なクロスモダリティガイドを提案する。
論文 参考訳(メタデータ) (2020-07-17T18:35:24Z) - Is Depth Really Necessary for Salient Object Detection? [50.10888549190576]
本稿では,RGB情報のみを推論の入力とする統合深度認識フレームワークの実現に向けた最初の試みを行う。
5つの公開RGB SODベンチマークの最先端のパフォーマンスを上回るだけでなく、5つのベンチマークのRGBDベースのメソッドを大きく上回っている。
論文 参考訳(メタデータ) (2020-05-30T13:40:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。