論文の概要: DCANet: Differential Convolution Attention Network for RGB-D Semantic
Segmentation
- arxiv url: http://arxiv.org/abs/2210.06747v1
- Date: Thu, 13 Oct 2022 05:17:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-18 20:48:01.300395
- Title: DCANet: Differential Convolution Attention Network for RGB-D Semantic
Segmentation
- Title(参考訳): DCANet:RGB-Dセマンティックセグメンテーションのための差分畳み込み注意ネットワーク
- Authors: Lizhi Bai and Jun Yang and Chunqi Tian and Yaoru Sun and Maoyu Mao and
Yanjun Xu and Weirong Xu
- Abstract要約: 深度データに対する幾何情報と局所範囲相関を考慮した画素差分畳み込みアテンション(DCA)モジュールを提案する。
DCAを拡張して、長距離コンテキスト依存を伝播する差分畳み込み注意(EDCA)をアンサンブルする。
DCAとEDCAで構築された2分岐ネットワークである差分畳み込みネットワーク(DCANet)は、2モーダルデータのローカルおよびグローバルな情報を融合するために提案されている。
- 参考スコア(独自算出の注目度): 2.2032272277334375
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Combining RGB images and the corresponding depth maps in semantic
segmentation proves the effectiveness in the past few years. Existing RGB-D
modal fusion methods either lack the non-linear feature fusion ability or treat
both modal images equally, regardless of the intrinsic distribution gap or
information loss. Here we find that depth maps are suitable to provide
intrinsic fine-grained patterns of objects due to their local depth continuity,
while RGB images effectively provide a global view. Based on this, we propose a
pixel differential convolution attention (DCA) module to consider geometric
information and local-range correlations for depth data. Furthermore, we extend
DCA to ensemble differential convolution attention (EDCA) which propagates
long-range contextual dependencies and seamlessly incorporates spatial
distribution for RGB data. DCA and EDCA dynamically adjust convolutional
weights by pixel difference to enable self-adaptive in local and long range,
respectively. A two-branch network built with DCA and EDCA, called Differential
Convolutional Network (DCANet), is proposed to fuse local and global
information of two-modal data. Consequently, the individual advantage of RGB
and depth data are emphasized. Our DCANet is shown to set a new
state-of-the-art performance for RGB-D semantic segmentation on two challenging
benchmark datasets, i.e., NYUDv2 and SUN-RGBD.
- Abstract(参考訳): セマンティックセグメンテーションにおけるRGB画像と対応する深度マップを組み合わせることで、過去数年間の有効性が証明された。
既存のRGB-Dモーダル融合法には非線形特徴融合能力がないか、本質的な分布ギャップや情報損失に関わらず、両方のモーダル画像が等しく扱われる。
ここでは、深度マップは、その局所的な深度連続性に起因する物体の固有細粒度パターンを提供するのに適しており、RGB画像は、効果的にグローバルビューを提供する。
本研究では,深度データに対する幾何学的情報と局所的距離相関を考えるために,画素差畳み込み注意(dca)モジュールを提案する。
さらに,dcaを長距離の文脈依存性を伝搬し,rgbデータに空間分布をシームレスに組み込む微分畳み込み注意 (edca) に拡張する。
DCAとEDCAは、画素差による畳み込み重みを動的に調整し、それぞれ局所および長距離での自己適応を可能にする。
DCAとEDCAで構築された2分岐ネットワークである差分畳み込みネットワーク(DCANet)は、2モーダルデータのローカルおよびグローバル情報を融合するために提案される。
これにより、RGBと深度データの個々の利点が強調される。
DCANetは、2つの挑戦的なベンチマークデータセット、すなわちNYUDv2とSUN-RGBDに対して、RGB-Dセマンティックセグメンテーションのための最先端のパフォーマンスを新たに設定する。
関連論文リスト
- Diffusion-based RGB-D Semantic Segmentation with Deformable Attention Transformer [10.982521876026281]
本稿では,RGB-Dセマンティックセグメンテーション問題に対処する拡散型フレームワークを提案する。
本研究では,デフォルマブルアテンション変換器をエンコーダとして利用し,奥行き画像から特徴を抽出することにより,デフォルマブルアテンション変換器の特性を効果的に把握できることを実証する。
論文 参考訳(メタデータ) (2024-09-23T15:23:01Z) - The Devil is in the Details: Boosting Guided Depth Super-Resolution via
Rethinking Cross-Modal Alignment and Aggregation [41.12790340577986]
誘導深度超解像(GDSR)は、同じシーンの高解像度のRGB画像を用いて、行方不明の深度の詳細を復元する。
それまでのアプローチでは、マルチモーダル入力の不均一性と相補性に苦慮し、モーダルなミスアライメント、幾何学的なミスアライメント、特徴選択といった問題を無視してきた。
論文 参考訳(メタデータ) (2024-01-16T05:37:08Z) - Pixel Difference Convolutional Network for RGB-D Semantic Segmentation [2.334574428469772]
RGB-Dセマンティックセグメンテーションは、深度データの可用性のために畳み込みニューラルネットワークによって前進することができる。
固定グリッドカーネル構造を考えると、CNNは詳細できめ細かい情報をキャプチャする能力に限られる。
本稿では,差分畳み込みネットワーク(PDCNet)を提案する。
論文 参考訳(メタデータ) (2023-02-23T12:01:22Z) - CIR-Net: Cross-modality Interaction and Refinement for RGB-D Salient
Object Detection [144.66411561224507]
本稿では,CIR-Netと呼ばれる畳み込みニューラルネットワーク(CNN)モデルを提案する。
我々のネットワークは、定性的かつ定量的に最先端の塩分濃度検出器より優れています。
論文 参考訳(メタデータ) (2022-10-06T11:59:19Z) - Dual Swin-Transformer based Mutual Interactive Network for RGB-D Salient
Object Detection [67.33924278729903]
本研究では,Dual Swin-Transformerを用いたMutual Interactive Networkを提案する。
視覚入力における長距離依存をモデル化するために,RGBと奥行きモードの両方の機能抽出器としてSwin-Transformerを採用している。
5つの標準RGB-D SODベンチマークデータセットに関する総合的な実験は、提案手法の優位性を実証している。
論文 参考訳(メタデータ) (2022-06-07T08:35:41Z) - Boosting RGB-D Saliency Detection by Leveraging Unlabeled RGB Images [89.81919625224103]
RGB-D Salient Object Detection (SOD) のための深層モデルの訓練は、しばしば多数のラベル付きRGB-D画像を必要とする。
本稿では、ラベルのないRGB画像を活用するために、Dual-Semi RGB-D Salient Object Detection Network (DS-Net)を提案する。
論文 参考訳(メタデータ) (2022-01-01T03:02:27Z) - Cross-modality Discrepant Interaction Network for RGB-D Salient Object
Detection [78.47767202232298]
本稿では,RGB-D SODのためのクロスモダリティ離散相互作用ネットワーク(CDINet)を提案する。
2つのコンポーネントは、効果的な相互モダリティ相互作用を実装するように設計されている。
我々のネットワークは、定量的にも質的にも15ドルの最先端の手法より優れています。
論文 参考訳(メタデータ) (2021-08-04T11:24:42Z) - Self-Supervised Representation Learning for RGB-D Salient Object
Detection [93.17479956795862]
我々は、自己教師付き表現学習を用いて、クロスモーダルオートエンコーダと深さ-輪郭推定という2つのプレテキストタスクを設計する。
我々のプレテキストタスクは、ネットワークがリッチなセマンティックコンテキストをキャプチャする事前トレーニングを実行するのに、少数のRGB-Dデータセットしか必要としない。
RGB-D SODにおけるクロスモーダル核融合の固有の問題として,マルチパス核融合モジュールを提案する。
論文 参考訳(メタデータ) (2021-01-29T09:16:06Z) - Bi-directional Cross-Modality Feature Propagation with
Separation-and-Aggregation Gate for RGB-D Semantic Segmentation [59.94819184452694]
深度情報はRGBD画像のセマンティックセグメンテーションにおいて有用であることが証明されている。
既存のほとんどの研究は、深度測定がRGBピクセルと正確で整合していると仮定し、問題をモーダルな特徴融合としてモデル化している。
本稿では,RGB特徴量応答を効果的に再検討するだけでなく,複数の段階を通して正確な深度情報を抽出し,代わりに2つの補正表現を集約する,統一的で効率的なクロスモダリティガイドを提案する。
論文 参考訳(メタデータ) (2020-07-17T18:35:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。