論文の概要: Dual Swin-Transformer based Mutual Interactive Network for RGB-D Salient
Object Detection
- arxiv url: http://arxiv.org/abs/2206.03105v1
- Date: Tue, 7 Jun 2022 08:35:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-09 01:39:44.033754
- Title: Dual Swin-Transformer based Mutual Interactive Network for RGB-D Salient
Object Detection
- Title(参考訳): RGB-D Salient Object Detectionのためのデュアルスウィントランスを用いた相互対話ネットワーク
- Authors: Chao Zeng and Sam Kwong
- Abstract要約: 本研究では,Dual Swin-Transformerを用いたMutual Interactive Networkを提案する。
視覚入力における長距離依存をモデル化するために,RGBと奥行きモードの両方の機能抽出器としてSwin-Transformerを採用している。
5つの標準RGB-D SODベンチマークデータセットに関する総合的な実験は、提案手法の優位性を実証している。
- 参考スコア(独自算出の注目度): 67.33924278729903
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Salient Object Detection is the task of predicting the human attended region
in a given scene. Fusing depth information has been proven effective in this
task. The main challenge of this problem is how to aggregate the complementary
information from RGB modality and depth modality. However, conventional deep
models heavily rely on CNN feature extractors, and the long-range contextual
dependencies are usually ignored. In this work, we propose Dual
Swin-Transformer based Mutual Interactive Network. We adopt Swin-Transformer as
the feature extractor for both RGB and depth modality to model the long-range
dependencies in visual inputs. Before fusing the two branches of features into
one, attention-based modules are applied to enhance features from each
modality. We design a self-attention-based cross-modality interaction module
and a gated modality attention module to leverage the complementary information
between the two modalities. For the saliency decoding, we create different
stages enhanced with dense connections and keep a decoding memory while the
multi-level encoding features are considered simultaneously. Considering the
inaccurate depth map issue, we collect the RGB features of early stages into a
skip convolution module to give more guidance from RGB modality to the final
saliency prediction. In addition, we add edge supervision to regularize the
feature learning process. Comprehensive experiments on five standard RGB-D SOD
benchmark datasets over four evaluation metrics demonstrate the superiority of
the proposed DTMINet method.
- Abstract(参考訳): Salient Object Detectionは、与えられたシーンにおける人間の参加領域を予測するタスクである。
この作業では, 深度情報の拡散が有効であることが証明されている。
この問題の主な課題は、RGBのモダリティと深さのモダリティから補完情報を集約する方法である。
しかし、従来のディープモデルはCNNの特徴抽出器に大きく依存しており、長い範囲のコンテキスト依存は通常無視される。
本研究では,Dual Swin-Transformerを用いたMutual Interactive Networkを提案する。
視覚入力における長距離依存をモデル化するために,RGBと奥行きモードの両方の機能抽出器としてSwin-Transformerを採用している。
2つの特徴分枝を1つに融合する前に、各モダリティから特徴を強化するために注意ベースのモジュールが適用される。
我々は,2つのモード間の相補的な情報を活用するために,自己注意に基づく相互モダリティ相互作用モジュールとゲートモードアテンションモジュールを設計する。
耐塩性復号化では,多レベル符号化機能が同時に考慮される間,密結合により拡張された異なるステージを作成し,デコードメモリを保持する。
不正確な深度マップ問題を考慮して,初期段階のrgb特徴をスキップ畳み込みモジュールに収集し,rgbモダリティから最終塩分予測へのガイダンスを与える。
さらに、特徴学習プロセスの標準化にエッジ監視を追加します。
4つの評価指標を用いた標準RGB-D SODベンチマークデータセットの総合実験により,提案手法の優位性を示した。
関連論文リスト
- HODINet: High-Order Discrepant Interaction Network for RGB-D Salient
Object Detection [4.007827908611563]
RGB-D Salient Object Detection (SOD) は、RGBと深度情報を共同でモデル化することで、顕著な領域を検出することを目的としている。
ほとんどのRGB-D SOD法は、同じ種類のバックボーンと融合モジュールを適用して、マルチモーダリティとマルチステージの特徴を同一に学習する。
本稿では,RGB-D SODのための高次離散相互作用ネットワーク(HODINet)を提案する。
論文 参考訳(メタデータ) (2023-07-03T11:56:21Z) - CIR-Net: Cross-modality Interaction and Refinement for RGB-D Salient
Object Detection [144.66411561224507]
本稿では,CIR-Netと呼ばれる畳み込みニューラルネットワーク(CNN)モデルを提案する。
我々のネットワークは、定性的かつ定量的に最先端の塩分濃度検出器より優れています。
論文 参考訳(メタデータ) (2022-10-06T11:59:19Z) - Transformer-based Network for RGB-D Saliency Detection [82.6665619584628]
RGB-Dサリエンシ検出の鍵は、2つのモードにわたる複数のスケールで情報を完全なマイニングとヒューズすることである。
コンバータは機能融合と機能拡張の両面において高い有効性を示す一様操作であることを示す。
提案するネットワークは,最先端のRGB-D値検出手法に対して良好に動作する。
論文 参考訳(メタデータ) (2021-12-01T15:53:58Z) - Cross-modality Discrepant Interaction Network for RGB-D Salient Object
Detection [78.47767202232298]
本稿では,RGB-D SODのためのクロスモダリティ離散相互作用ネットワーク(CDINet)を提案する。
2つのコンポーネントは、効果的な相互モダリティ相互作用を実装するように設計されている。
我々のネットワークは、定量的にも質的にも15ドルの最先端の手法より優れています。
論文 参考訳(メタデータ) (2021-08-04T11:24:42Z) - Bi-directional Cross-Modality Feature Propagation with
Separation-and-Aggregation Gate for RGB-D Semantic Segmentation [59.94819184452694]
深度情報はRGBD画像のセマンティックセグメンテーションにおいて有用であることが証明されている。
既存のほとんどの研究は、深度測定がRGBピクセルと正確で整合していると仮定し、問題をモーダルな特徴融合としてモデル化している。
本稿では,RGB特徴量応答を効果的に再検討するだけでなく,複数の段階を通して正確な深度情報を抽出し,代わりに2つの補正表現を集約する,統一的で効率的なクロスモダリティガイドを提案する。
論文 参考訳(メタデータ) (2020-07-17T18:35:24Z) - RGB-D Salient Object Detection with Cross-Modality Modulation and
Selection [126.4462739820643]
本稿では, RGB-D Salient Object Detection (SOD) において, モジュール間相補性を段階的に統合し, 改良する有効な方法を提案する。
提案するネットワークは,1)RGB画像とそれに対応する深度マップからの補完情報を効果的に統合する方法,および2)より精度の高い特徴を適応的に選択する方法の2つの課題を主に解決する。
論文 参考訳(メタデータ) (2020-07-14T14:22:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。