論文の概要: TANet: Transformer-based Asymmetric Network for RGB-D Salient Object
Detection
- arxiv url: http://arxiv.org/abs/2207.01172v1
- Date: Mon, 4 Jul 2022 03:06:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-05 15:20:55.761189
- Title: TANet: Transformer-based Asymmetric Network for RGB-D Salient Object
Detection
- Title(参考訳): TANet: RGB-D Salient Object Detectionのためのトランスフォーマーベース非対称ネットワーク
- Authors: Chang Liu, Gang Yang, Shuo Wang, Hangxu Wang, Yunhua Zhang and Yutao
Wang
- Abstract要約: RGB-D SOD法は主に対称な2ストリームCNNネットワークに依存し、RGBと深さチャネルの特徴を別々に抽出する。
本稿では,トランスフォーマーを用いた非対称ネットワーク(TANet)を提案する。
提案手法は、6つの公開データセット上での14の最先端RGB-D手法よりも優れた性能を実現する。
- 参考スコア(独自算出の注目度): 13.126051625000605
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing RGB-D SOD methods mainly rely on a symmetric two-stream CNN-based
network to extract RGB and depth channel features separately. However, there
are two problems with the symmetric conventional network structure: first, the
ability of CNN in learning global contexts is limited; second, the symmetric
two-stream structure ignores the inherent differences between modalities. In
this paper, we propose a Transformer-based asymmetric network (TANet) to tackle
the issues mentioned above. We employ the powerful feature extraction
capability of Transformer (PVTv2) to extract global semantic information from
RGB data and design a lightweight CNN backbone (LWDepthNet) to extract spatial
structure information from depth data without pre-training. The asymmetric
hybrid encoder (AHE) effectively reduces the number of parameters in the model
while increasing speed without sacrificing performance. Then, we design a
cross-modal feature fusion module (CMFFM), which enhances and fuses RGB and
depth features with each other. Finally, we add edge prediction as an auxiliary
task and propose an edge enhancement module (EEM) to generate sharper contours.
Extensive experiments demonstrate that our method achieves superior performance
over 14 state-of-the-art RGB-D methods on six public datasets. Our code will be
released at https://github.com/lc012463/TANet.
- Abstract(参考訳): 既存のRGB-D SOD法は主に対称な2ストリームCNNネットワークに依存し、RGBと深さチャネルの機能を別々に抽出する。
しかし、対称的ネットワーク構造には2つの問題がある: まず、グローバルコンテキストの学習におけるCNNの能力は制限されている; 次に、対称的2ストリーム構造は、モダリティの固有の相違を無視している。
本稿では,上述の問題を解決するために,変圧器を用いた非対称ネットワーク (tanet) を提案する。
我々はTransformer(PVTv2)の強力な特徴抽出機能を用いて、RGBデータからグローバルな意味情報を抽出し、軽量CNNバックボーン(LWDepthNet)を設計し、事前トレーニングなしで深度データから空間構造情報を抽出する。
非対称ハイブリッドエンコーダ(AHE)は、性能を犠牲にすることなく速度を上げながら、モデル内のパラメータ数を効果的に削減する。
そこで我々は,RGBと深度機能を相互に拡張・融合するクロスモーダル機能融合モジュール (CMFFM) を設計した。
最後に、エッジ予測を補助タスクとして追加し、よりシャープな輪郭を生成するエッジ拡張モジュール(EEM)を提案する。
6つの公開データセット上での14の最先端RGB-D法よりも優れた性能を示す。
私たちのコードはhttps://github.com/lc012463/tanetでリリースします。
関連論文リスト
- Depth-Adapted CNNs for RGB-D Semantic Segmentation [2.341385717236931]
我々は、RGB畳み込みニューラルネットワーク(CNN)に深度情報を組み込む新しい枠組みを提案する。
具体的には、Z-ACNは2次元奥行き適応オフセットを生成し、RGB画像の特徴抽出を誘導する低レベル特徴に完全に制約される。
生成されたオフセットでは、基本的なCNN演算子を置き換えるために、2つの直感的で効果的な操作を導入する。
論文 参考訳(メタデータ) (2022-06-08T14:59:40Z) - Dual Swin-Transformer based Mutual Interactive Network for RGB-D Salient
Object Detection [67.33924278729903]
本研究では,Dual Swin-Transformerを用いたMutual Interactive Networkを提案する。
視覚入力における長距離依存をモデル化するために,RGBと奥行きモードの両方の機能抽出器としてSwin-Transformerを採用している。
5つの標準RGB-D SODベンチマークデータセットに関する総合的な実験は、提案手法の優位性を実証している。
論文 参考訳(メタデータ) (2022-06-07T08:35:41Z) - SwinNet: Swin Transformer drives edge-aware RGB-D and RGB-T salient
object detection [12.126413875108993]
本稿では,RGB-D と RGB-T の有向物体検出のための相互モード融合モデル SwinNet を提案する。
提案モデルは,RGB-DデータセットとRGB-Tデータセットの最先端モデルより優れている。
論文 参考訳(メタデータ) (2022-04-12T07:37:39Z) - Cross-modality Discrepant Interaction Network for RGB-D Salient Object
Detection [78.47767202232298]
本稿では,RGB-D SODのためのクロスモダリティ離散相互作用ネットワーク(CDINet)を提案する。
2つのコンポーネントは、効果的な相互モダリティ相互作用を実装するように設計されている。
我々のネットワークは、定量的にも質的にも15ドルの最先端の手法より優れています。
論文 参考訳(メタデータ) (2021-08-04T11:24:42Z) - Self-Supervised Representation Learning for RGB-D Salient Object
Detection [93.17479956795862]
我々は、自己教師付き表現学習を用いて、クロスモーダルオートエンコーダと深さ-輪郭推定という2つのプレテキストタスクを設計する。
我々のプレテキストタスクは、ネットワークがリッチなセマンティックコンテキストをキャプチャする事前トレーニングを実行するのに、少数のRGB-Dデータセットしか必要としない。
RGB-D SODにおけるクロスモーダル核融合の固有の問題として,マルチパス核融合モジュールを提案する。
論文 参考訳(メタデータ) (2021-01-29T09:16:06Z) - Data-Level Recombination and Lightweight Fusion Scheme for RGB-D Salient
Object Detection [73.31632581915201]
深部特徴抽出に先立って,RGBとD(深部)を融合する新たなデータレベル組換え手法を提案する。
新たに設計された3重ストリームネットワークをこれらの新しい定式化データ上に適用し,RGBとDのチャネルワイドな相補的融合状態を実現する。
論文 参考訳(メタデータ) (2020-08-07T10:13:05Z) - Bi-directional Cross-Modality Feature Propagation with
Separation-and-Aggregation Gate for RGB-D Semantic Segmentation [59.94819184452694]
深度情報はRGBD画像のセマンティックセグメンテーションにおいて有用であることが証明されている。
既存のほとんどの研究は、深度測定がRGBピクセルと正確で整合していると仮定し、問題をモーダルな特徴融合としてモデル化している。
本稿では,RGB特徴量応答を効果的に再検討するだけでなく,複数の段階を通して正確な深度情報を抽出し,代わりに2つの補正表現を集約する,統一的で効率的なクロスモダリティガイドを提案する。
論文 参考訳(メタデータ) (2020-07-17T18:35:24Z) - Hierarchical Dynamic Filtering Network for RGB-D Salient Object
Detection [91.43066633305662]
RGB-D Salient Object Detection (SOD) の主な目的は、相互融合情報をよりよく統合し活用する方法である。
本稿では,これらの問題を新たな視点から考察する。
我々は、より柔軟で効率的なマルチスケールのクロスモーダルな特徴処理を実装している。
論文 参考訳(メタデータ) (2020-07-13T07:59:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。