論文の概要: Transformer-based Network for RGB-D Saliency Detection
- arxiv url: http://arxiv.org/abs/2112.00582v1
- Date: Wed, 1 Dec 2021 15:53:58 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-02 14:55:19.385490
- Title: Transformer-based Network for RGB-D Saliency Detection
- Title(参考訳): RGB-D比重検出のためのトランスフォーマーネットワーク
- Authors: Yue Wang, Xu Jia, Lu Zhang, Yuke Li, James Elder, Huchuan Lu
- Abstract要約: RGB-Dサリエンシ検出の鍵は、2つのモードにわたる複数のスケールで情報を完全なマイニングとヒューズすることである。
コンバータは機能融合と機能拡張の両面において高い有効性を示す一様操作であることを示す。
提案するネットワークは,最先端のRGB-D値検出手法に対して良好に動作する。
- 参考スコア(独自算出の注目度): 82.6665619584628
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: RGB-D saliency detection integrates information from both RGB images and
depth maps to improve prediction of salient regions under challenging
conditions. The key to RGB-D saliency detection is to fully mine and fuse
information at multiple scales across the two modalities. Previous approaches
tend to apply the multi-scale and multi-modal fusion separately via local
operations, which fails to capture long-range dependencies. Here we propose a
transformer-based network to address this issue. Our proposed architecture is
composed of two modules: a transformer-based within-modality feature
enhancement module (TWFEM) and a transformer-based feature fusion module
(TFFM). TFFM conducts a sufficient feature fusion by integrating features from
multiple scales and two modalities over all positions simultaneously. TWFEM
enhances feature on each scale by selecting and integrating complementary
information from other scales within the same modality before TFFM. We show
that transformer is a uniform operation which presents great efficacy in both
feature fusion and feature enhancement, and simplifies the model design.
Extensive experimental results on six benchmark datasets demonstrate that our
proposed network performs favorably against state-of-the-art RGB-D saliency
detection methods.
- Abstract(参考訳): RGB-Dサリエンシ検出は、RGB画像と深度マップの両方の情報を統合し、課題のある条件下でのサリエント領域の予測を改善する。
RGB-Dサリエンシ検出の鍵は、2つのモードにわたる複数のスケールでの情報の完全なマイニングとヒューズである。
従来のアプローチでは、ローカル操作によって個別にマルチスケールとマルチモーダルの融合を適用する傾向があり、長距離の依存関係を捉えることができない。
本稿では,この問題に対処するトランスフォーマーネットワークを提案する。
提案アーキテクチャは,トランスフォーマーをベースとした内部モード機能拡張モジュール (TWFEM) とトランスフォーマーをベースとした機能融合モジュール (TFFM) の2つのモジュールから構成される。
TFFMは、複数のスケールと2つのモードを同時に全ての位置から統合することで、十分な特徴融合を行う。
TWFEMは、TFFM前と同じモードで、他のスケールから補完情報を選択し、統合することによって、各スケールの機能を強化する。
トランスフォーマは,機能融合と機能拡張の両方において大きな効果を示し,モデル設計を単純化する一様操作であることを示す。
6つのベンチマークデータセットの広範な実験結果から,提案ネットワークは最先端のrgb-dサリエンシー検出手法に対して好適に機能することが示された。
関連論文リスト
- HODINet: High-Order Discrepant Interaction Network for RGB-D Salient
Object Detection [4.007827908611563]
RGB-D Salient Object Detection (SOD) は、RGBと深度情報を共同でモデル化することで、顕著な領域を検出することを目的としている。
ほとんどのRGB-D SOD法は、同じ種類のバックボーンと融合モジュールを適用して、マルチモーダリティとマルチステージの特徴を同一に学習する。
本稿では,RGB-D SODのための高次離散相互作用ネットワーク(HODINet)を提案する。
論文 参考訳(メタデータ) (2023-07-03T11:56:21Z) - Interactive Context-Aware Network for RGB-T Salient Object Detection [7.544240329265388]
ICANet(Interactive Context-Aware Network)と呼ばれる新しいネットワークを提案する。
ICANetには、クロスモーダルとクロススケールの融合を効果的に実行する3つのモジュールが含まれている。
実験により,我々のネットワークは最先端のRGB-T SOD法に対して良好に動作していることが示された。
論文 参考訳(メタデータ) (2022-11-11T10:04:36Z) - Dual Swin-Transformer based Mutual Interactive Network for RGB-D Salient
Object Detection [67.33924278729903]
本研究では,Dual Swin-Transformerを用いたMutual Interactive Networkを提案する。
視覚入力における長距離依存をモデル化するために,RGBと奥行きモードの両方の機能抽出器としてSwin-Transformerを採用している。
5つの標準RGB-D SODベンチマークデータセットに関する総合的な実験は、提案手法の優位性を実証している。
論文 参考訳(メタデータ) (2022-06-07T08:35:41Z) - TransCMD: Cross-Modal Decoder Equipped with Transformer for RGB-D
Salient Object Detection [86.94578023985677]
本研究では,グローバルな情報アライメントと変革の観点から,この課題を再考する。
具体的には、トランスCMD(TransCMD)は、複数のクロスモーダル統合ユニットをカスケードして、トップダウントランスフォーマーベースの情報伝達経路を構築する。
7つのRGB-D SODベンチマークデータセットの実験結果から、単純な2ストリームエンコーダデコーダフレームワークが、最先端のCNNベースの手法を超越できることが示されている。
論文 参考訳(メタデータ) (2021-12-04T15:45:34Z) - Cross-Modality Fusion Transformer for Multispectral Object Detection [0.0]
マルチスペクトル画像ペアは、組み合わせた情報を提供し、オブジェクト検出アプリケーションがより信頼性が高く、堅牢になる。
本論文では,CFT (Cross-Modality Fusion Transformer) という,単純かつ効果的なクロスモーダル機能融合手法を提案する。
論文 参考訳(メタデータ) (2021-10-30T15:34:12Z) - Cross-modality Discrepant Interaction Network for RGB-D Salient Object
Detection [78.47767202232298]
本稿では,RGB-D SODのためのクロスモダリティ離散相互作用ネットワーク(CDINet)を提案する。
2つのコンポーネントは、効果的な相互モダリティ相互作用を実装するように設計されている。
我々のネットワークは、定量的にも質的にも15ドルの最先端の手法より優れています。
論文 参考訳(メタデータ) (2021-08-04T11:24:42Z) - Bi-directional Cross-Modality Feature Propagation with
Separation-and-Aggregation Gate for RGB-D Semantic Segmentation [59.94819184452694]
深度情報はRGBD画像のセマンティックセグメンテーションにおいて有用であることが証明されている。
既存のほとんどの研究は、深度測定がRGBピクセルと正確で整合していると仮定し、問題をモーダルな特徴融合としてモデル化している。
本稿では,RGB特徴量応答を効果的に再検討するだけでなく,複数の段階を通して正確な深度情報を抽出し,代わりに2つの補正表現を集約する,統一的で効率的なクロスモダリティガイドを提案する。
論文 参考訳(メタデータ) (2020-07-17T18:35:24Z) - RGB-D Salient Object Detection with Cross-Modality Modulation and
Selection [126.4462739820643]
本稿では, RGB-D Salient Object Detection (SOD) において, モジュール間相補性を段階的に統合し, 改良する有効な方法を提案する。
提案するネットワークは,1)RGB画像とそれに対応する深度マップからの補完情報を効果的に統合する方法,および2)より精度の高い特徴を適応的に選択する方法の2つの課題を主に解決する。
論文 参考訳(メタデータ) (2020-07-14T14:22:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。