論文の概要: MTFNet: Mutual-Transformer Fusion Network for RGB-D Salient Object
Detection
- arxiv url: http://arxiv.org/abs/2112.01177v1
- Date: Thu, 2 Dec 2021 12:48:37 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-03 17:06:21.009275
- Title: MTFNet: Mutual-Transformer Fusion Network for RGB-D Salient Object
Detection
- Title(参考訳): mtfnet: rgb-dサルエント物体検出のための相互変換型融合ネットワーク
- Authors: Xixi Wang, Bo Jiang, Xiao Wang, Bin Luo
- Abstract要約: RGB-D SODのためのMTFNet(Mutual-Transformer Fusion Network)を提案する。
MTFNet には $i.e.$, Focal Feature Extractor (FFE) と Mutual-Transformer Fusion (MTF) という2つの主要なモジュールが含まれている。
6つの公開ベンチマークの総合的な実験結果から,提案したMTFNetの優位性を示す。
- 参考スコア(独自算出の注目度): 15.371153771528093
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Salient object detection (SOD) on RGB-D images is an active problem in
computer vision. The main challenges for RGB-D SOD problem are how to 1)
extract the accurate features for RGB and Depth image data with clutter
background or poor image quality and 2) explore the complementary information
between RGB and Depth image data. To address these challenges, we propose a
novel Mutual-Transformer Fusion Network (MTFNet) for RGB-D SOD. MTFNet contains
two main modules, $i.e.$, Focal Feature Extractor (FFE) and Mutual-Transformer
Fusion (MTF). FFE aims to extract the more accurate CNN features for RGB and
Depth images by introducing a novel pixel-level focal regularization to guide
CNN feature extractor. MTF is designed to deeply exploit the multi-modal
interaction between RGB and Depth images on both coarse and fine scales. The
main benefit of MTF is that it conducts the learning of intra-modality and
inter-modality simultaneously and thus can achieve communication across
different modalities more directly and sufficiently. Comprehensive experimental
results on six public benchmarks demonstrate the superiority of our proposed
MTFNet.
- Abstract(参考訳): RGB-D画像上の正対象検出(SOD)はコンピュータビジョンにおいて活発な問題である。
RGB-D SOD問題の主な課題は
1)RGBおよび深度画像データの粗い背景や画質の悪い特徴を抽出し,その特徴を抽出する。
2)RGBと深度画像データの相補的な情報を探る。
これらの課題に対処するために,RGB-D SODのためのMTFNet(Mutual-Transformer Fusion Network)を提案する。
MTFNetには$i.e.$, Focal Feature Extractor (FFE) と Mutual-Transformer Fusion (MTF) という2つの主要なモジュールが含まれている。
FFEは,CNN特徴抽出器を誘導する新たな画素レベルの焦点正規化を導入することにより,RGBおよびDepth画像のより正確なCNN特徴抽出を目指している。
mtfはrgbと深度画像のマルチモーダルな相互作用を粗いスケールと細かいスケールの両方で深く活用するように設計されている。
MTFの主な利点は、モダリティ内とモダリティ間を同時に学習することで、より直接かつ十分に異なるモダリティ間のコミュニケーションを実現することである。
6つの公開ベンチマークの総合的な実験結果から,提案したMTFNetの優位性を示す。
関連論文リスト
- MambaSOD: Dual Mamba-Driven Cross-Modal Fusion Network for RGB-D Salient Object Detection [10.848413136031025]
RGB-D Salient Object Detection (SOD)の目的は、画像内の最も目立った領域を正確に特定することである。
本稿では,RGB-D SODのためのMamba-driven cross-modal fusion network,MambaSODを提案する。
論文 参考訳(メタデータ) (2024-10-19T07:08:40Z) - HODINet: High-Order Discrepant Interaction Network for RGB-D Salient
Object Detection [4.007827908611563]
RGB-D Salient Object Detection (SOD) は、RGBと深度情報を共同でモデル化することで、顕著な領域を検出することを目的としている。
ほとんどのRGB-D SOD法は、同じ種類のバックボーンと融合モジュールを適用して、マルチモーダリティとマルチステージの特徴を同一に学習する。
本稿では,RGB-D SODのための高次離散相互作用ネットワーク(HODINet)を提案する。
論文 参考訳(メタデータ) (2023-07-03T11:56:21Z) - Interactive Context-Aware Network for RGB-T Salient Object Detection [7.544240329265388]
ICANet(Interactive Context-Aware Network)と呼ばれる新しいネットワークを提案する。
ICANetには、クロスモーダルとクロススケールの融合を効果的に実行する3つのモジュールが含まれている。
実験により,我々のネットワークは最先端のRGB-T SOD法に対して良好に動作していることが示された。
論文 参考訳(メタデータ) (2022-11-11T10:04:36Z) - MAFNet: A Multi-Attention Fusion Network for RGB-T Crowd Counting [40.4816930622052]
マルチアテンション・フュージョン・ネットワーク(MAFNet)と呼ばれる2ストリームのRGB-T群カウントネットワークを提案する。
エンコーダ部では、マルチアテンション・フュージョン(MAF)モジュールを2つのモード固有分岐の異なるステージに埋め込み、クロスモーダル・フュージョンを行う。
2つの人気のあるデータセットに対する大規模な実験は、提案したMAFNetがRGB-Tの群衆カウントに有効であることを示している。
論文 参考訳(メタデータ) (2022-08-14T02:42:09Z) - Dual Swin-Transformer based Mutual Interactive Network for RGB-D Salient
Object Detection [67.33924278729903]
本研究では,Dual Swin-Transformerを用いたMutual Interactive Networkを提案する。
視覚入力における長距離依存をモデル化するために,RGBと奥行きモードの両方の機能抽出器としてSwin-Transformerを採用している。
5つの標準RGB-D SODベンチマークデータセットに関する総合的な実験は、提案手法の優位性を実証している。
論文 参考訳(メタデータ) (2022-06-07T08:35:41Z) - Transformer-based Network for RGB-D Saliency Detection [82.6665619584628]
RGB-Dサリエンシ検出の鍵は、2つのモードにわたる複数のスケールで情報を完全なマイニングとヒューズすることである。
コンバータは機能融合と機能拡張の両面において高い有効性を示す一様操作であることを示す。
提案するネットワークは,最先端のRGB-D値検出手法に対して良好に動作する。
論文 参考訳(メタデータ) (2021-12-01T15:53:58Z) - Cross-modality Discrepant Interaction Network for RGB-D Salient Object
Detection [78.47767202232298]
本稿では,RGB-D SODのためのクロスモダリティ離散相互作用ネットワーク(CDINet)を提案する。
2つのコンポーネントは、効果的な相互モダリティ相互作用を実装するように設計されている。
我々のネットワークは、定量的にも質的にも15ドルの最先端の手法より優れています。
論文 参考訳(メタデータ) (2021-08-04T11:24:42Z) - Self-Supervised Representation Learning for RGB-D Salient Object
Detection [93.17479956795862]
我々は、自己教師付き表現学習を用いて、クロスモーダルオートエンコーダと深さ-輪郭推定という2つのプレテキストタスクを設計する。
我々のプレテキストタスクは、ネットワークがリッチなセマンティックコンテキストをキャプチャする事前トレーニングを実行するのに、少数のRGB-Dデータセットしか必要としない。
RGB-D SODにおけるクロスモーダル核融合の固有の問題として,マルチパス核融合モジュールを提案する。
論文 参考訳(メタデータ) (2021-01-29T09:16:06Z) - Bi-directional Cross-Modality Feature Propagation with
Separation-and-Aggregation Gate for RGB-D Semantic Segmentation [59.94819184452694]
深度情報はRGBD画像のセマンティックセグメンテーションにおいて有用であることが証明されている。
既存のほとんどの研究は、深度測定がRGBピクセルと正確で整合していると仮定し、問題をモーダルな特徴融合としてモデル化している。
本稿では,RGB特徴量応答を効果的に再検討するだけでなく,複数の段階を通して正確な深度情報を抽出し,代わりに2つの補正表現を集約する,統一的で効率的なクロスモダリティガイドを提案する。
論文 参考訳(メタデータ) (2020-07-17T18:35:24Z) - Is Depth Really Necessary for Salient Object Detection? [50.10888549190576]
本稿では,RGB情報のみを推論の入力とする統合深度認識フレームワークの実現に向けた最初の試みを行う。
5つの公開RGB SODベンチマークの最先端のパフォーマンスを上回るだけでなく、5つのベンチマークのRGBDベースのメソッドを大きく上回っている。
論文 参考訳(メタデータ) (2020-05-30T13:40:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。