論文の概要: DFTR: Depth-supervised Hierarchical Feature Fusion Transformer for
Salient Object Detection
- arxiv url: http://arxiv.org/abs/2203.06429v1
- Date: Sat, 12 Mar 2022 12:59:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-15 15:12:57.377357
- Title: DFTR: Depth-supervised Hierarchical Feature Fusion Transformer for
Salient Object Detection
- Title(参考訳): dftr:salient object detectionのための奥行き教師付き階層型特徴核融合トランス
- Authors: Heqin Zhu, Xu Sun, Yuexiang Li, Kai Ma, S. Kevin Zhou, Yefeng Zheng
- Abstract要約: 我々は、純粋なトランスフォーマーベースのSODフレームワーク、すなわち、Depth-supervised Hierarchical Feature Fusion TRansformer (DFTR)を提案する。
我々は,提案したDFTRを10個のベンチマークデータセット上で広範囲に評価し,実験結果から,既存のRGBおよびRGB-D SODタスクにおいて,DFTRが従来手法よりも一貫して優れていることが示された。
- 参考スコア(独自算出の注目度): 44.94166578314837
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Automated salient object detection (SOD) plays an increasingly crucial role
in many computer vision applications. Although existing frameworks achieve
impressive SOD performances especially with the development of deep learning
techniques, their performances still have room for improvement. In this work,
we propose a novel pure Transformer-based SOD framework, namely
Depth-supervised hierarchical feature Fusion TRansformer (DFTR), to further
improve the accuracy of both RGB and RGB-D SOD. The proposed DFTR involves
three primary improvements: 1) The backbone of feature encoder is switched from
a convolutional neural network to a Swin Transformer for more effective feature
extraction; 2) We propose a multi-scale feature aggregation (MFA) module to
fully exploit the multi-scale features encoded by the Swin Transformer in a
coarse-to-fine manner; 3) Following recent studies, we formulate an auxiliary
task of depth map prediction and use the ground-truth depth maps as extra
supervision signals for network learning. To enable bidirectional information
flow between saliency and depth branches, a novel multi-task feature fusion
(MFF) module is integrated into our DFTR. We extensively evaluate the proposed
DFTR on ten benchmarking datasets. Experimental results show that our DFTR
consistently outperforms the existing state-of-the-art methods for both RGB and
RGB-D SOD tasks. The code and model will be released.
- Abstract(参考訳): 多くのコンピュータビジョンアプリケーションにおいて、SOD(Automated Salient Object Detection)はますます重要な役割を担っている。
既存のフレームワークは、特にディープラーニング技術の開発で印象的なsodパフォーマンスを実現しているが、そのパフォーマンスには改善の余地がある。
本研究では,Depth-supervised Hierarchical Feature Fusion TRansformer (DFTR) という,トランスフォーマーをベースとした新しいSODフレームワークを提案し,RGBとRGB-D SODの精度をさらに向上させる。
提案されたDFTRには3つの主要な改善が含まれている。
1) 特徴エンコーダのバックボーンは、より効率的な特徴抽出のために、畳み込みニューラルネットワークからスウィントランスに切り換えられる。
2)Swin Transformerによって符号化されたマルチスケール機能を完全に活用するマルチスケール機能アグリゲーション(MFA)モジュールを提案する。
3)最近の研究により、深度マップ予測の補助タスクを定式化し、ネットワーク学習のための追加監督信号として地対地深度マップを用いた。
唾液分枝と深度枝の双方向情報流を可能にするため,新しいマルチタスク機能融合(MFF)モジュールをDFTRに統合した。
提案するDFTRを10のベンチマークデータセット上で広範囲に評価した。
実験の結果, DFTR は既存の RGB と RGB-D の SOD タスクにおいて, 従来手法よりも優れていた。
コードとモデルはリリースされる予定だ。
関連論文リスト
- Depthformer : Multiscale Vision Transformer For Monocular Depth
Estimation With Local Global Information Fusion [6.491470878214977]
本稿では,屋内のNYUV2データセットと屋外のKITTIデータセットの深度推定のためのトランスフォーマーベースモデルをベンチマークする。
単眼深度推定のための新しいアテンションベースアーキテクチャDepthformerを提案する。
提案手法は,屋根平均正方形誤差(RMSE)でそれぞれ3.3%,3.3%改善する。
論文 参考訳(メタデータ) (2022-07-10T20:49:11Z) - Dual Swin-Transformer based Mutual Interactive Network for RGB-D Salient
Object Detection [67.33924278729903]
本研究では,Dual Swin-Transformerを用いたMutual Interactive Networkを提案する。
視覚入力における長距離依存をモデル化するために,RGBと奥行きモードの両方の機能抽出器としてSwin-Transformerを採用している。
5つの標準RGB-D SODベンチマークデータセットに関する総合的な実験は、提案手法の優位性を実証している。
論文 参考訳(メタデータ) (2022-06-07T08:35:41Z) - SwinNet: Swin Transformer drives edge-aware RGB-D and RGB-T salient
object detection [12.126413875108993]
本稿では,RGB-D と RGB-T の有向物体検出のための相互モード融合モデル SwinNet を提案する。
提案モデルは,RGB-DデータセットとRGB-Tデータセットの最先端モデルより優れている。
論文 参考訳(メタデータ) (2022-04-12T07:37:39Z) - Joint Learning of Salient Object Detection, Depth Estimation and Contour
Extraction [91.43066633305662]
RGB-D Salient Object Detection (SOD) のための新しいマルチタスク・マルチモーダルフィルタトランス (MMFT) ネットワークを提案する。
具体的には、深度推定、健全な物体検出、輪郭推定の3つの相補的なタスクを統合する。マルチタスク機構は、タスク認識の特徴を補助タスクから学習するためのモデルを促進する。
実験の結果、複数のデータセット上での深度に基づくRGB-D SOD法をはるかに上回るだけでなく、高品質の深度マップと塩分濃度を同時に正確に予測できることがわかった。
論文 参考訳(メタデータ) (2022-03-09T17:20:18Z) - The Devil is in the Task: Exploiting Reciprocal Appearance-Localization
Features for Monocular 3D Object Detection [62.1185839286255]
低コストのモノクル3D物体検出は、自律運転において基本的な役割を果たす。
DFR-Netという動的特徴反射ネットワークを導入する。
我々は、KITTIテストセットの全ての単分子3D物体検出器の中で、第1位にランク付けする。
論文 参考訳(メタデータ) (2021-12-28T07:31:18Z) - Transformer-based Network for RGB-D Saliency Detection [82.6665619584628]
RGB-Dサリエンシ検出の鍵は、2つのモードにわたる複数のスケールで情報を完全なマイニングとヒューズすることである。
コンバータは機能融合と機能拡張の両面において高い有効性を示す一様操作であることを示す。
提案するネットワークは,最先端のRGB-D値検出手法に対して良好に動作する。
論文 参考訳(メタデータ) (2021-12-01T15:53:58Z) - Cross-modality Discrepant Interaction Network for RGB-D Salient Object
Detection [78.47767202232298]
本稿では,RGB-D SODのためのクロスモダリティ離散相互作用ネットワーク(CDINet)を提案する。
2つのコンポーネントは、効果的な相互モダリティ相互作用を実装するように設計されている。
我々のネットワークは、定量的にも質的にも15ドルの最先端の手法より優れています。
論文 参考訳(メタデータ) (2021-08-04T11:24:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。