論文の概要: Progressive Multi-scale Fusion Network for RGB-D Salient Object
Detection
- arxiv url: http://arxiv.org/abs/2106.03941v1
- Date: Mon, 7 Jun 2021 20:02:39 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-09 15:59:29.239206
- Title: Progressive Multi-scale Fusion Network for RGB-D Salient Object
Detection
- Title(参考訳): rgb-dサルエント物体検出のためのプログレッシブマルチスケール核融合ネットワーク
- Authors: Guangyu Ren, Yanchu Xie, Tianhong Dai, Tania Stathaki
- Abstract要約: 本稿では,いわゆるプログレッシブ・マルチスケール・フュージョン法の利点について論じ,マスク誘導型特徴集合モジュールを提案する。
提案フレームワークは,異なるモードの2つの特徴を効果的に組み合わせ,誤った深さ特徴の影響を軽減する。
さらに,マスク誘導型改良モジュール(MGRM)を導入し,高レベルの意味的特徴を補完し,マルチスケール融合から無関係な特徴を減らす。
- 参考スコア(独自算出の注目度): 9.099589602551575
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Salient object detection(SOD) aims at locating the most significant object
within a given image. In recent years, great progress has been made in applying
SOD on many vision tasks. The depth map could provide additional spatial prior
and boundary cues to boost the performance. Combining the depth information
with image data obtained from standard visual cameras has been widely used in
recent SOD works, however, introducing depth information in a suboptimal fusion
strategy may have negative influence in the performance of SOD. In this paper,
we discuss about the advantages of the so-called progressive multi-scale fusion
method and propose a mask-guided feature aggregation module(MGFA). The proposed
framework can effectively combine the two features of different modalities and,
furthermore, alleviate the impact of erroneous depth features, which are
inevitably caused by the variation of depth quality. We further introduce a
mask-guided refinement module(MGRM) to complement the high-level semantic
features and reduce the irrelevant features from multi-scale fusion, leading to
an overall refinement of detection. Experiments on five challenging benchmarks
demonstrate that the proposed method outperforms 11 state-of-the-art methods
under different evaluation metrics.
- Abstract(参考訳): salient object detection(sod)は、画像内の最も重要なオブジェクトを見つけることを目的としている。
近年,多くの視覚タスクにSODを適用することが大きな進歩を遂げている。
深度マップは、性能を高めるために追加の空間的事前および境界的手がかりを提供することができる。
近年のSOD研究では,深度情報と標準視界カメラから得られる画像データの組み合わせが広く用いられているが,準最適核融合戦略における深度情報の導入は,SODの性能に悪影響を及ぼす可能性がある。
本稿では,いわゆるプログレッシブ・マルチスケール・フュージョン法の利点について論じ,マスク誘導機能集約モジュール(MGFA)を提案する。
提案手法は, 異なるモードの2つの特徴を効果的に組み合わせることができ, さらに, 必然的に, 深度品質の変動に起因する誤った深度特徴の影響を軽減することができる。
さらに,高レベルな意味的特徴を補完し,マルチスケール融合による無関係な特徴を低減し,検出の全体的な洗練を実現するために,マスクガイドリファインメントモジュール(mgrm)を導入する。
5つの難解なベンチマーク実験により,提案手法が11の最先端手法を異なる評価指標で上回ることを示した。
関連論文リスト
- Depth-discriminative Metric Learning for Monocular 3D Object Detection [14.554132525651868]
本稿では,視覚的属性に関係なく,モデルが深度識別的特徴を抽出することを奨励する新しい計量学習手法を提案する。
本手法は, 各種ベースラインの性能を平均23.51%, 5.78%向上させる。
論文 参考訳(メタデータ) (2024-01-02T07:34:09Z) - MLF-DET: Multi-Level Fusion for Cross-Modal 3D Object Detection [54.52102265418295]
MLF-DETと呼ばれる,高性能なクロスモーダル3DオブジェクトDrectionのための,新規かつ効果的なマルチレベルフュージョンネットワークを提案する。
特徴レベルの融合では、マルチスケールのボクセル特徴と画像の特徴を密集したマルチスケールのボクセル画像融合(MVI)モジュールを提示する。
本稿では,画像のセマンティクスを利用して検出候補の信頼度を補正するFCR(Feature-cued Confidence Rectification)モジュールを提案する。
論文 参考訳(メタデータ) (2023-07-18T11:26:02Z) - Depth Estimation Matters Most: Improving Per-Object Depth Estimation for
Monocular 3D Detection and Tracking [47.59619420444781]
検出・追跡を含む単眼的3D知覚へのアプローチは、LiDARベースの手法と比較して性能が劣ることが多い。
本稿では,オブジェクト(トラックレット)の複数のフレームに異なる表現(RGBと擬似LiDAR)と時間情報を組み合わせた多層融合手法を提案する。
論文 参考訳(メタデータ) (2022-06-08T03:37:59Z) - Joint Learning of Salient Object Detection, Depth Estimation and Contour
Extraction [91.43066633305662]
RGB-D Salient Object Detection (SOD) のための新しいマルチタスク・マルチモーダルフィルタトランス (MMFT) ネットワークを提案する。
具体的には、深度推定、健全な物体検出、輪郭推定の3つの相補的なタスクを統合する。マルチタスク機構は、タスク認識の特徴を補助タスクから学習するためのモデルを促進する。
実験の結果、複数のデータセット上での深度に基づくRGB-D SOD法をはるかに上回るだけでなく、高品質の深度マップと塩分濃度を同時に正確に予測できることがわかった。
論文 参考訳(メタデータ) (2022-03-09T17:20:18Z) - MSFNet:Multi-scale features network for monocular depth estimation [0.0]
Multi-scale Features Network (MSFNet) はEDA (Enhanced Diverse Attention) モジュールと Upsample-Stage Fusion (USF) モジュールで構成される。
EDAモジュールは空間的注意法を用いて重要な空間情報を学習する。
USFモジュールは、予測された効果を改善するために、低レベルの詳細情報と高レベルの意味情報を補完する。
論文 参考訳(メタデータ) (2021-07-14T01:38:29Z) - EPMF: Efficient Perception-aware Multi-sensor Fusion for 3D Semantic Segmentation [62.210091681352914]
自律運転やロボティクスなど,多くのアプリケーションを対象とした3次元セマンティックセマンティックセグメンテーションのためのマルチセンサフュージョンについて検討する。
本研究では,知覚認識型マルチセンサフュージョン(PMF)と呼ばれる協調融合方式について検討する。
本稿では,2つのモードから特徴を分離して抽出する2ストリームネットワークを提案する。
論文 参考訳(メタデータ) (2021-06-21T10:47:26Z) - CMA-Net: A Cascaded Mutual Attention Network for Light Field Salient
Object Detection [17.943924748737622]
本稿では,全焦点と深さのモダリティからハイレベルな特徴を浮き彫りにすることを目的とした2つの新しい相互注意モジュールからなるcma-netを提案する。
提案するcma-netは、広く適用された2つのライトフィールドベンチマークデータセットで30のsodメソッド(大きなマージン)を上回る。
論文 参考訳(メタデータ) (2021-05-03T15:32:12Z) - M2TR: Multi-modal Multi-scale Transformers for Deepfake Detection [74.19291916812921]
Deepfake技術によって生成された鍛造画像は、デジタル情報の信頼性に深刻な脅威をもたらします。
本稿では,Deepfake検出のための微妙な操作アーチファクトを異なるスケールで捉えることを目的とする。
最先端の顔スワッピングと顔の再現方法によって生成された4000のDeepFakeビデオで構成される高品質のDeepFakeデータセットSR-DFを紹介します。
論文 参考訳(メタデータ) (2021-04-20T05:43:44Z) - High-resolution Depth Maps Imaging via Attention-based Hierarchical
Multi-modal Fusion [84.24973877109181]
誘導DSRのための新しい注意に基づく階層型マルチモーダル融合ネットワークを提案する。
本手法は,再現精度,動作速度,メモリ効率の点で最先端手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-04-04T03:28:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。