論文の概要: Quality-aware Selective Fusion Network for V-D-T Salient Object Detection
- arxiv url: http://arxiv.org/abs/2405.07655v1
- Date: Mon, 13 May 2024 11:32:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-14 13:55:08.835232
- Title: Quality-aware Selective Fusion Network for V-D-T Salient Object Detection
- Title(参考訳): V-D-T能動物体検出のための品質認識型選択核融合ネットワーク
- Authors: Liuxin Bao, Xiaofei Zhou, Xiankai Lu, Yaoqi Sun, Haibing Yin, Zhenghui Hu, Jiyong Zhang, Chenggang Yan,
- Abstract要約: 深度や熱画像の品質は、しばしば困難なシナリオでは信頼できない。
既存の3重モードの有向物体検出法は、深度マップや熱画像の品質を認識できない。
本稿では,VDTの有意な物体検出を行う品質認識型選択的核融合ネットワーク(QSF-Net)を提案する。
- 参考スコア(独自算出の注目度): 37.99612572827279
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Depth images and thermal images contain the spatial geometry information and surface temperature information, which can act as complementary information for the RGB modality. However, the quality of the depth and thermal images is often unreliable in some challenging scenarios, which will result in the performance degradation of the two-modal based salient object detection (SOD). Meanwhile, some researchers pay attention to the triple-modal SOD task, where they attempt to explore the complementarity of the RGB image, the depth image, and the thermal image. However, existing triple-modal SOD methods fail to perceive the quality of depth maps and thermal images, which leads to performance degradation when dealing with scenes with low-quality depth and thermal images. Therefore, we propose a quality-aware selective fusion network (QSF-Net) to conduct VDT salient object detection, which contains three subnets including the initial feature extraction subnet, the quality-aware region selection subnet, and the region-guided selective fusion subnet. Firstly, except for extracting features, the initial feature extraction subnet can generate a preliminary prediction map from each modality via a shrinkage pyramid architecture. Then, we design the weakly-supervised quality-aware region selection subnet to generate the quality-aware maps. Concretely, we first find the high-quality and low-quality regions by using the preliminary predictions, which further constitute the pseudo label that can be used to train this subnet. Finally, the region-guided selective fusion subnet purifies the initial features under the guidance of the quality-aware maps, and then fuses the triple-modal features and refines the edge details of prediction maps through the intra-modality and inter-modality attention (IIA) module and the edge refinement (ER) module, respectively. Extensive experiments are performed on VDT-2048
- Abstract(参考訳): 深度画像と熱画像は、空間幾何学情報と表面温度情報を含み、RGBモダリティの相補的な情報として機能する。
しかし、深度と熱画像の品質は、いくつかの困難なシナリオでは信頼できない場合が多く、それによって2モーダル・サリアン・オブジェクト検出(SOD)の性能劣化が生じる。
一方、RGB画像、深度画像、熱画像の相補性を探る三重モードSODタスクに注意を払っている研究者もいる。
しかし、既存の3重モードSOD法では、深度マップや熱画像の品質を認識できないため、低画質の深度画像や熱画像を扱う場合の性能劣化が生じる。
そこで本研究では,初期特徴抽出サブネット,品質認識領域選択サブネット,地域誘導型選択的融合サブネットを含む3つのサブネットを含む,VDTサリアントオブジェクト検出を行う品質認識型選択的融合ネットワーク(QSF-Net)を提案する。
まず、初期特徴抽出サブネットは、特徴抽出を除いて、縮小ピラミッドアーキテクチャを介して各モードから予備予測マップを生成することができる。
そして、弱教師付き品質認識領域選択サブネットを設計し、品質認識マップを生成する。
具体的には,まず,このサブネットのトレーニングに使用可能な擬似ラベルを構成する予備予測を用いて,高品質かつ低品質な領域を探索する。
最後に、領域誘導選択的核融合サブネットは、品質認識マップのガイダンスに基づいて初期特徴を浄化し、次に三重モード特徴を融合し、各モジュールのモード内およびモード間注意(IIA)モジュールおよびエッジ改善(ER)モジュールを介して予測マップのエッジ詳細を洗練する。
VDT-2048における大規模実験
関連論文リスト
- An Interactively Reinforced Paradigm for Joint Infrared-Visible Image
Fusion and Saliency Object Detection [59.02821429555375]
この研究は、野生の隠れた物体の発見と位置決めに焦点をあて、無人のシステムに役立てる。
経験的分析により、赤外線と可視画像融合(IVIF)は、難しい物体の発見を可能にする。
マルチモーダル・サリエント・オブジェクト検出(SOD)は、画像内の物体の正確な空間的位置を正確に記述する。
論文 参考訳(メタデータ) (2023-05-17T06:48:35Z) - Multi-level and multi-modal feature fusion for accurate 3D object
detection in Connected and Automated Vehicles [0.8701566919381223]
本稿では,3段階特徴抽出器を用いたディープニューラルネットワークを用いた3次元物体検出モデルを提案する。
提案した特徴抽出器は、2つの入力感覚モーダルから高次特徴を抽出し、畳み込み過程に捨てられた重要な特徴を回収する。
新たな融合方式は、感覚のモダリティと畳み込み層を効果的に融合させ、最も優れたグローバルな特徴を見出す。
論文 参考訳(メタデータ) (2022-12-15T00:25:05Z) - Attention Guided Network for Salient Object Detection in Optical Remote
Sensing Images [16.933770557853077]
光リモートセンシング画像(RSI-SOD)における局所物体検出は非常に難しい作業である。
本稿では,光学RSIにおけるSODのための新しい注意誘導ネットワーク(AGNet)を提案する。
AGNetは、他の最先端の手法と比較して、競争力がある。
論文 参考訳(メタデータ) (2022-07-05T01:01:03Z) - Joint Learning of Salient Object Detection, Depth Estimation and Contour
Extraction [91.43066633305662]
RGB-D Salient Object Detection (SOD) のための新しいマルチタスク・マルチモーダルフィルタトランス (MMFT) ネットワークを提案する。
具体的には、深度推定、健全な物体検出、輪郭推定の3つの相補的なタスクを統合する。マルチタスク機構は、タスク認識の特徴を補助タスクから学習するためのモデルを促進する。
実験の結果、複数のデータセット上での深度に基づくRGB-D SOD法をはるかに上回るだけでなく、高品質の深度マップと塩分濃度を同時に正確に予測できることがわかった。
論文 参考訳(メタデータ) (2022-03-09T17:20:18Z) - MBDF-Net: Multi-Branch Deep Fusion Network for 3D Object Detection [17.295359521427073]
3次元物体検出のためのMulti-Branch Deep Fusion Network (MBDF-Net)を提案する。
最初の段階では、マルチブランチ機能抽出ネットワークは、Adaptive Attention Fusionモジュールを使用して、単一モーダルなセマンティックな特徴からクロスモーダルな融合機能を生成する。
第2段階では、関心領域(RoI)をプールした核融合モジュールを用いて局所的な特徴を改良する。
論文 参考訳(メタデータ) (2021-08-29T15:40:15Z) - Sparse Auxiliary Networks for Unified Monocular Depth Prediction and
Completion [56.85837052421469]
コスト効率のよいセンサで得られたデータからシーン形状を推定することは、ロボットや自動運転車にとって鍵となる。
本稿では,1枚のRGB画像から,低コストな能動深度センサによるスパース計測により,深度を推定する問題について検討する。
sparse networks (sans) は,深さ予測と完了という2つのタスクをmonodepthネットワークで実行可能にする,新しいモジュールである。
論文 参考訳(メタデータ) (2021-03-30T21:22:26Z) - Cross-Modality 3D Object Detection [63.29935886648709]
本稿では,3次元物体検出のための新しい2段階多モード融合ネットワークを提案する。
アーキテクチャ全体が2段階の融合を促進する。
KITTIデータセットを用いた実験により,提案したマルチステージ融合により,ネットワークがより良い表現を学習できることが示唆された。
論文 参考訳(メタデータ) (2020-08-16T11:01:20Z) - Pyramidal Edge-maps and Attention based Guided Thermal Super-resolution [28.798966778371145]
可視領域画像を用いた熱画像の誘導超解像(GSR)は、画像間のスペクトル範囲の違いにより困難である。
可視画像から抽出したピラミッド状エッジマップに基づくGSRの新しいアルゴリズムを提案する。
我々のモデルは、定量的にも定性的にも、最先端のGSR法よりも優れています。
論文 参考訳(メタデータ) (2020-03-13T12:11:26Z) - Saliency Enhancement using Gradient Domain Edges Merging [65.90255950853674]
本研究では,エッジとサリエンシマップをマージして,サリエンシマップの性能を向上させる手法を開発した。
これにより、DUT-OMRONデータセットの少なくとも3.4倍の平均的な改善により、エッジ(SEE)を使用したサリエンシ向上が提案された。
SEEアルゴリズムは前処理のためのSEE-Preと後処理のためのSEE-Postの2つの部分に分けられる。
論文 参考訳(メタデータ) (2020-02-11T14:04:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。