論文の概要: A Saliency Enhanced Feature Fusion based multiscale RGB-D Salient Object
Detection Network
- arxiv url: http://arxiv.org/abs/2401.11914v1
- Date: Mon, 22 Jan 2024 13:01:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-23 13:57:18.129197
- Title: A Saliency Enhanced Feature Fusion based multiscale RGB-D Salient Object
Detection Network
- Title(参考訳): 多スケールrgb-dサルエント物体検出ネットワークによるsaliency enhanced feature fusion
- Authors: Rui Huang, Qingyi Zhao, Yan Xing, Sihua Gao, Weifeng Xu, Yuxiang
Zhang, Wei Fan
- Abstract要約: マルチスケール畳み込みニューラルネットワーク(Multiscale Convolutional Neural Network, CNN)は、様々な視覚問題を解く際、顕著な能力を示した。
本稿では,RGB-D唾液濃度検出のためのSaliency Enhanced Feature Fusion (SEFF) と呼ばれる機能融合モジュールを提案する。
- 参考スコア(独自算出の注目度): 9.855404465174455
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multiscale convolutional neural network (CNN) has demonstrated remarkable
capabilities in solving various vision problems. However, fusing features of
different scales alwaysresults in large model sizes, impeding the application
of multiscale CNNs in RGB-D saliency detection. In this paper, we propose a
customized feature fusion module, called Saliency Enhanced Feature Fusion
(SEFF), for RGB-D saliency detection. SEFF utilizes saliency maps of the
neighboring scales to enhance the necessary features for fusing, resulting in
more representative fused features. Our multiscale RGB-D saliency detector uses
SEFF and processes images with three different scales. SEFF is used to fuse the
features of RGB and depth images, as well as the features of decoders at
different scales. Extensive experiments on five benchmark datasets have
demonstrated the superiority of our method over ten SOTA saliency detectors.
- Abstract(参考訳): マルチスケール畳み込みニューラルネットワーク(cnn)は、様々な視覚問題を解決する顕著な能力を示している。
しかし, 異なるスケールの拡散特性は, RGB-Dサリエンシ検出におけるマルチスケールCNNの適用を妨げている。
本稿では,RGB-D唾液濃度検出のためのSaliency Enhanced Feature Fusion (SEFF) と呼ばれる機能融合モジュールを提案する。
SEFFは、近隣のスケールの塩分マップを利用して、融解に必要な機能を強化し、より代表的なフューズされた特徴をもたらす。
我々のマルチスケールRGB-Dサリエンシ検出器はSEFFを使用して3つの異なるスケールで画像を処理する。
SEFFは、RGBと深度画像の特徴と異なるスケールでのデコーダの特徴を融合するために使用される。
5つのベンチマークデータセットに対する大規模な実験により,SOTAサリエンシ検出器10個以上の方法が優れていることが示された。
関連論文リスト
- Removal and Selection: Improving RGB-Infrared Object Detection via Coarse-to-Fine Fusion [20.12812979315803]
既存の融合戦略のほとんどは、RGBとIR画像をディープニューラルネットワークに直接入力し、検出性能が劣る。
2つのモダリティの特徴を清浄し、融合させるために、新しい粗大な視点を導入する。
粗大な核融合戦略の有効性を検証するため、除去・選択検出器(RSDet)と呼ばれる新しい物体検出器を構築した。
論文 参考訳(メタデータ) (2024-01-19T14:49:42Z) - VoxelNextFusion: A Simple, Unified and Effective Voxel Fusion Framework
for Multi-Modal 3D Object Detection [33.46363259200292]
既存のボクセル法は、1対1で濃密な画像特徴を持つスパース・ボクセル特徴を融合する際の課題に直面する。
本稿では,VoxelNextFusionについて述べる。VoxelNextFusionは,Voxelベースの手法に特化して設計されたマルチモーダル3Dオブジェクト検出フレームワークである。
論文 参考訳(メタデータ) (2024-01-05T08:10:49Z) - HODINet: High-Order Discrepant Interaction Network for RGB-D Salient
Object Detection [4.007827908611563]
RGB-D Salient Object Detection (SOD) は、RGBと深度情報を共同でモデル化することで、顕著な領域を検出することを目的としている。
ほとんどのRGB-D SOD法は、同じ種類のバックボーンと融合モジュールを適用して、マルチモーダリティとマルチステージの特徴を同一に学習する。
本稿では,RGB-D SODのための高次離散相互作用ネットワーク(HODINet)を提案する。
論文 参考訳(メタデータ) (2023-07-03T11:56:21Z) - CDDFuse: Correlation-Driven Dual-Branch Feature Decomposition for
Multi-Modality Image Fusion [138.40422469153145]
本稿では,CDDFuse(Relationed-Driven Feature Decomposition Fusion)ネットワークを提案する。
近赤外可視画像融合や医用画像融合など,複数の融合タスクにおいてCDDFuseが有望な結果をもたらすことを示す。
論文 参考訳(メタデータ) (2022-11-26T02:40:28Z) - Interactive Context-Aware Network for RGB-T Salient Object Detection [7.544240329265388]
ICANet(Interactive Context-Aware Network)と呼ばれる新しいネットワークを提案する。
ICANetには、クロスモーダルとクロススケールの融合を効果的に実行する3つのモジュールが含まれている。
実験により,我々のネットワークは最先端のRGB-T SOD法に対して良好に動作していることが示された。
論文 参考訳(メタデータ) (2022-11-11T10:04:36Z) - Dual Swin-Transformer based Mutual Interactive Network for RGB-D Salient
Object Detection [67.33924278729903]
本研究では,Dual Swin-Transformerを用いたMutual Interactive Networkを提案する。
視覚入力における長距離依存をモデル化するために,RGBと奥行きモードの両方の機能抽出器としてSwin-Transformerを採用している。
5つの標準RGB-D SODベンチマークデータセットに関する総合的な実験は、提案手法の優位性を実証している。
論文 参考訳(メタデータ) (2022-06-07T08:35:41Z) - Joint Learning of Salient Object Detection, Depth Estimation and Contour
Extraction [91.43066633305662]
RGB-D Salient Object Detection (SOD) のための新しいマルチタスク・マルチモーダルフィルタトランス (MMFT) ネットワークを提案する。
具体的には、深度推定、健全な物体検出、輪郭推定の3つの相補的なタスクを統合する。マルチタスク機構は、タスク認識の特徴を補助タスクから学習するためのモデルを促進する。
実験の結果、複数のデータセット上での深度に基づくRGB-D SOD法をはるかに上回るだけでなく、高品質の深度マップと塩分濃度を同時に正確に予測できることがわかった。
論文 参考訳(メタデータ) (2022-03-09T17:20:18Z) - Multi-Scale Iterative Refinement Network for RGB-D Salient Object
Detection [7.062058947498447]
RGB画像の様々なスケールや解像度に、様々な特徴レベルの意味的ギャップがあるため、健全な視覚的手がかりが現れる。
同様のサージェントパターンは、クロスモーダルなディープイメージとマルチスケールバージョンで利用できる。
注意に基づく融合モジュール (ABF) を設計し, 相互相関に対処する。
論文 参考訳(メタデータ) (2022-01-24T10:33:00Z) - Transformer-based Network for RGB-D Saliency Detection [82.6665619584628]
RGB-Dサリエンシ検出の鍵は、2つのモードにわたる複数のスケールで情報を完全なマイニングとヒューズすることである。
コンバータは機能融合と機能拡張の両面において高い有効性を示す一様操作であることを示す。
提案するネットワークは,最先端のRGB-D値検出手法に対して良好に動作する。
論文 参考訳(メタデータ) (2021-12-01T15:53:58Z) - Perception-aware Multi-sensor Fusion for 3D LiDAR Semantic Segmentation [59.42262859654698]
3Dセマンティックセグメンテーションは、自動運転やロボット工学など、多くのアプリケーションにおいてシーン理解において重要である。
既存の融合法は、2つのモードの差が大きいため、有望な性能を達成できない。
本研究では,知覚認識型マルチセンサフュージョン(PMF)と呼ばれる協調融合方式について検討する。
論文 参考訳(メタデータ) (2021-06-21T10:47:26Z) - A Single Stream Network for Robust and Real-time RGB-D Salient Object
Detection [89.88222217065858]
我々は、深度マップを用いて、RGBと深度の間の早期融合と中核融合を誘導する単一ストリームネットワークを設計する。
このモデルは、現在の最も軽量なモデルよりも55.5%軽く、32 FPSのリアルタイム速度で384倍の384ドルの画像を処理している。
論文 参考訳(メタデータ) (2020-07-14T04:40:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。