論文の概要: Learning Adaptive Fusion Bank for Multi-modal Salient Object Detection
- arxiv url: http://arxiv.org/abs/2406.01127v1
- Date: Mon, 3 Jun 2024 09:11:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-06 01:48:31.632186
- Title: Learning Adaptive Fusion Bank for Multi-modal Salient Object Detection
- Title(参考訳): マルチモーダル・サリアント・オブジェクト検出のための適応型融合銀行の学習
- Authors: Kunpeng Wang, Zhengzheng Tu, Chenglong Li, Cheng Zhang, Bin Luo,
- Abstract要約: マルチモーダル・サリエント物体検出(MSOD)は、可視光源を深度や熱赤外と統合することにより、塩分検出性能を向上させることを目的としている。
既存の方法は通常、特定の問題や課題を扱うために異なる融合スキームを設計する。
本稿では,異なる課題を同時に扱うための基本核融合スキームの集合から,相補的な利点をフル活用する新しい適応核融合銀行を提案する。
- 参考スコア(独自算出の注目度): 19.89237876061433
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-modal salient object detection (MSOD) aims to boost saliency detection performance by integrating visible sources with depth or thermal infrared ones. Existing methods generally design different fusion schemes to handle certain issues or challenges. Although these fusion schemes are effective at addressing specific issues or challenges, they may struggle to handle multiple complex challenges simultaneously. To solve this problem, we propose a novel adaptive fusion bank that makes full use of the complementary benefits from a set of basic fusion schemes to handle different challenges simultaneously for robust MSOD. We focus on handling five major challenges in MSOD, namely center bias, scale variation, image clutter, low illumination, and thermal crossover or depth ambiguity. The fusion bank proposed consists of five representative fusion schemes, which are specifically designed based on the characteristics of each challenge, respectively. The bank is scalable, and more fusion schemes could be incorporated into the bank for more challenges. To adaptively select the appropriate fusion scheme for multi-modal input, we introduce an adaptive ensemble module that forms the adaptive fusion bank, which is embedded into hierarchical layers for sufficient fusion of different source data. Moreover, we design an indirect interactive guidance module to accurately detect salient hollow objects via the skip integration of high-level semantic information and low-level spatial details. Extensive experiments on three RGBT datasets and seven RGBD datasets demonstrate that the proposed method achieves the outstanding performance compared to the state-of-the-art methods. The code and results are available at https://github.com/Angknpng/LAFB.
- Abstract(参考訳): マルチモーダル・サリエント物体検出(MSOD)は、可視光源を深度や熱赤外と統合することにより、塩分検出性能を向上させることを目的としている。
既存の方法は通常、特定の問題や課題を扱うために異なる融合スキームを設計する。
これらの融合スキームは特定の問題や課題に対処するのに効果的であるが、複数の複雑な課題を同時に扱うのに苦労する可能性がある。
そこで本研究では,MSODの高機能化のために,様々な課題を同時に扱うための基本核融合方式から,相補的メリットをフル活用する新しい適応核融合銀行を提案する。
我々は,MSODにおける5つの大きな課題,すなわち中心バイアス,スケール変動,画像クラッタ,低照度,熱的クロスオーバーあるいは深度あいまいさの対処に重点を置いている。
提案した核融合銀行は5つの代表的な核融合スキームから構成されており、それぞれの課題の特徴に基づいて特別に設計されている。
銀行はスケーラブルで、さらなる課題のために、さらなる統合計画が銀行に組み込まれる可能性がある。
マルチモーダル入力に対する適切な融合方式を適応的に選択するために,適応型融合バンクを形成する適応型アンサンブルモジュールを導入する。
さらに,高レベルな意味情報と低レベルな空間的詳細をスキップ統合することで,高レベルな中空オブジェクトを正確に検出するための間接的対話型誘導モジュールを設計する。
3つのRGBTデータセットと7つのRGBDデータセットに対する大規模な実験により、提案手法が最先端の手法と比較して優れた性能を達成することを示した。
コードと結果はhttps://github.com/Angknpng/LAFB.comで公開されている。
関連論文リスト
- Fusion from Decomposition: A Self-Supervised Approach for Image Fusion and Beyond [74.96466744512992]
画像融合の本質は、ソース画像からの相補的な情報を統合することである。
DeFusion++は、画像融合の品質を高め、下流の高レベル視覚タスクの有効性を高める、汎用的な融合表現を生成する。
論文 参考訳(メタデータ) (2024-10-16T06:28:49Z) - Modality Prompts for Arbitrary Modality Salient Object Detection [57.610000247519196]
本論文は、任意のモーダリティ・サリエント物体検出(AM SOD)の課題について述べる。
任意のモダリティ、例えばRGBイメージ、RGB-Dイメージ、RGB-D-Tイメージから有能なオブジェクトを検出することを目的としている。
AM SODの2つの基本的な課題を解明するために,新しいモード適応トランス (MAT) を提案する。
論文 参考訳(メタデータ) (2024-05-06T11:02:02Z) - Fusion-Mamba for Cross-modality Object Detection [63.56296480951342]
異なるモダリティから情報を融合するクロスモダリティは、オブジェクト検出性能を効果的に向上させる。
We design a Fusion-Mamba block (FMB) to map cross-modal features into a hidden state space for interaction。
提案手法は,m3FD$が5.9%,FLIRデータセットが4.9%,m3FD$が5.9%である。
論文 参考訳(メタデータ) (2024-04-14T05:28:46Z) - E2E-MFD: Towards End-to-End Synchronous Multimodal Fusion Detection [21.185032466325737]
マルチモーダル核融合検出のための新しいエンドツーエンドアルゴリズムであるE2E-MFDを紹介する。
E2E-MFDはプロセスの合理化を図り、単一のトレーニングフェーズで高いパフォーマンスを達成する。
複数の公開データセットに対する広範なテストは、E2E-MFDの優れた機能を明らかにします。
論文 参考訳(メタデータ) (2024-03-14T12:12:17Z) - DAMSDet: Dynamic Adaptive Multispectral Detection Transformer with
Competitive Query Selection and Adaptive Feature Fusion [82.2425759608975]
赤外可視物体検出は、赤外画像と可視画像の相補的情報を融合することにより、フルデイ物体検出の堅牢化を目指している。
本稿では,この2つの課題に対処する動的適応型マルチスペクトル検出変換器(DAMSDet)を提案する。
4つの公開データセットの実験は、他の最先端の手法と比較して大幅に改善されている。
論文 参考訳(メタデータ) (2024-03-01T07:03:27Z) - Deep Equilibrium Multimodal Fusion [88.04713412107947]
多重モーダル融合は、複数のモーダルに存在する相補的な情報を統合し、近年多くの注目を集めている。
本稿では,動的多モード核融合プロセスの固定点を求めることにより,多モード核融合に対する新しいDeep equilibrium (DEQ)法を提案する。
BRCA,MM-IMDB,CMU-MOSI,SUN RGB-D,VQA-v2の実験により,DEC融合の優位性が示された。
論文 参考訳(メタデータ) (2023-06-29T03:02:20Z) - A Task-guided, Implicitly-searched and Meta-initialized Deep Model for
Image Fusion [69.10255211811007]
本稿では,課題の多い現実シナリオにおいて,画像融合問題に対処するためのタスク誘導,インプリシト検索,メタ一般化(TIM)深層モデルを提案する。
具体的には、画像融合の教師なし学習プロセスを導くために、下流タスクからの情報を組み込む制約付き戦略を提案する。
このフレームワーク内に暗黙の探索スキームを設計し、高速な融合モデルのためのコンパクトなアーキテクチャを自動で発見する。
論文 参考訳(メタデータ) (2023-05-25T08:54:08Z) - MBDF-Net: Multi-Branch Deep Fusion Network for 3D Object Detection [17.295359521427073]
3次元物体検出のためのMulti-Branch Deep Fusion Network (MBDF-Net)を提案する。
最初の段階では、マルチブランチ機能抽出ネットワークは、Adaptive Attention Fusionモジュールを使用して、単一モーダルなセマンティックな特徴からクロスモーダルな融合機能を生成する。
第2段階では、関心領域(RoI)をプールした核融合モジュールを用いて局所的な特徴を改良する。
論文 参考訳(メタデータ) (2021-08-29T15:40:15Z) - Progressive Multi-scale Fusion Network for RGB-D Salient Object
Detection [9.099589602551575]
本稿では,いわゆるプログレッシブ・マルチスケール・フュージョン法の利点について論じ,マスク誘導型特徴集合モジュールを提案する。
提案フレームワークは,異なるモードの2つの特徴を効果的に組み合わせ,誤った深さ特徴の影響を軽減する。
さらに,マスク誘導型改良モジュール(MGRM)を導入し,高レベルの意味的特徴を補完し,マルチスケール融合から無関係な特徴を減らす。
論文 参考訳(メタデータ) (2021-06-07T20:02:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。