論文の概要: ICAFusion: Iterative Cross-Attention Guided Feature Fusion for
Multispectral Object Detection
- arxiv url: http://arxiv.org/abs/2308.07504v1
- Date: Tue, 15 Aug 2023 00:02:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-16 14:30:15.721008
- Title: ICAFusion: Iterative Cross-Attention Guided Feature Fusion for
Multispectral Object Detection
- Title(参考訳): ICAFusion:マルチスペクトル物体検出のための反復的クロスアテンション誘導機能融合
- Authors: Jifeng Shen, Yifei Chen, Yue Liu, Xin Zuo, Heng Fan, Wankou Yang
- Abstract要約: 大域的特徴相互作用をモデル化するために、二重対向変換器の新たな特徴融合フレームワークを提案する。
このフレームワークは、クエリ誘導のクロスアテンション機構を通じて、オブジェクトの特徴の識別性を高める。
提案手法は,様々なシナリオに適した性能と高速な推論を実現する。
- 参考スコア(独自算出の注目度): 25.66305300362193
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Effective feature fusion of multispectral images plays a crucial role in
multi-spectral object detection. Previous studies have demonstrated the
effectiveness of feature fusion using convolutional neural networks, but these
methods are sensitive to image misalignment due to the inherent deffciency in
local-range feature interaction resulting in the performance degradation. To
address this issue, a novel feature fusion framework of dual cross-attention
transformers is proposed to model global feature interaction and capture
complementary information across modalities simultaneously. This framework
enhances the discriminability of object features through the query-guided
cross-attention mechanism, leading to improved performance. However, stacking
multiple transformer blocks for feature enhancement incurs a large number of
parameters and high spatial complexity. To handle this, inspired by the human
process of reviewing knowledge, an iterative interaction mechanism is proposed
to share parameters among block-wise multimodal transformers, reducing model
complexity and computation cost. The proposed method is general and effective
to be integrated into different detection frameworks and used with different
backbones. Experimental results on KAIST, FLIR, and VEDAI datasets show that
the proposed method achieves superior performance and faster inference, making
it suitable for various practical scenarios. Code will be available at
https://github.com/chanchanchan97/ICAFusion.
- Abstract(参考訳): マルチスペクトル画像の有効特徴融合は,多スペクトル物体検出において重要な役割を担っている。
従来の研究では、畳み込みニューラルネットワークを用いた特徴融合の有効性が実証されているが、これらの手法は、局所的な特徴の相互作用に固有の非効率性のため、画像の不一致に敏感であり、性能劣化をもたらす。
この問題に対処するために,グローバル特徴の相互作用をモデル化し,相補的情報を同時取得するために,デュアルクロス・アテンション・トランスフォーマの新たな特徴融合フレームワークを提案する。
このフレームワークは、クエリ誘導のクロスアテンション機構を通じてオブジェクト機能の識別性を向上し、パフォーマンスが向上する。
しかし,機能拡張のために複数の変圧器ブロックを積み重ねると,多数のパラメータや空間的複雑さが発生する。
これに対応するために,ブロックワイドマルチモーダル変圧器間でパラメータを共有する反復的相互作用機構を提案し,モデルの複雑さと計算コストを低減した。
提案手法は汎用的で, 異なる検出フレームワークに統合され, 異なるバックボーンで使用される。
KAIST,FLIR,VEDAIデータセットを用いた実験結果から,提案手法はより優れた性能と高速な推論を実現し,様々なシナリオに適していることが示された。
コードはhttps://github.com/chanchanchan97/ICAFusion.comから入手できる。
関連論文リスト
- SeaDATE: Remedy Dual-Attention Transformer with Semantic Alignment via Contrast Learning for Multimodal Object Detection [18.090706979440334]
マルチモーダルオブジェクト検出は、様々なモーダル情報を活用して、検出器の精度と堅牢性を高める。
現在の方法では、トランスフォーマー誘導核融合技術は、ネットワークの様々な深さ層における特徴を抽出する能力を探ることなく、単純にスタック化されている。
本論文では,SeaDATEと呼ばれる高精度かつ効率的な物体検出手法を提案する。
論文 参考訳(メタデータ) (2024-10-15T07:26:39Z) - Fusion-Mamba for Cross-modality Object Detection [63.56296480951342]
異なるモダリティから情報を融合するクロスモダリティは、オブジェクト検出性能を効果的に向上させる。
We design a Fusion-Mamba block (FMB) to map cross-modal features into a hidden state space for interaction。
提案手法は,m3FD$が5.9%,FLIRデータセットが4.9%,m3FD$が5.9%である。
論文 参考訳(メタデータ) (2024-04-14T05:28:46Z) - From Text to Pixels: A Context-Aware Semantic Synergy Solution for
Infrared and Visible Image Fusion [66.33467192279514]
我々は、テキスト記述から高レベルなセマンティクスを活用し、赤外線と可視画像のセマンティクスを統合するテキスト誘導多モード画像融合法を提案する。
本手法は,視覚的に優れた融合結果を生成するだけでなく,既存の手法よりも高い検出mAPを達成し,最先端の結果を得る。
論文 参考訳(メタデータ) (2023-12-31T08:13:47Z) - Multimodal Transformer Using Cross-Channel attention for Object Detection in Remote Sensing Images [1.662438436885552]
マルチモーダル融合は、複数のモーダルからのデータを融合することで精度を高めることが決定されている。
早期に異なるチャネル間の関係をマッピングするための新しいマルチモーダル融合戦略を提案する。
本手法は,中期・後期の手法とは対照的に,早期の融合に対処することにより,既存の手法と比較して,競争力や性能に優れる。
論文 参考訳(メタデータ) (2023-10-21T00:56:11Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - Part-guided Relational Transformers for Fine-grained Visual Recognition [59.20531172172135]
識別的特徴を学習し,特徴変換モジュールとの相関関係を探索するフレームワークを提案する。
提案手法は,3-of-the-levelオブジェクト認識において,部分ブランチの追加に頼らず,最先端の性能に達する。
論文 参考訳(メタデータ) (2022-12-28T03:45:56Z) - Cross-Modality Fusion Transformer for Multispectral Object Detection [0.0]
マルチスペクトル画像ペアは、組み合わせた情報を提供し、オブジェクト検出アプリケーションがより信頼性が高く、堅牢になる。
本論文では,CFT (Cross-Modality Fusion Transformer) という,単純かつ効果的なクロスモーダル機能融合手法を提案する。
論文 参考訳(メタデータ) (2021-10-30T15:34:12Z) - MPI: Multi-receptive and Parallel Integration for Salient Object
Detection [17.32228882721628]
深い特徴のセマンティック表現は、画像コンテキスト理解に不可欠である。
本稿では,MPIと呼ばれる新しい手法を提案する。
提案手法は,異なる評価基準下での最先端手法よりも優れる。
論文 参考訳(メタデータ) (2021-08-08T12:01:44Z) - Centralized Information Interaction for Salient Object Detection [68.8587064889475]
U字型構造は、多スケールの機能を効率的に組み合わせるサリエント物体検出に長けている。
本稿では,これらの接続を集中化することにより,相互に相互に情報交換を行うことができることを示す。
本手法は, ボトムアップ経路とトップダウン経路の接続を置換することにより, 既存のU字型サルエント物体検出手法と協調することができる。
論文 参考訳(メタデータ) (2020-12-21T12:42:06Z) - Multispectral Fusion for Object Detection with Cyclic Fuse-and-Refine
Blocks [3.6488662460683794]
本稿では,マルチスペクトル特徴量に存在する相補的/一貫性のバランスを利用するニューラルネットワークの中間機能融合法を提案する。
オブジェクト検出のための2つの挑戦的マルチスペクトルデータセットに対する融合法の有効性を評価する。
論文 参考訳(メタデータ) (2020-09-26T18:39:05Z) - Multi-scale Interactive Network for Salient Object Detection [91.43066633305662]
本稿では,隣接レベルからの機能を統合するためのアグリゲート・インタラクション・モジュールを提案する。
より効率的なマルチスケール機能を得るために、各デコーダユニットに自己相互作用モジュールを埋め込む。
5つのベンチマークデータセットによる実験結果から,提案手法は後処理を一切行わず,23の最先端手法に対して良好に動作することが示された。
論文 参考訳(メタデータ) (2020-07-17T15:41:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。