論文の概要: DAMSDet: Dynamic Adaptive Multispectral Detection Transformer with
Competitive Query Selection and Adaptive Feature Fusion
- arxiv url: http://arxiv.org/abs/2403.00326v3
- Date: Thu, 7 Mar 2024 11:08:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-08 16:50:12.725448
- Title: DAMSDet: Dynamic Adaptive Multispectral Detection Transformer with
Competitive Query Selection and Adaptive Feature Fusion
- Title(参考訳): DAMSDet: 競合クエリ選択と適応特徴融合を備えた動的適応型マルチスペクトル検出変換器
- Authors: Junjie Guo, Chenqiang Gao, Fangcen Liu, Deyu Meng and Xinbo Gao
- Abstract要約: 赤外可視物体検出は、赤外画像と可視画像の相補的情報を融合することにより、フルデイ物体検出の堅牢化を目指している。
本稿では,この2つの課題に対処する動的適応型マルチスペクトル検出変換器(DAMSDet)を提案する。
4つの公開データセットの実験は、他の最先端の手法と比較して大幅に改善されている。
- 参考スコア(独自算出の注目度): 82.2425759608975
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Infrared-visible object detection aims to achieve robust even full-day object
detection by fusing the complementary information of infrared and visible
images. However, highly dynamically variable complementary characteristics and
commonly existing modality misalignment make the fusion of complementary
information difficult. In this paper, we propose a Dynamic Adaptive
Multispectral Detection Transformer (DAMSDet) to simultaneously address these
two challenges. Specifically, we propose a Modality Competitive Query Selection
strategy to provide useful prior information. This strategy can dynamically
select basic salient modality feature representation for each object. To
effectively mine the complementary information and adapt to misalignment
situations, we propose a Multispectral Deformable Cross-attention module to
adaptively sample and aggregate multi-semantic level features of infrared and
visible images for each object. In addition, we further adopt the cascade
structure of DETR to better mine complementary information. Experiments on four
public datasets of different scenes demonstrate significant improvements
compared to other state-of-the-art methods. The code will be released at
https://github.com/gjj45/DAMSDet.
- Abstract(参考訳): 赤外可視物体検出は、赤外画像と可視画像の相補的情報を融合することにより、フルデイ物体検出の堅牢化を目指している。
しかし, 動的に変化する相補的特徴と既存の相補的不一致は, 相補的情報の融合を困難にする。
本稿では,この2つの課題に同時に対処する動的適応型マルチスペクトル検出変換器(DAMSDet)を提案する。
具体的には、有用な事前情報を提供するためのModality Competitive Query Selection戦略を提案する。
この戦略は、各オブジェクトに対する基本的なsalient modality feature表現を動的に選択することができる。
補完情報を効果的にマイニングし,不整合状況に適応するために,赤外線と可視画像の多面的特徴を適応的にサンプリング・集約する多スペクトル変形型クロスアテンションモジュールを提案する。
さらに,detrのカスケード構造を応用し,補完的情報をよりよくマイニングする。
異なるシーンの4つの公開データセットに関する実験は、他の最先端の方法に比べて大幅に改善されている。
コードはhttps://github.com/gjj45/damsdetでリリースされる。
関連論文リスト
- DPDETR: Decoupled Position Detection Transformer for Infrared-Visible Object Detection [42.70285733630796]
赤外可視物体検出は、赤外と可視画像の相補的な情報を活用することにより、堅牢な物体検出を実現することを目的としている。
相補的特徴の融合は困難であり、現在の手法では相補的条件下での両モードの物体の正確な検出はできない。
これらの問題に対処するための分離位置検出変換器を提案する。
DroneVehicleとKAISTデータセットの実験は、他の最先端の方法と比較して大幅に改善されている。
論文 参考訳(メタデータ) (2024-08-12T13:05:43Z) - PoIFusion: Multi-Modal 3D Object Detection via Fusion at Points of Interest [65.48057241587398]
PoIFusionは、関心点(PoIs)におけるRGBイメージとLiDARポイントクラウドに関する情報を融合するフレームワークである。
提案手法は,各モダリティの視点を維持し,計算にやさしいプロジェクションと計算によってマルチモーダル特徴を得る。
我々はnuScenesとArgoverse2データセットについて広範囲に実験を行い、我々のアプローチを評価した。
論文 参考訳(メタデータ) (2024-03-14T09:28:12Z) - Bi-directional Adapter for Multi-modal Tracking [67.01179868400229]
汎用の双方向アダプタを用いたマルチモーダル視覚プロンプト追跡モデルを提案する。
我々は、モーダリティ固有の情報をあるモーダリティから別のモーダリティへ転送するための、シンプルだが効果的なライト・フィーチャー・アダプタを開発した。
本モデルでは,完全微調整法と素早い学習法の両方と比較して,追跡性能が優れている。
論文 参考訳(メタデータ) (2023-12-17T05:27:31Z) - Multimodal Transformer Using Cross-Channel attention for Object Detection in Remote Sensing Images [1.662438436885552]
マルチモーダル融合は、複数のモーダルからのデータを融合することで精度を高めることが決定されている。
早期に異なるチャネル間の関係をマッピングするための新しいマルチモーダル融合戦略を提案する。
本手法は,中期・後期の手法とは対照的に,早期の融合に対処することにより,既存の手法と比較して,競争力や性能に優れる。
論文 参考訳(メタデータ) (2023-10-21T00:56:11Z) - Adaptive Rotated Convolution for Rotated Object Detection [96.94590550217718]
本稿では、回転物体検出問題に対処するために、適応回転変換(ARC)モジュールを提案する。
ARCモジュールでは、コンボリューションカーネルが適応的に回転し、異なる画像に異なる向きのオブジェクト特徴を抽出する。
提案手法は,81.77%mAPのDOTAデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2023-03-14T11:53:12Z) - Weakly Aligned Feature Fusion for Multimodal Object Detection [52.15436349488198]
マルチモーダルデータはしばしば位置ずれの問題に悩まされます。つまり、イメージペアは厳密に一致していません。
この問題により、マルチモーダルな特徴を融合させることが難しくなり、畳み込みニューラルネットワーク(CNN)のトレーニングが難解になる。
本稿では、位置ずれ問題に対処するために、アライメント領域CNN(AR-CNN)と呼ばれる汎用マルチモーダル検出器を提案する。
論文 参考訳(メタデータ) (2022-04-21T02:35:23Z) - Transformer-based Network for RGB-D Saliency Detection [82.6665619584628]
RGB-Dサリエンシ検出の鍵は、2つのモードにわたる複数のスケールで情報を完全なマイニングとヒューズすることである。
コンバータは機能融合と機能拡張の両面において高い有効性を示す一様操作であることを示す。
提案するネットワークは,最先端のRGB-D値検出手法に対して良好に動作する。
論文 参考訳(メタデータ) (2021-12-01T15:53:58Z) - Cross-Modality Fusion Transformer for Multispectral Object Detection [0.0]
マルチスペクトル画像ペアは、組み合わせた情報を提供し、オブジェクト検出アプリケーションがより信頼性が高く、堅牢になる。
本論文では,CFT (Cross-Modality Fusion Transformer) という,単純かつ効果的なクロスモーダル機能融合手法を提案する。
論文 参考訳(メタデータ) (2021-10-30T15:34:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。