論文の概要: Multispectral Detection Transformer with Infrared-Centric Sensor Fusion
- arxiv url: http://arxiv.org/abs/2505.15137v1
- Date: Wed, 21 May 2025 05:44:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:58.91351
- Title: Multispectral Detection Transformer with Infrared-Centric Sensor Fusion
- Title(参考訳): 赤外線センサフュージョンを用いたマルチスペクトル検出変換器
- Authors: Seongmin Hwang, Daeyoung Han, Moongu Jeon,
- Abstract要約: ICフュージョン(IC-Fusion)は、可視光と赤外線を融合する多スペクトル物体検出器である。
ウェーブレット解析と経験的観察により、IR画像は、物体の局在に重要な構造的にリッチな高周波情報を含んでいることがわかった。
- 参考スコア(独自算出の注目度): 8.762314897895175
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multispectral object detection aims to leverage complementary information from visible (RGB) and infrared (IR) modalities to enable robust performance under diverse environmental conditions. In this letter, we propose IC-Fusion, a multispectral object detector that effectively fuses visible and infrared features through a lightweight and modalityaware design. Motivated by wavelet analysis and empirical observations, we find that IR images contain structurally rich high-frequency information critical for object localization, while RGB images provide complementary semantic context. To exploit this, we adopt a compact RGB backbone and design a novel fusion module comprising a Multi-Scale Feature Distillation (MSFD) block to enhance RGB features and a three-stage fusion block with Cross-Modal Channel Shuffle Gate (CCSG) and Cross-Modal Large Kernel Gate (CLKG) to facilitate effective cross-modal interaction. Experiments on the FLIR and LLVIP benchmarks demonstrate the effectiveness and efficiency of our IR-centric fusion strategy. Our code is available at https://github.com/smin-hwang/IC-Fusion.
- Abstract(参考訳): マルチスペクトル物体検出は、可視光(RGB)と赤外線(IR)の相補的な情報を活用し、多様な環境条件下での堅牢な性能を実現することを目的としている。
そこで本論文では,可視・近赤外特性を効果的に融合するマルチスペクトル物体検出器IC-Fusionを提案する。
ウェーブレット解析と経験的観察により,RGB画像は相補的な意味的文脈を提供するのに対し,IR画像は対象位置決定に不可欠な構造的に豊富な高周波情報を含んでいることがわかった。
これを活用するために,コンパクトなRGBバックボーンを採用し,マルチスケール機能拡張ブロック(MSFD)と,クロスモーダルチャネルシャッフルゲート(CCSG)とクロスモーダル大型カーネルゲート(CLKG)を併用した3段階融合ブロックを設計し,効率的なクロスモーダルインタラクションを実現する。
FLIRおよびLLVIPベンチマークの実験は、我々のIR中心核融合戦略の有効性と効率を実証している。
私たちのコードはhttps://github.com/smin-hwang/IC-Fusion.comで利用可能です。
関連論文リスト
- Bringing RGB and IR Together: Hierarchical Multi-Modal Enhancement for Robust Transmission Line Detection [67.02804741856512]
高速かつ高精度なTL検出のために,RGBとIRデータを統合したHMMEN(Hierarchical Multi-Modal Enhancement Network)を提案する。
提案手法では,(1)階層的RGBおよびIR特徴写像を大まかに融合・拡張するMMEB,(2)デコーダ出力とIR特徴写像の不整合を変形可能な畳み込みを利用して補正するFAB,の2つの重要な構成要素を紹介する。
論文 参考訳(メタデータ) (2025-01-25T06:21:06Z) - Removal then Selection: A Coarse-to-Fine Fusion Perspective for RGB-Infrared Object Detection [20.12812979315803]
可視光(RGB)と熱赤外(IR)画像の両方を利用した物体検出が注目されている。
既存の多くのマルチモーダルオブジェクト検出手法は、RGBとIR画像をディープニューラルネットワークに直接入力する。
両モダリティから特徴を浄化・融合する新しい粗大な視点を提案する。
論文 参考訳(メタデータ) (2024-01-19T14:49:42Z) - CDDFuse: Correlation-Driven Dual-Branch Feature Decomposition for
Multi-Modality Image Fusion [138.40422469153145]
本稿では,CDDFuse(Relationed-Driven Feature Decomposition Fusion)ネットワークを提案する。
近赤外可視画像融合や医用画像融合など,複数の融合タスクにおいてCDDFuseが有望な結果をもたらすことを示す。
論文 参考訳(メタデータ) (2022-11-26T02:40:28Z) - CIR-Net: Cross-modality Interaction and Refinement for RGB-D Salient
Object Detection [144.66411561224507]
本稿では,CIR-Netと呼ばれる畳み込みニューラルネットワーク(CNN)モデルを提案する。
我々のネットワークは、定性的かつ定量的に最先端の塩分濃度検出器より優れています。
論文 参考訳(メタデータ) (2022-10-06T11:59:19Z) - EPMF: Efficient Perception-aware Multi-sensor Fusion for 3D Semantic Segmentation [62.210091681352914]
自律運転やロボティクスなど,多くのアプリケーションを対象とした3次元セマンティックセマンティックセグメンテーションのためのマルチセンサフュージョンについて検討する。
本研究では,知覚認識型マルチセンサフュージョン(PMF)と呼ばれる協調融合方式について検討する。
本稿では,2つのモードから特徴を分離して抽出する2ストリームネットワークを提案する。
論文 参考訳(メタデータ) (2021-06-21T10:47:26Z) - Siamese Network for RGB-D Salient Object Detection and Beyond [113.30063105890041]
共有ネットワークバックボーンを通じてRGBと深度入力の両方から学習するための新しいフレームワークが提案されている。
5つの一般的な指標を用いた総合的な実験は、設計されたフレームワークが堅牢なRGB-D塩分濃度検出器をもたらすことを示している。
また、JL-DCFをRGB-Dセマンティックセマンティックセマンティクスフィールドにリンクし、いくつかのセマンティクスセマンティクスモデルよりも優れた性能を示す。
論文 参考訳(メタデータ) (2020-08-26T06:01:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。