論文の概要: Multispectral Detection Transformer with Infrared-Centric Feature Fusion
- arxiv url: http://arxiv.org/abs/2505.15137v2
- Date: Mon, 14 Jul 2025 11:40:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-15 14:36:07.166208
- Title: Multispectral Detection Transformer with Infrared-Centric Feature Fusion
- Title(参考訳): 赤外線中心核融合を用いたマルチスペクトル検出変換器
- Authors: Seongmin Hwang, Daeyoung Han, Moongu Jeon,
- Abstract要約: Infrared-Centric Fusion (IC-Fusion) は、軽量でモダリティに配慮したセンサー融合法である。
IC-Fusionは、補完的なRGBセマンティックコンテキストを効果的に統合しながら、赤外線機能を優先する。
FLIRおよびLLVIPベンチマークの実験は、我々のIR中心核融合戦略の有効性と効率性を実証している。
- 参考スコア(独自算出の注目度): 8.762314897895175
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multispectral object detection aims to leverage complementary information from visible (RGB) and infrared (IR) modalities to enable robust performance under diverse environmental conditions. Our key insight, derived from wavelet analysis and empirical observations, is that IR images contain structurally rich high-frequency information critical for object detection, making an infrared-centric approach highly effective. To capitalize on this finding, we propose Infrared-Centric Fusion (IC-Fusion), a lightweight and modality-aware sensor fusion method that prioritizes infrared features while effectively integrating complementary RGB semantic context. IC-Fusion adopts a compact RGB backbone and designs a novel fusion module comprising a Multi-Scale Feature Distillation (MSFD) block to enhance RGB features and a three-stage fusion block with a Cross-Modal Channel Shuffle Gate (CCSG), a Cross-Modal Large Kernel Gate (CLKG), and a Channel Shuffle Projection (CSP) to facilitate effective cross-modal interaction. Experiments on the FLIR and LLVIP benchmarks demonstrate the superior effectiveness and efficiency of our IR-centric fusion strategy, further validating its benefits. Our code is available at https://github.com/smin-hwang/IC-Fusion.
- Abstract(参考訳): マルチスペクトル物体検出は、可視光(RGB)と赤外線(IR)の相補的な情報を活用し、多様な環境条件下での堅牢な性能を実現することを目的としている。
我々の重要な洞察は、ウェーブレット分析と経験的観察から得られたもので、赤外線画像は、物体検出に不可欠な構造的に豊富な高周波情報を含んでおり、赤外線中心のアプローチを極めて効果的にしている。
そこで本研究では,赤外特徴を優先し,補完的なRGBセマンティックコンテキストを効果的に統合した,軽量かつモダリティに配慮したセンサ融合法である,赤外線中心核融合(IC-Fusion)を提案する。
IC-FusionはコンパクトなRGBバックボーンを採用し、RGB機能を強化するためのMSFD(Multi-Scale Feature Distillation)ブロックと、クロスモーダルチャネルシャッフルゲート(CCSG)、クロスモーダル大型カーネルゲート(CLKG)、チャンネルシャッフルプロジェクション(CSP)を備えた3段階のフュージョンブロックからなる新しいフュージョンモジュールを設計した。
FLIRおよびLLVIPベンチマークの実験は、我々のIR中心核融合戦略の優れた有効性と効率を示し、その利点をさらに検証した。
私たちのコードはhttps://github.com/smin-hwang/IC-Fusion.comで利用可能です。
関連論文リスト
- A High-Performance Thermal Infrared Object Detection Framework with Centralized Regulation [5.935808994536907]
本稿では,CRT-YOLO(CRT-YOLO)と呼ばれる,高効率な熱物体検出フレームワークについて述べる。
提案モデルでは,高効率なマルチスケール赤外アテンションモジュールを統合した。
2つのベンチマークデータセットで行った実験は、我々のCRT-YOLOモデルが従来の手法よりも大幅に優れていることを示した。
論文 参考訳(メタデータ) (2025-05-16T03:43:24Z) - Bringing RGB and IR Together: Hierarchical Multi-Modal Enhancement for Robust Transmission Line Detection [67.02804741856512]
高速かつ高精度なTL検出のために,RGBとIRデータを統合したHMMEN(Hierarchical Multi-Modal Enhancement Network)を提案する。
提案手法では,(1)階層的RGBおよびIR特徴写像を大まかに融合・拡張するMMEB,(2)デコーダ出力とIR特徴写像の不整合を変形可能な畳み込みを利用して補正するFAB,の2つの重要な構成要素を紹介する。
論文 参考訳(メタデータ) (2025-01-25T06:21:06Z) - Removal then Selection: A Coarse-to-Fine Fusion Perspective for RGB-Infrared Object Detection [20.12812979315803]
可視光(RGB)と熱赤外(IR)画像の両方を利用した物体検出が注目されている。
既存の多くのマルチモーダルオブジェクト検出手法は、RGBとIR画像をディープニューラルネットワークに直接入力する。
両モダリティから特徴を浄化・融合する新しい粗大な視点を提案する。
論文 参考訳(メタデータ) (2024-01-19T14:49:42Z) - RXFOOD: Plug-in RGB-X Fusion for Object of Interest Detection [22.53413063906737]
2分岐のRGB-Xディープニューラルネットワークにおいて重要な部分は、モーダル間で情報を融合する方法である。
同じモード分岐と異なるモード分岐の異なるスケールにおける特徴の融合のためのRXFOODを提案する。
RGB-NIRサリエント物体検出,RGB-Dサリエント物体検出,RGBFrequency Image Operation Detectionの実験結果から,提案したRXFOODの有効性が確認された。
論文 参考訳(メタデータ) (2023-06-22T01:27:00Z) - CDDFuse: Correlation-Driven Dual-Branch Feature Decomposition for
Multi-Modality Image Fusion [138.40422469153145]
本稿では,CDDFuse(Relationed-Driven Feature Decomposition Fusion)ネットワークを提案する。
近赤外可視画像融合や医用画像融合など,複数の融合タスクにおいてCDDFuseが有望な結果をもたらすことを示す。
論文 参考訳(メタデータ) (2022-11-26T02:40:28Z) - Interactive Context-Aware Network for RGB-T Salient Object Detection [7.544240329265388]
ICANet(Interactive Context-Aware Network)と呼ばれる新しいネットワークを提案する。
ICANetには、クロスモーダルとクロススケールの融合を効果的に実行する3つのモジュールが含まれている。
実験により,我々のネットワークは最先端のRGB-T SOD法に対して良好に動作していることが示された。
論文 参考訳(メタデータ) (2022-11-11T10:04:36Z) - CIR-Net: Cross-modality Interaction and Refinement for RGB-D Salient
Object Detection [144.66411561224507]
本稿では,CIR-Netと呼ばれる畳み込みニューラルネットワーク(CNN)モデルを提案する。
我々のネットワークは、定性的かつ定量的に最先端の塩分濃度検出器より優れています。
論文 参考訳(メタデータ) (2022-10-06T11:59:19Z) - Transformer-based Network for RGB-D Saliency Detection [82.6665619584628]
RGB-Dサリエンシ検出の鍵は、2つのモードにわたる複数のスケールで情報を完全なマイニングとヒューズすることである。
コンバータは機能融合と機能拡張の両面において高い有効性を示す一様操作であることを示す。
提案するネットワークは,最先端のRGB-D値検出手法に対して良好に動作する。
論文 参考訳(メタデータ) (2021-12-01T15:53:58Z) - Infrared Small-Dim Target Detection with Transformer under Complex
Backgrounds [155.388487263872]
変換器を用いた赤外線小径目標検出手法を提案する。
画像特徴の相互作用情報をより広い範囲で学習するために,変換器の自己認識機構を採用する。
最小限のターゲットの機能を学習するための機能拡張モジュールも設計しています。
論文 参考訳(メタデータ) (2021-09-29T12:23:41Z) - EPMF: Efficient Perception-aware Multi-sensor Fusion for 3D Semantic Segmentation [62.210091681352914]
自律運転やロボティクスなど,多くのアプリケーションを対象とした3次元セマンティックセマンティックセグメンテーションのためのマルチセンサフュージョンについて検討する。
本研究では,知覚認識型マルチセンサフュージョン(PMF)と呼ばれる協調融合方式について検討する。
本稿では,2つのモードから特徴を分離して抽出する2ストリームネットワークを提案する。
論文 参考訳(メタデータ) (2021-06-21T10:47:26Z) - Siamese Network for RGB-D Salient Object Detection and Beyond [113.30063105890041]
共有ネットワークバックボーンを通じてRGBと深度入力の両方から学習するための新しいフレームワークが提案されている。
5つの一般的な指標を用いた総合的な実験は、設計されたフレームワークが堅牢なRGB-D塩分濃度検出器をもたらすことを示している。
また、JL-DCFをRGB-Dセマンティックセマンティックセマンティクスフィールドにリンクし、いくつかのセマンティクスセマンティクスモデルよりも優れた性能を示す。
論文 参考訳(メタデータ) (2020-08-26T06:01:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。