論文の概要: YOLOv11-RGBT: Towards a Comprehensive Single-Stage Multispectral Object Detection Framework
- arxiv url: http://arxiv.org/abs/2506.14696v2
- Date: Wed, 18 Jun 2025 13:54:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-19 13:10:45.387375
- Title: YOLOv11-RGBT: Towards a Comprehensive Single-Stage Multispectral Object Detection Framework
- Title(参考訳): YOLOv11-RGBT: 総合的なシングルステージマルチスペクトルオブジェクト検出フレームワークを目指して
- Authors: Dahang Wan, Rongsheng Lu, Yang Fang, Xianli Lang, Shuangbao Shu, Jingjing Chen, Siyuan Shen, Ting Xu, Zecong Ye,
- Abstract要約: YOLOv11-RGBTは,新しい総合的マルチモーダルオブジェクト検出フレームワークである。
我々は6つのマルチスペクトル融合モードを設計し、YOLOv3からYOLOv12、RT-DETRのモデルに適用した。
実験により,LLVIPやFLIRのような3つの主要なオープンソースマルチスペクトルオブジェクト検出データセットに優れたフレームワークが得られた。
- 参考スコア(独自算出の注目度): 23.587408383983163
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multispectral object detection, which integrates information from multiple bands, can enhance detection accuracy and environmental adaptability, holding great application potential across various fields. Although existing methods have made progress in cross-modal interaction, low-light conditions, and model lightweight, there are still challenges like the lack of a unified single-stage framework, difficulty in balancing performance and fusion strategy, and unreasonable modality weight allocation. To address these, based on the YOLOv11 framework, we present YOLOv11-RGBT, a new comprehensive multimodal object detection framework. We designed six multispectral fusion modes and successfully applied them to models from YOLOv3 to YOLOv12 and RT-DETR. After reevaluating the importance of the two modalities, we proposed a P3 mid-fusion strategy and multispectral controllable fine-tuning (MCF) strategy for multispectral models. These improvements optimize feature fusion, reduce redundancy and mismatches, and boost overall model performance. Experiments show our framework excels on three major open-source multispectral object detection datasets, like LLVIP and FLIR. Particularly, the multispectral controllable fine-tuning strategy significantly enhanced model adaptability and robustness. On the FLIR dataset, it consistently improved YOLOv11 models' mAP by 3.41%-5.65%, reaching a maximum of 47.61%, verifying the framework and strategies' effectiveness. The code is available at: https://github.com/wandahangFY/YOLOv11-RGBT.
- Abstract(参考訳): 複数の帯域からの情報を統合したマルチスペクトル物体検出は、検出精度と環境適応性を向上し、様々な分野にわたる大きな応用可能性を保持する。
既存の手法では、クロスモーダル相互作用、低照度条件、モデル軽量化が進んでいるが、統一された単一ステージフレームワークの欠如、性能と融合戦略のバランスの困難さ、不合理なモダリティ重み付けといった課題がまだ残っている。
YOLOv11フレームワークをベースとして,新しい総合マルチモーダルオブジェクト検出フレームワークであるYOLOv11-RGBTを提案する。
6種類のマルチスペクトル融合モードを設計し, YOLOv3からYOLOv12, RT-DETRのモデルに適用した。
2つのモードの重要性を再評価した後、我々はマルチスペクトルモデルに対するP3中間融合戦略とマルチスペクトル制御可能微調整(MCF)戦略を提案した。
これらの改善は、機能融合を最適化し、冗長性とミスマッチを低減し、全体的なモデルパフォーマンスを向上する。
実験により,LLVIPやFLIRのような3つの主要なオープンソースマルチスペクトルオブジェクト検出データセットに優れたフレームワークが得られた。
特に、マルチスペクトル制御可能な微調整戦略は、モデルの適応性と堅牢性を著しく向上させた。
FLIRデータセットでは、YOLOv11モデルのmAPを3.41%-5.65%改善し、最大47.61%に達した。
コードは以下の通り。 https://github.com/wandahangFY/YOLOv11-RGBT。
関連論文リスト
- MGDFIS: Multi-scale Global-detail Feature Integration Strategy for Small Object Detection [10.135137525886098]
UAV画像の小さな物体検出は、探索・救助、交通監視、環境監視といった用途に不可欠である。
既存のマルチスケール融合法は、計算負荷を増し、詳細をぼかすのに役立つ。
本稿では,グローバルコンテキストと局所的な詳細を密結合して検出性能を向上させる統合融合フレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-15T02:54:25Z) - MASF-YOLO: An Improved YOLOv11 Network for Small Object Detection on Drone View [0.0]
マルチスケールコンテキストアグリゲーションとスケール適応型フュージョンYOLO(MASF-YOLO)を提案する。
UAV画像における小物体検出の難しさに対処するため,小型物体の検出精度を大幅に向上させるMFAM(Multi-scale Feature Aggregation Module)を設計した。
第3に,マルチスケール機能融合機能を強化したDASI(Dimension-Aware Selective Integration Module)を導入する。
論文 参考訳(メタデータ) (2025-04-25T07:43:33Z) - Efficient Multimodal 3D Object Detector via Instance-Level Contrastive Distillation [17.634678949648208]
提案したICDフレームワークとCLFM(Cross Linear Attention Fusion Module)を組み込んだ高速かつ効果的なマルチモーダル3Dオブジェクト検出器を提案する。
我々の3Dオブジェクト検出器は、より優れた効率を実現しつつ、最先端(SOTA)手法より優れています。
論文 参考訳(メタデータ) (2025-03-17T08:26:11Z) - SM3Det: A Unified Model for Multi-Modal Remote Sensing Object Detection [73.49799596304418]
本稿では,リモートセンシングのためのマルチモーダルデータセットとマルチタスクオブジェクト検出(M2Det)という新しいタスクを提案する。
水平方向または指向方向の物体を、あらゆるセンサーから正確に検出するように設計されている。
この課題は、1)マルチモーダルモデリングの管理に関わるトレードオフ、2)マルチタスク最適化の複雑さに起因する。
論文 参考訳(メタデータ) (2024-12-30T02:47:51Z) - Optimizing Multispectral Object Detection: A Bag of Tricks and Comprehensive Benchmarks [49.84182981950623]
RGBおよびTIR(熱赤外)変調を利用したマルチスペクトル物体検出は,課題として広く認識されている。
モダリティと堅牢な融合戦略の両方から特徴を効果的に抽出するだけでなく、スペクトルの相違といった問題に対処する能力も必要である。
本稿では,高パフォーマンス単一モードモデルのシームレスな最適化が可能な,効率的かつ容易にデプロイ可能なマルチスペクトルオブジェクト検出フレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-27T12:18:39Z) - YOLO-MS: Rethinking Multi-Scale Representation Learning for Real-time Object Detection [63.36722419180875]
YOLO-MSと呼ばれる効率的かつ高性能な物体検出器を提供する。
私たちは、他の大規模なデータセットに頼ることなく、MS COCOデータセット上でYOLO-MSをスクラッチからトレーニングします。
私たちの作業は、他のYOLOモデルのプラグイン・アンド・プレイモジュールとしても機能します。
論文 参考訳(メタデータ) (2023-08-10T10:12:27Z) - MLF-DET: Multi-Level Fusion for Cross-Modal 3D Object Detection [54.52102265418295]
MLF-DETと呼ばれる,高性能なクロスモーダル3DオブジェクトDrectionのための,新規かつ効果的なマルチレベルフュージョンネットワークを提案する。
特徴レベルの融合では、マルチスケールのボクセル特徴と画像の特徴を密集したマルチスケールのボクセル画像融合(MVI)モジュールを提示する。
本稿では,画像のセマンティクスを利用して検出候補の信頼度を補正するFCR(Feature-cued Confidence Rectification)モジュールを提案する。
論文 参考訳(メタデータ) (2023-07-18T11:26:02Z) - Multimodal Object Detection via Bayesian Fusion [59.31437166291557]
我々は、RGBとサーマルカメラでマルチモーダルオブジェクト検出を研究します。後者は照明不良下ではるかに強力なオブジェクトシグネチャを提供することができます。
我々の重要な貢献は、異なるモードのボックス検出を融合する非学習遅延融合法である。
このアプローチは、整列(KAIST)と非整列(FLIR)のマルチモーダルセンサーデータを含むベンチマークに適用されます。
論文 参考訳(メタデータ) (2021-04-07T04:03:20Z) - Exploring Data Augmentation for Multi-Modality 3D Object Detection [82.9988604088494]
ポイントクラウドとイメージに基づくマルチモダリティメソッドは、ポイントクラウドのみを使用するアプローチよりも、わずかに良いか、時には悪いだけである。
トランスフォーメーションフローと呼ばれるパイプラインを提案し、トランスフォーメーションのリバースとリプレイによってシングルモードとマルチモードのデータ拡張のギャップを埋める。
また,本手法は第3回nuScenes検出チャレンジでPKL賞を受賞した。
論文 参考訳(メタデータ) (2020-12-23T15:23:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。