論文の概要: LER-YOLO: Reliability-Aware Expert Routing for Misaligned RGB-Infrared UAV Detection
- arxiv url: http://arxiv.org/abs/2605.20667v1
- Date: Wed, 20 May 2026 03:33:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-21 19:19:56.462046
- Title: LER-YOLO: Reliability-Aware Expert Routing for Misaligned RGB-Infrared UAV Detection
- Title(参考訳): LER-YOLO:RGB赤外線UAV検出の信頼性に配慮したエキスパートルーティング
- Authors: Liming Hou, Yueping Peng, Hexiang Hao, Ji Wang, Xuekai Zhang, Wei Tang, Zecong Ye, Xin Ying, Yubo He,
- Abstract要約: LER-YOLOは、RGB赤外線UAV検出のための、信頼性に配慮したスパース・オブ・エキスパート・フレームワークである。
YOLOv5s- familyプロトコルの下での公開MBUベンチマークの実験では、LER-YOLOは3つの独立種子に対して89.7 +/-0.2% AP50を達成し、89.9%の最高結果が得られた。
- 参考スコア(独自算出の注目度): 6.816296803605649
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Detecting small unmanned aerial vehicles from RGB-infrared remote-sensing pairs remains challenging due to tiny target scale, cluttered backgrounds, and spatial misalignment between heterogeneous sensors. Existing bimodal detectors often align or fuse features without assessing the reliability of local cross-sensor correspondence, allowing mismatch artifacts to propagate into the detection head. To address this issue, we propose LER-YOLO, a reliability-aware sparse mixture-of-experts framework for misaligned RGB-infrared UAV detection. LER-YOLO first introduces an Uncertainty-Aware Target Alignment module that resamples visible features toward the infrared reference and estimates a spatial reliability map. This reliability prior is then used by a Reliability-Guided Sparse MoE Fusion module to adaptively select k experts from RGB-dominant, infrared-dominant, and interactive fusion experts, enabling trustworthy cross-modal interaction while suppressing unreliable fusion. Experiments on the public MBU benchmark under a YOLOv5s-family protocol show that LER-YOLO achieves 89.7+/-0.2% AP50 over three independent seeds, with a best result of 89.9%. Extensive ablations, parameter-matched comparisons, synthetic-shift evaluations, and complexity analysis demonstrate that the gains mainly come from reliability-guided expert routing rather than increased model capacity.
- Abstract(参考訳): RGB-赤外線リモートセンシングペアから小型無人航空機を検出することは、小さな目標スケール、散在する背景、異種センサー間の空間的不整合のため、依然として困難である。
既存のバイモーダル検出器は、しばしば局所的なクロスセンサー対応の信頼性を評価せずに、特徴を整列または融合させ、ミスマッチアーティファクトを検出ヘッドに伝播させる。
この問題に対処するために,RGB-赤外線UAV検出のミスアライメントのための信頼性を考慮したスパース・オブ・エキスパート・フレームワークであるLER-YOLOを提案する。
LER-YOLOはまず、赤外線基準に向けて可視像を再サンプリングし、空間信頼性マップを推定するUncertainty-Aware Target Alignmentモジュールを導入した。
この信頼性はReliability-Guided Sparse MoE Fusionモジュールによって、RGB-dominant、赤外線-dominant、インタラクティブな融合の専門家からk名の専門家を適応的に選別し、信頼できない核融合を抑えながら信頼性の高い相互モーダル相互作用を可能にする。
YOLOv5s- familyプロトコルの下での公開MBUベンチマークの実験では、LER-YOLOは3つの独立種子に対して89.7+/-0.2% AP50を達成し、89.9%の最高結果が得られた。
広範囲な改善,パラメータマッチング比較,合成シフト評価,複雑性解析により,モデル容量の増大よりも信頼性の高いエキスパートルーティングが主な原因であることが示されている。
関連論文リスト
- Knowledge-Guided Adversarial Training for Infrared Object Detection via Thermal Radiation Modeling [49.887347082863194]
本研究では,異なるクラス間の相対的な熱放射関係を,敵対的事例や共通の腐敗の複雑なシナリオの下で信頼性の高い知識源とみなすことができることを示す。
本稿では,赤外線物体検出のための知識誘導型逆トレーニング(KGAT)を提案する。
論文 参考訳(メタデータ) (2026-03-26T08:43:43Z) - Alignment-Aware and Reliability-Gated Multimodal Fusion for Unmanned Aerial Vehicle Detection Across Heterogeneous Thermal-Visual Sensors [6.686898063543218]
本研究は,Registration-Aware Guided Image Fusion (RGIF)とReliability-Gated Modality-Attention Fusion (RGMAF)の2つの融合戦略を紹介する。
RGIFは拡張相関係数(ECC)ベースのアフィン登録とガイドフィルターを組み合わせて熱塩分濃度を維持しながら構造的詳細を増強する。
RGMAFは、アフィンと光フローの登録と、熱コントラストと視覚的シャープネスを適応的にバランスさせる信頼性の高い注意機構を統合する。
論文 参考訳(メタデータ) (2026-03-09T10:39:26Z) - Small Target Detection Based on Mask-Enhanced Attention Fusion of Visible and Infrared Remote Sensing Images [8.72869311285096]
本研究は、ESM-YOLO+を軽量可視赤外線融合ネットワークとして提示する。
検出を強化するために、ESM-YOLO+には2つの重要な革新が含まれている。
ESM-YOLO+は、リアルタイムデプロイメントの実践性と強力なパフォーマンスを統合している。
論文 参考訳(メタデータ) (2026-03-06T22:53:27Z) - MambaRefine-YOLO: A Dual-Modality Small Object Detector for UAV Imagery [1.005854289245731]
無人航空機(UAV)画像における小さな物体検出は、低解像度と背景の乱れによって妨げられる永続的な課題である。
我々は,RGBとIRモダリティのバランスをとる融合モジュールであるMamba-YOLOを紹介した。
我々の研究は精度と速度のバランスが優れており、実際のUAVアプリケーションに非常に適している。
論文 参考訳(メタデータ) (2025-11-24T13:59:01Z) - Multispectral Detection Transformer with Infrared-Centric Feature Fusion [8.762314897895175]
Infrared-Centric Fusion (IC-Fusion) は、軽量でモダリティに配慮したセンサー融合法である。
IC-Fusionは、補完的なRGBセマンティックコンテキストを効果的に統合しながら、赤外線機能を優先する。
FLIRおよびLLVIPベンチマークの実験は、我々のIR中心核融合戦略の有効性と効率性を実証している。
論文 参考訳(メタデータ) (2025-05-21T05:44:14Z) - Multi-Domain Biometric Recognition using Body Embeddings [51.36007967653781]
身体埋め込みは中波長赤外線(MWIR)領域と長波長赤外線(LWIR)領域の顔埋め込みよりも優れていた。
我々は、IJB-MDFデータセット上でのベンチマーク結果を確立するために、ビジョントランスフォーマーアーキテクチャを活用している。
また, クロスエントロピーとトリプルト損失の単純な組み合わせで, VISデータにのみ事前訓練された体モデルを微調整することで, 最先端のmAPスコアが得られることを示す。
論文 参考訳(メタデータ) (2025-03-13T22:38:18Z) - Bringing RGB and IR Together: Hierarchical Multi-Modal Enhancement for Robust Transmission Line Detection [67.02804741856512]
高速かつ高精度なTL検出のために,RGBとIRデータを統合したHMMEN(Hierarchical Multi-Modal Enhancement Network)を提案する。
提案手法では,(1)階層的RGBおよびIR特徴写像を大まかに融合・拡張するMMEB,(2)デコーダ出力とIR特徴写像の不整合を変形可能な畳み込みを利用して補正するFAB,の2つの重要な構成要素を紹介する。
論文 参考訳(メタデータ) (2025-01-25T06:21:06Z) - Infra-YOLO: Efficient Neural Network Structure with Model Compression for Real-Time Infrared Small Object Detection [4.586010474241955]
InfraTinyという新しいデータセットが構築され、85%以上のバウンディングボックスは32x32ピクセル未満である(3218の画像と合計20,893バウンディングボックス)。
マルチスケールアテンション機構モジュール (MSAM) とFeature Fusion Augmentation Pyramid Module (FFAFPM) が提案され,組込みデバイスに展開された。
提案手法をInfra-YOLOと呼ばれるYOLOモデルに統合することにより、赤外線小物体検出性能が向上した。
論文 参考訳(メタデータ) (2024-08-14T10:49:14Z) - SIRST-5K: Exploring Massive Negatives Synthesis with Self-supervised
Learning for Robust Infrared Small Target Detection [53.19618419772467]
単一フレーム赤外線小ターゲット検出(SIRST)は、乱雑な背景から小さなターゲットを認識することを目的としている。
Transformerの開発に伴い、SIRSTモデルのスケールは常に増大している。
赤外線小ターゲットデータの多彩な多様性により,本アルゴリズムはモデル性能と収束速度を大幅に改善する。
論文 参考訳(メタデータ) (2024-03-08T16:14:54Z) - Target-aware Dual Adversarial Learning and a Multi-scenario
Multi-Modality Benchmark to Fuse Infrared and Visible for Object Detection [65.30079184700755]
本研究は、物体検出のために異なるように見える赤外線と可視画像の融合の問題に対処する。
従来のアプローチでは、2つのモダリティの根底にある共通点を発見し、反復最適化またはディープネットワークによって共通空間に融合する。
本稿では、融合と検出の連立問題に対する二段階最適化の定式化を提案し、その後、核融合と一般的に使用される検出ネットワークのためのターゲット認識デュアル逆学習(TarDAL)ネットワークに展開する。
論文 参考訳(メタデータ) (2022-03-30T11:44:56Z) - Multimodal Object Detection via Bayesian Fusion [59.31437166291557]
我々は、RGBとサーマルカメラでマルチモーダルオブジェクト検出を研究します。後者は照明不良下ではるかに強力なオブジェクトシグネチャを提供することができます。
我々の重要な貢献は、異なるモードのボックス検出を融合する非学習遅延融合法である。
このアプローチは、整列(KAIST)と非整列(FLIR)のマルチモーダルセンサーデータを含むベンチマークに適用されます。
論文 参考訳(メタデータ) (2021-04-07T04:03:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。