論文の概要: The Solution for the GAIIC2024 RGB-TIR object detection Challenge
- arxiv url: http://arxiv.org/abs/2407.03872v1
- Date: Thu, 4 Jul 2024 12:08:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-08 18:12:58.447804
- Title: The Solution for the GAIIC2024 RGB-TIR object detection Challenge
- Title(参考訳): GAIIC2024 RGB-TIRオブジェクト検出チャレンジの解法
- Authors: Xiangyu Wu, Jinling Xu, Longfei Huang, Yang Yang,
- Abstract要約: RGB-TIRオブジェクト検出は、RGBとTIRの両方の画像を、検出中に補完情報として利用する。
提案手法はAとBのベンチマークでそれぞれ0.516と0.543のmAPスコアを得た。
- 参考スコア(独自算出の注目度): 5.625794757504552
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This report introduces a solution to The task of RGB-TIR object detection from the perspective of unmanned aerial vehicles. Unlike traditional object detection methods, RGB-TIR object detection aims to utilize both RGB and TIR images for complementary information during detection. The challenges of RGB-TIR object detection from the perspective of unmanned aerial vehicles include highly complex image backgrounds, frequent changes in lighting, and uncalibrated RGB-TIR image pairs. To address these challenges at the model level, we utilized a lightweight YOLOv9 model with extended multi-level auxiliary branches that enhance the model's robustness, making it more suitable for practical applications in unmanned aerial vehicle scenarios. For image fusion in RGB-TIR detection, we incorporated a fusion module into the backbone network to fuse images at the feature level, implicitly addressing calibration issues. Our proposed method achieved an mAP score of 0.516 and 0.543 on A and B benchmarks respectively while maintaining the highest inference speed among all models.
- Abstract(参考訳): 本報告では,無人航空機の観点からのRGB-TIR物体検出の課題について紹介する。
従来のオブジェクト検出方法とは異なり、RGB-TIRオブジェクト検出は、RGBとTIRの両方のイメージを、検出中に補完的な情報として利用することを目的としている。
無人航空機の観点からのRGB-TIRオブジェクト検出の課題には、高度に複雑な画像背景、照明の頻繁な変化、RGB-TIRイメージペアの未調整などが含まれる。
モデルレベルでのこれらの課題に対処するために,多段補助枝を拡張した軽量YOLOv9モデルを用いて,モデルのロバスト性を向上し,無人航空機シナリオの実用化に適している。
RGB-TIR検出における画像融合のために,バックボーンネットワークに融合モジュールを組み込んで特徴レベルで画像を融合させ,キャリブレーションの問題に暗黙的に対処した。
提案手法は,AとBのベンチマークでそれぞれ0.516と0.543のmAPスコアを達成し,各モデルで最高の推論速度を維持した。
関連論文リスト
- Removal then Selection: A Coarse-to-Fine Fusion Perspective for RGB-Infrared Object Detection [20.12812979315803]
可視光(RGB)と熱赤外(IR)画像の両方を利用した物体検出が注目されている。
既存の多くのマルチモーダルオブジェクト検出手法は、RGBとIR画像をディープニューラルネットワークに直接入力する。
両モダリティから特徴を浄化・融合する新しい粗大な視点を提案する。
論文 参考訳(メタデータ) (2024-01-19T14:49:42Z) - $\mathbf{C}^2$Former: Calibrated and Complementary Transformer for
RGB-Infrared Object Detection [18.27510863075184]
本稿では,モダリティの誤校正や不正確な問題に対処するため,$mathrmC2$Formerと呼ばれる新しい校正・補足変換器を提案する。
mathrmC2$Formerは機能ドメインで機能するため、バックボーンネットワークを介して既存のRGB-IRオブジェクト検出器に組み込むことができる。
論文 参考訳(メタデータ) (2023-06-28T12:52:48Z) - Symmetric Uncertainty-Aware Feature Transmission for Depth
Super-Resolution [52.582632746409665]
カラー誘導DSRのためのSymmetric Uncertainty-aware Feature Transmission (SUFT)を提案する。
本手法は最先端の手法と比較して優れた性能を実現する。
論文 参考訳(メタデータ) (2023-06-01T06:35:59Z) - Assessing thermal imagery integration into object detection methods on
ground-based and air-based collection platforms [0.0]
物体検出機械学習(ML)モデルの性能を高めるために、熱長波赤外線(LWIR)画像でRGBを融合する。
地上混合RGB-LWIRモデルは、RGBまたはLWIRのアプローチよりも優れた性能を示し、98.4%のmAPを達成した。
本研究は,地上および航空プラットフォームから収集したRGB,LWIR,RGB-LWIR融合画像に対して,12,600枚の画像のラベル付きトレーニングデータセットを新たに提供した。
論文 参考訳(メタデータ) (2022-12-23T23:51:53Z) - Does Thermal Really Always Matter for RGB-T Salient Object Detection? [153.17156598262656]
本稿では,RGB-T有意物体検出(SOD)タスクを解決するために,TNetというネットワークを提案する。
本稿では,画像のグローバル照度を推定するためのグローバル照度推定モジュールを提案する。
一方, 2段階の局所化と相補化モジュールを導入し, 熱的特徴の物体位置化キューと内部整合キューをRGBモダリティに転送する。
論文 参考訳(メタデータ) (2022-10-09T13:50:12Z) - Translation, Scale and Rotation: Cross-Modal Alignment Meets
RGB-Infrared Vehicle Detection [10.460296317901662]
空中RGB-IR画像における検出は, クロスモーダルな不整合問題に悩まされている。
本稿では,TSRA (Translation-Scale-Rotation Alignment) モジュールを提案する。
TSRAモジュールに基づく2ストリーム特徴アライメント検出器(TSFADet)は、空中画像におけるRGB-IRオブジェクト検出のために構築されている。
論文 参考訳(メタデータ) (2022-09-28T03:06:18Z) - Mirror Complementary Transformer Network for RGB-thermal Salient Object
Detection [16.64781797503128]
RGB-熱的物体検出(RGB-T SOD)は、視光対と熱赤外画像対の一般的な顕著な物体を見つけることを目的としている。
本稿では,RGB-T SODのための新しいミラー補完トランスフォーマネットワーク(MCNet)を提案する。
ベンチマークとVT723データセットの実験により、提案手法は最先端の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2022-07-07T20:26:09Z) - Boosting RGB-D Saliency Detection by Leveraging Unlabeled RGB Images [89.81919625224103]
RGB-D Salient Object Detection (SOD) のための深層モデルの訓練は、しばしば多数のラベル付きRGB-D画像を必要とする。
本稿では、ラベルのないRGB画像を活用するために、Dual-Semi RGB-D Salient Object Detection Network (DS-Net)を提案する。
論文 参考訳(メタデータ) (2022-01-01T03:02:27Z) - Learning Selective Mutual Attention and Contrast for RGB-D Saliency
Detection [145.4919781325014]
クロスモーダル情報を効果的に融合する方法は、RGB-Dの有能な物体検出の鍵となる問題である。
多くのモデルは特徴融合戦略を用いるが、低次点対点融合法によって制限されている。
本研究では,異なるモダリティから注目とコンテキストを融合させることにより,新たな相互注意モデルを提案する。
論文 参考訳(メタデータ) (2020-10-12T08:50:10Z) - Cross-Modal Weighting Network for RGB-D Salient Object Detection [76.0965123893641]
我々は,RGB-D SODの深度チャネルとRGB-D SODの包括的相互作用を促進するために,新しいクロスモーダルウェイトリング(CMW)戦略を提案する。
具体的には、CMW-L、CMW-M、CMW-Hという3つのRGB-depth相互作用モジュールが、それぞれ低レベル、中級、高レベルのクロスモーダル情報融合を扱うように開発されている。
CMWNetは、7つの人気のあるベンチマークで15の最先端のRGB-D SODメソッドを上回っている。
論文 参考訳(メタデータ) (2020-07-09T16:01:44Z) - Drone-based RGB-Infrared Cross-Modality Vehicle Detection via
Uncertainty-Aware Learning [59.19469551774703]
ドローンによる車両検出は、空中画像中の車両の位置とカテゴリーを見つけることを目的としている。
我々はDroneVehicleと呼ばれる大規模ドローンベースのRGB赤外線車両検出データセットを構築した。
私たちのDroneVehicleは28,439RGBの赤外線画像を収集し、都市道路、住宅地、駐車場、その他のシナリオを昼から夜までカバーしています。
論文 参考訳(メタデータ) (2020-03-05T05:29:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。