論文の概要: EGD-YOLO: A Lightweight Multimodal Framework for Robust Drone-Bird Discrimination via Ghost-Enhanced YOLOv8n and EMA Attention under Adverse Condition
- arxiv url: http://arxiv.org/abs/2510.10765v1
- Date: Sun, 12 Oct 2025 19:05:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:30.098439
- Title: EGD-YOLO: A Lightweight Multimodal Framework for Robust Drone-Bird Discrimination via Ghost-Enhanced YOLOv8n and EMA Attention under Adverse Condition
- Title(参考訳): EGD-YOLO:ゴースト強化YOLOv8nとEMAによるロバストドローン・バイド識別のための軽量マルチモーダルフレームワーク
- Authors: Sudipto Sarkar, Mohammad Asif Hasan, Khondokar Ashik Shahriar, Fablia Labiba, Nahian Tasnim, Sheikh Anawarul Haq Fattah,
- Abstract要約: 本研究では,物体検出のための新しい軽量で強力なモデルEGD-YOLOv8nを提案する。
スマートな設計変更とアテンションレイヤを使用して、必要な計算量を削減しながら、重要な詳細に集中する。
特別な検出ヘッドは、モデルが異なる形状と大きさのオブジェクトに適応するのに役立ちます。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Identifying drones and birds correctly is essential for keeping the skies safe and improving security systems. Using the VIP CUP 2025 dataset, which provides both RGB and infrared (IR) images, this study presents EGD-YOLOv8n, a new lightweight yet powerful model for object detection. The model improves how image features are captured and understood, making detection more accurate and efficient. It uses smart design changes and attention layers to focus on important details while reducing the amount of computation needed. A special detection head helps the model adapt to objects of different shapes and sizes. We trained three versions: one using RGB images, one using IR images, and one combining both. The combined model achieved the best accuracy and reliability while running fast enough for real-time use on common GPUs.
- Abstract(参考訳): ドローンや鳥を正しく識別することは、空を安全に保ち、セキュリティシステムを改善するために不可欠だ。
RGB画像と赤外線画像の両方を提供するVIP CUP 2025データセットを用いて,新しい軽量かつ強力なオブジェクト検出モデルEGD-YOLOv8nを提案する。
このモデルは、画像の特徴をキャプチャして理解する方法を改善し、検出をより正確かつ効率的にする。
スマートな設計変更とアテンションレイヤを使用して、必要な計算量を削減しながら、重要な詳細に集中する。
特別な検出ヘッドは、モデルが異なる形状と大きさのオブジェクトに適応するのに役立ちます。
1つはRGB画像、もう1つはIR画像、もう1つは組み合わせたものです。
組み合わせたモデルは、一般的なGPUでリアルタイムに使用するのに十分な速度で実行しながら、最高の精度と信頼性を実現した。
関連論文リスト
- SpectraSentinel: LightWeight Dual-Stream Real-Time Drone Detection, Tracking and Payload Identification [0.0903415485511869]
民間空域でのドローンの拡散は、緊急のセキュリティ上の懸念を引き起こしている。
2025年のVIPカップの課題に対応するため、我々は2ストリームのドローン監視フレームワークを提案する。
我々のアプローチでは、並列赤外(熱)および可視(RGB)データストリーム上に、独立してYou Only Look Once v11-nano (YOLOv11n)オブジェクト検出器をデプロイする。
論文 参考訳(メタデータ) (2025-07-30T13:10:13Z) - DGE-YOLO: Dual-Branch Gathering and Attention for Accurate UAV Object Detection [0.46040036610482665]
DGE-YOLOは、マルチモーダル情報を効果的に融合するために設計された拡張YOLOベースの検出フレームワークである。
具体的には、モダリティ固有の特徴抽出のためのデュアルブランチアーキテクチャを導入し、モデルが赤外線と可視画像の両方を処理できるようにする。
セマンティック表現をさらに強化するために,空間規模をまたいだ特徴学習を向上する効率的なマルチスケールアテンション(EMA)機構を提案する。
論文 参考訳(メタデータ) (2025-06-29T14:19:18Z) - FBRT-YOLO: Faster and Better for Real-Time Aerial Image Detection [21.38164867490915]
そこで本研究では,FBRT-YOLOと呼ばれる空中画像検出用リアルタイム検出器のファミリーを提案し,検出精度と効率の相違に対処する。
FCMは、ディープネットワークにおける小さなターゲット情報の損失に起因する情報不均衡の問題を軽減することに焦点を当てている。
MKPは異なる大きさのカーネルとの畳み込みを利用して、様々なスケールのターゲット間の関係を強化する。
論文 参考訳(メタデータ) (2025-04-29T11:53:54Z) - SAGA: Semantic-Aware Gray color Augmentation for Visible-to-Thermal Domain Adaptation across Multi-View Drone and Ground-Based Vision Systems [1.891522135443594]
ドメイン適応型熱オブジェクト検出は、可視(RGB)から熱(IR)への適応を促進する上で重要な役割を果たす。
色やテクスチャの手がかりの欠如など、赤外線画像の固有の制限は、RGB訓練されたモデルに課題をもたらす。
本稿では,カラーバイアスを緩和し,領域ギャップを埋めるための新しい戦略であるセマンティック・アウェア・グレイカラー拡張(SAGA)を提案する。
論文 参考訳(メタデータ) (2025-04-22T09:22:11Z) - Bringing RGB and IR Together: Hierarchical Multi-Modal Enhancement for Robust Transmission Line Detection [67.02804741856512]
高速かつ高精度なTL検出のために,RGBとIRデータを統合したHMMEN(Hierarchical Multi-Modal Enhancement Network)を提案する。
提案手法では,(1)階層的RGBおよびIR特徴写像を大まかに融合・拡張するMMEB,(2)デコーダ出力とIR特徴写像の不整合を変形可能な畳み込みを利用して補正するFAB,の2つの重要な構成要素を紹介する。
論文 参考訳(メタデータ) (2025-01-25T06:21:06Z) - Confidence-Aware RGB-D Face Recognition via Virtual Depth Synthesis [48.59382455101753]
2D顔認証は、照明、閉塞、ポーズの変化により、制約のない環境において課題に遭遇する。
近年の研究では、深度情報を組み込んだRGB-D顔認証に焦点が当てられている。
本研究では,まず,深度モデル事前学習のための3次元Morphable Modelsによって生成された多様な深度データセットを構築する。
そこで本研究では,手軽に利用できるRGBと深度モデルを利用したドメイン非依存の事前学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-11T09:12:24Z) - E$^{2}$GAN: Efficient Training of Efficient GANs for Image-to-Image Translation [69.72194342962615]
拡散モデルからGANを蒸留するプロセスは、より効率的にできるのか?
まず、一般化された特徴を持つベースGANモデルを構築し、微調整により異なる概念に適応し、スクラッチからトレーニングの必要性を排除した。
第2に,ベースモデル全体の微調整を行うのではなく,低ランク適応(LoRA)を簡易かつ効果的なランク探索プロセスで行う。
第3に、微調整に必要な最小限のデータ量を調査し、トレーニング時間を短縮する。
論文 参考訳(メタデータ) (2024-01-11T18:59:14Z) - Uncertainty Aware Multitask Pyramid Vision Transformer For UAV-Based
Object Re-Identification [38.19907319079833]
UAVベースのオブジェクトReIDのバックボーンとして、畳み込みのない新しいマルチスケールアーキテクチャであるPraamid Vision Transformer(PVT)を用いるマルチタスク学習手法を提案する。
クラス内変動の不確実性モデリングにより、不確実性認識オブジェクトIDとカメラID情報の両方を用いて、提案手法を協調的に最適化することができる。
論文 参考訳(メタデータ) (2022-09-19T00:27:07Z) - Anchor-free Small-scale Multispectral Pedestrian Detection [88.7497134369344]
適応型単一段アンカーフリーベースアーキテクチャにおける2つのモードの効果的かつ効率的な多重スペクトル融合法を提案する。
我々は,直接的境界ボックス予測ではなく,対象の中心と規模に基づく歩行者表現の学習を目指す。
その結果,小型歩行者の検出における本手法の有効性が示唆された。
論文 参考訳(メタデータ) (2020-08-19T13:13:01Z) - Drone-based RGB-Infrared Cross-Modality Vehicle Detection via
Uncertainty-Aware Learning [59.19469551774703]
ドローンによる車両検出は、空中画像中の車両の位置とカテゴリーを見つけることを目的としている。
我々はDroneVehicleと呼ばれる大規模ドローンベースのRGB赤外線車両検出データセットを構築した。
私たちのDroneVehicleは28,439RGBの赤外線画像を収集し、都市道路、住宅地、駐車場、その他のシナリオを昼から夜までカバーしています。
論文 参考訳(メタデータ) (2020-03-05T05:29:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。