論文の概要: mAPm: multi-scale Attention Pyramid module for Enhanced scale-variation
in RLD detection
- arxiv url: http://arxiv.org/abs/2402.16291v1
- Date: Mon, 26 Feb 2024 04:18:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-27 14:32:00.723692
- Title: mAPm: multi-scale Attention Pyramid module for Enhanced scale-variation
in RLD detection
- Title(参考訳): mapm: rld検出におけるスケール変数拡張のためのマルチスケールアテンションピラミッドモジュール
- Authors: Yunusa Haruna, Shiyin Qin, Abdulrahman Hamman Adama Chukkol, Isah
Bello, Adamu Lawan
- Abstract要約: mAPmは、拡張畳み込みをFPN(Feature Pyramid Network)に統合し、マルチスケール情報抽出を強化する新しいアプローチである。
MRLDおよびCOCOデータセットを用いて, YOLOv7上のmAPmを評価する。
- 参考スコア(独自算出の注目度): 0.3499870393443268
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Detecting objects across various scales remains a significant challenge in
computer vision, particularly in tasks such as Rice Leaf Disease (RLD)
detection, where objects exhibit considerable scale variations. Traditional
object detection methods often struggle to address these variations, resulting
in missed detections or reduced accuracy. In this study, we propose the
multi-scale Attention Pyramid module (mAPm), a novel approach that integrates
dilated convolutions into the Feature Pyramid Network (FPN) to enhance
multi-scale information ex-traction. Additionally, we incorporate a global
Multi-Head Self-Attention (MHSA) mechanism and a deconvolutional layer to
refine the up-sampling process. We evaluate mAPm on YOLOv7 using the MRLD and
COCO datasets. Compared to vanilla FPN, BiFPN, NAS-FPN, PANET, and ACFPN, mAPm
achieved a significant improvement in Average Precision (AP), with a +2.61%
increase on the MRLD dataset compared to the baseline FPN method in YOLOv7.
This demonstrates its effectiveness in handling scale variations. Furthermore,
the versatility of mAPm allows its integration into various FPN-based object
detection models, showcasing its potential to advance object detection
techniques.
- Abstract(参考訳): 様々なスケールで物体を検出することは、コンピュータビジョンにおいて重要な課題であり、特にイネ葉病(rld)検出などのタスクでは、物体がかなりの規模の変動を示す。
従来の物体検出法はこれらの変化に対処するのに苦労することが多く、検出が遅れたり精度が低下する。
本研究では,拡張された畳み込みを特徴ピラミッドネットワーク (fpn) に統合し,マルチスケール情報抽出を促進する,新しい手法であるマルチスケールアテンションピラミッドモジュール (mapm) を提案する。
さらに,グローバル・マルチヘッド・セルフアテンション(mhsa)機構とデコンボリューション層を組み込んで,アップサンプリングプロセスを洗練する。
MRLDおよびCOCOデータセットを用いて, YOLOv7上のmAPmを評価する。
バニラFPN、BiFPN、NAS-FPN、PANET、ACFPNと比較して、mAPmは平均精度(AP)を大幅に向上し、YOLOv7のベースラインFPNに比べてMRLDデータセットは2.61%増加した。
これはスケールのバリエーションを扱う上での有効性を示す。
さらに、mAPmの汎用性により、様々なFPNベースのオブジェクト検出モデルに統合することができ、オブジェクト検出技術の進歩の可能性を示している。
関連論文リスト
- Efficient Feature Aggregation and Scale-Aware Regression for Monocular 3D Object Detection [40.14197775884804]
MonoASRHは、効率的なハイブリッド特徴集約モジュール(EH-FAM)と適応スケール対応3D回帰ヘッド(ASRH)で構成される新しいモノクル3D検出フレームワークである。
EH-FAMは、小規模オブジェクトのセマンティックな特徴を抽出するために、グローバルな受容領域を持つマルチヘッドアテンションを用いる。
ASRHは2次元境界ボックス次元を符号化し、EH-FAMで集約された意味的特徴とスケール特徴を融合する。
論文 参考訳(メタデータ) (2024-11-05T02:33:25Z) - PVAFN: Point-Voxel Attention Fusion Network with Multi-Pooling Enhancing for 3D Object Detection [59.355022416218624]
点とボクセルの表現の統合は、LiDARベースの3Dオブジェクト検出においてより一般的になりつつある。
PVAFN(Point-Voxel Attention Fusion Network)と呼ばれる新しい2段3次元物体検出器を提案する。
PVAFNはマルチプール戦略を使用して、マルチスケールとリージョン固有の情報を効果的に統合する。
論文 参考訳(メタデータ) (2024-08-26T19:43:01Z) - Mixture-of-Noises Enhanced Forgery-Aware Predictor for Multi-Face Manipulation Detection and Localization [52.87635234206178]
本稿では,多面的操作検出と局所化に適したMoNFAPという新しいフレームワークを提案する。
このフレームワークには2つの新しいモジュールが含まれている: Forgery-aware Unified Predictor (FUP) Module と Mixture-of-Noises Module (MNM)。
論文 参考訳(メタデータ) (2024-08-05T08:35:59Z) - FoRA: Low-Rank Adaptation Model beyond Multimodal Siamese Network [19.466279425330857]
そこで我々は,LMA(Low-rank Modal Adaptors)と呼ばれる新しいマルチモーダル物体検出器を提案する。
作業は2024年4月にACM MMに提出されたが拒否された。
論文 参考訳(メタデータ) (2024-07-23T02:27:52Z) - AMANet: Advancing SAR Ship Detection with Adaptive Multi-Hierarchical
Attention Network [0.5437298646956507]
適応型多階層型アテンションモジュール (AMAM) を提案する。
まず,隣り合う特徴層からの情報を融合して,より小さなターゲットの検出を強化し,マルチスケールな特徴強調を実現する。
第3に,AMAMをバックボーンネットワークと特徴ピラミッドネットワークに埋め込むことにより,適応型多階層アテンションネットワーク(AMANet)を提案する。
論文 参考訳(メタデータ) (2024-01-24T03:56:33Z) - Innovative Horizons in Aerial Imagery: LSKNet Meets DiffusionDet for
Advanced Object Detection [55.2480439325792]
本稿では,LSKNetのバックボーンをDiffusionDetヘッドに統合したオブジェクト検出モデルの詳細な評価を行う。
提案手法は平均精度(MAP)を約45.7%向上させる。
この進歩は、提案された修正の有効性を強調し、航空画像解析の新しいベンチマークを設定する。
論文 参考訳(メタデータ) (2023-11-21T19:49:13Z) - UFPMP-Det: Toward Accurate and Efficient Object Detection on Drone
Imagery [26.27705791338182]
本稿では,UFPMP-Det(Unified Foreground Packing)を用いたマルチプロキシ検出ネットワーク(Multi-Proxy Detection Network)を提案する。
UFPMP-Detは、高解像度の入力画像をフォアグラウンド比の低いかなり多くのチップに分割して検出する一般的なソリューションとは異なる、非常に小さなスケールの多数のインスタンスを扱うように設計されている。
広く使われているVisDroneとUAVDTデータセットで実験が行われ、UFPMP-Detは新たな最先端スコアをはるかに高速で報告し、その利点を強調している。
論文 参考訳(メタデータ) (2021-12-20T09:28:44Z) - Improved YOLOv5 network for real-time multi-scale traffic sign detection [4.5598087061051755]
本稿では,アダプティブアテンションモジュール (AAM) と機能拡張モジュール (FEM) を利用して特徴マップ生成の過程での情報損失を低減する機能ピラミッドモデル AF-FPN を提案する。
YOLOv5の本来の特徴ピラミッドネットワークをAF-FPNに置き換え、YOLOv5ネットワークのマルチスケールターゲットの検出性能を向上させる。
論文 参考訳(メタデータ) (2021-12-16T11:02:12Z) - AdaZoom: Adaptive Zoom Network for Multi-Scale Object Detection in Large
Scenes [57.969186815591186]
大規模なシーンの検出は、小さなオブジェクトと極端なスケールの変動のために難しい問題である。
本稿では,物体検出のための焦点領域を適応的に拡大するために,フレキシブルな形状と焦点長を有する選択的拡大器として,新しい適応型Zoom(AdaZoom)ネットワークを提案する。
論文 参考訳(メタデータ) (2021-06-19T03:30:22Z) - M2TR: Multi-modal Multi-scale Transformers for Deepfake Detection [74.19291916812921]
Deepfake技術によって生成された鍛造画像は、デジタル情報の信頼性に深刻な脅威をもたらします。
本稿では,Deepfake検出のための微妙な操作アーチファクトを異なるスケールで捉えることを目的とする。
最先端の顔スワッピングと顔の再現方法によって生成された4000のDeepFakeビデオで構成される高品質のDeepFakeデータセットSR-DFを紹介します。
論文 参考訳(メタデータ) (2021-04-20T05:43:44Z) - Multi-Scale Positive Sample Refinement for Few-Shot Object Detection [61.60255654558682]
Few-shot Object Detection (FSOD) は、ディテクターがトレーニングインスタンスをほとんど持たない未確認のクラスに適応するのに役立つ。
FSODにおけるオブジェクトスケールを拡張化するためのMPSR(Multi-scale Positive Sample Refinement)アプローチを提案する。
MPSRは、オブジェクトピラミッドとして多スケールの正のサンプルを生成し、様々なスケールで予測を洗練させる。
論文 参考訳(メタデータ) (2020-07-18T09:48:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。