論文の概要: mAPm: multi-scale Attention Pyramid module for Enhanced scale-variation
in RLD detection
- arxiv url: http://arxiv.org/abs/2402.16291v1
- Date: Mon, 26 Feb 2024 04:18:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-02-27 14:32:00.723692
- Title: mAPm: multi-scale Attention Pyramid module for Enhanced scale-variation
in RLD detection
- Title(参考訳): mapm: rld検出におけるスケール変数拡張のためのマルチスケールアテンションピラミッドモジュール
- Authors: Yunusa Haruna, Shiyin Qin, Abdulrahman Hamman Adama Chukkol, Isah
Bello, Adamu Lawan
- Abstract要約: mAPmは、拡張畳み込みをFPN(Feature Pyramid Network)に統合し、マルチスケール情報抽出を強化する新しいアプローチである。
MRLDおよびCOCOデータセットを用いて, YOLOv7上のmAPmを評価する。
- 参考スコア(独自算出の注目度): 0.3499870393443268
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Detecting objects across various scales remains a significant challenge in
computer vision, particularly in tasks such as Rice Leaf Disease (RLD)
detection, where objects exhibit considerable scale variations. Traditional
object detection methods often struggle to address these variations, resulting
in missed detections or reduced accuracy. In this study, we propose the
multi-scale Attention Pyramid module (mAPm), a novel approach that integrates
dilated convolutions into the Feature Pyramid Network (FPN) to enhance
multi-scale information ex-traction. Additionally, we incorporate a global
Multi-Head Self-Attention (MHSA) mechanism and a deconvolutional layer to
refine the up-sampling process. We evaluate mAPm on YOLOv7 using the MRLD and
COCO datasets. Compared to vanilla FPN, BiFPN, NAS-FPN, PANET, and ACFPN, mAPm
achieved a significant improvement in Average Precision (AP), with a +2.61%
increase on the MRLD dataset compared to the baseline FPN method in YOLOv7.
This demonstrates its effectiveness in handling scale variations. Furthermore,
the versatility of mAPm allows its integration into various FPN-based object
detection models, showcasing its potential to advance object detection
techniques.
- Abstract(参考訳): 様々なスケールで物体を検出することは、コンピュータビジョンにおいて重要な課題であり、特にイネ葉病(rld)検出などのタスクでは、物体がかなりの規模の変動を示す。
従来の物体検出法はこれらの変化に対処するのに苦労することが多く、検出が遅れたり精度が低下する。
本研究では,拡張された畳み込みを特徴ピラミッドネットワーク (fpn) に統合し,マルチスケール情報抽出を促進する,新しい手法であるマルチスケールアテンションピラミッドモジュール (mapm) を提案する。
さらに,グローバル・マルチヘッド・セルフアテンション(mhsa)機構とデコンボリューション層を組み込んで,アップサンプリングプロセスを洗練する。
MRLDおよびCOCOデータセットを用いて, YOLOv7上のmAPmを評価する。
バニラFPN、BiFPN、NAS-FPN、PANET、ACFPNと比較して、mAPmは平均精度(AP)を大幅に向上し、YOLOv7のベースラインFPNに比べてMRLDデータセットは2.61%増加した。
これはスケールのバリエーションを扱う上での有効性を示す。
さらに、mAPmの汎用性により、様々なFPNベースのオブジェクト検出モデルに統合することができ、オブジェクト検出技術の進歩の可能性を示している。
関連論文リスト
- MASF-YOLO: An Improved YOLOv11 Network for Small Object Detection on Drone View [0.0]
マルチスケールコンテキストアグリゲーションとスケール適応型フュージョンYOLO(MASF-YOLO)を提案する。
UAV画像における小物体検出の難しさに対処するため,小型物体の検出精度を大幅に向上させるMFAM(Multi-scale Feature Aggregation Module)を設計した。
第3に,マルチスケール機能融合機能を強化したDASI(Dimension-Aware Selective Integration Module)を導入する。
論文 参考訳(メタデータ) (2025-04-25T07:43:33Z) - YOLO-RS: Remote Sensing Enhanced Crop Detection Methods [0.32985979395737786]
既存のターゲット検出手法は、リモートセンシング画像において、小さなターゲットを扱う際の性能が劣っている。
YOLO-RSは、小さなターゲットの検出を大幅に強化した最新のYolov11に基づいている。
リモートセンシング画像における小目標検出作業におけるYOLO-RSの有効性と適用可能性を検証する実験を行った。
論文 参考訳(メタデータ) (2025-04-15T13:13:22Z) - PolSAM: Polarimetric Scattering Mechanism Informed Segment Anything Model [76.95536611263356]
PolSARデータは、そのリッチで複雑な特徴のために、ユニークな課題を提示する。
複素数値データ、偏光特性、振幅画像などの既存のデータ表現が広く使われている。
PolSARのほとんどの機能抽出ネットワークは小さく、機能を効果的にキャプチャする能力を制限している。
本稿では,ドメイン固有の散乱特性と新規なプロンプト生成戦略を統合したSegment Anything Model (SAM) であるPolarimetric Scattering Mechanism-Informed SAM (PolSAM)を提案する。
論文 参考訳(メタデータ) (2024-12-17T09:59:53Z) - Efficient Feature Aggregation and Scale-Aware Regression for Monocular 3D Object Detection [40.14197775884804]
MonoASRHは、効率的なハイブリッド特徴集約モジュール(EH-FAM)と適応スケール対応3D回帰ヘッド(ASRH)で構成される新しいモノクル3D検出フレームワークである。
EH-FAMは、小規模オブジェクトのセマンティックな特徴を抽出するために、グローバルな受容領域を持つマルチヘッドアテンションを用いる。
ASRHは2次元境界ボックス次元を符号化し、EH-FAMで集約された意味的特徴とスケール特徴を融合する。
論文 参考訳(メタデータ) (2024-11-05T02:33:25Z) - PVAFN: Point-Voxel Attention Fusion Network with Multi-Pooling Enhancing for 3D Object Detection [59.355022416218624]
点とボクセルの表現の統合は、LiDARベースの3Dオブジェクト検出においてより一般的になりつつある。
PVAFN(Point-Voxel Attention Fusion Network)と呼ばれる新しい2段3次元物体検出器を提案する。
PVAFNはマルチプール戦略を使用して、マルチスケールとリージョン固有の情報を効果的に統合する。
論文 参考訳(メタデータ) (2024-08-26T19:43:01Z) - Mixture-of-Noises Enhanced Forgery-Aware Predictor for Multi-Face Manipulation Detection and Localization [52.87635234206178]
本稿では,多面的操作検出と局所化に適したMoNFAPという新しいフレームワークを提案する。
このフレームワークには2つの新しいモジュールが含まれている: Forgery-aware Unified Predictor (FUP) Module と Mixture-of-Noises Module (MNM)。
論文 参考訳(メタデータ) (2024-08-05T08:35:59Z) - FoRA: Low-Rank Adaptation Model beyond Multimodal Siamese Network [19.466279425330857]
そこで我々は,LMA(Low-rank Modal Adaptors)と呼ばれる新しいマルチモーダル物体検出器を提案する。
作業は2024年4月にACM MMに提出されたが拒否された。
論文 参考訳(メタデータ) (2024-07-23T02:27:52Z) - Multi-Branch Auxiliary Fusion YOLO with Re-parameterization Heterogeneous Convolutional for accurate object detection [3.7793767915135295]
本稿では,MAF-YOLOという新しいモデルを提案する。
Multi-Branch Auxiliary FPN (MAFPN) という名前の汎用ネックを持つ新しいオブジェクト検出フレームワークである。
例えばMAF-YOLOのナノバージョンを使用すれば、3.76Mの学習可能なパラメータと10.51GのFLOPでCOCO上の42.4%のAPを達成でき、YOLOv8nを約5.1%上回る。
論文 参考訳(メタデータ) (2024-07-05T09:35:30Z) - Multi-scale Quaternion CNN and BiGRU with Cross Self-attention Feature Fusion for Fault Diagnosis of Bearing [5.3598912592106345]
深層学習は断層診断(FD)に著しい進歩をもたらした
マルチスケール畳み込み畳み込みニューラルネットワーク(MQCNN)、双方向ゲートリカレントユニット(BiG)、クロス自己注意機能融合(CSAFF)を統合した新しいFDモデルを提案する。
論文 参考訳(メタデータ) (2024-05-25T07:55:02Z) - MoE-FFD: Mixture of Experts for Generalized and Parameter-Efficient Face Forgery Detection [54.545054873239295]
ディープフェイクは、最近、国民の間で重大な信頼問題とセキュリティ上の懸念を提起した。
ViT法はトランスの表現性を生かし,優れた検出性能を実現する。
この研究は、汎用的でパラメータ効率のよいViTベースのアプローチであるFace Forgery Detection (MoE-FFD)のためのMixture-of-Expertsモジュールを導入する。
論文 参考訳(メタデータ) (2024-04-12T13:02:08Z) - Joint Attention-Guided Feature Fusion Network for Saliency Detection of
Surface Defects [69.39099029406248]
本稿では,エンコーダ・デコーダネットワークに基づく表面欠陥検出のための共同注意誘導型特徴融合ネットワーク(JAFFNet)を提案する。
JAFFNetは、主にJAFFモジュールをデコードステージに組み込んで、低レベルと高レベルの機能を適応的に融合させる。
SD- Saliency-900, Magnetic tile, and DAGM 2007 で行った実験から,本手法が他の最先端手法と比較して有望な性能を達成できたことが示唆された。
論文 参考訳(メタデータ) (2024-02-05T08:10:16Z) - AMANet: Advancing SAR Ship Detection with Adaptive Multi-Hierarchical
Attention Network [0.5437298646956507]
適応型多階層型アテンションモジュール (AMAM) を提案する。
まず,隣り合う特徴層からの情報を融合して,より小さなターゲットの検出を強化し,マルチスケールな特徴強調を実現する。
第3に,AMAMをバックボーンネットワークと特徴ピラミッドネットワークに埋め込むことにより,適応型多階層アテンションネットワーク(AMANet)を提案する。
論文 参考訳(メタデータ) (2024-01-24T03:56:33Z) - Innovative Horizons in Aerial Imagery: LSKNet Meets DiffusionDet for
Advanced Object Detection [55.2480439325792]
本稿では,LSKNetのバックボーンをDiffusionDetヘッドに統合したオブジェクト検出モデルの詳細な評価を行う。
提案手法は平均精度(MAP)を約45.7%向上させる。
この進歩は、提案された修正の有効性を強調し、航空画像解析の新しいベンチマークを設定する。
論文 参考訳(メタデータ) (2023-11-21T19:49:13Z) - PREM: A Simple Yet Effective Approach for Node-Level Graph Anomaly
Detection [65.24854366973794]
ノードレベルのグラフ異常検出(GAD)は、医学、ソーシャルネットワーク、eコマースなどの分野におけるグラフ構造化データから異常ノードを特定する上で重要な役割を果たす。
本稿では,GADの効率を向上させるために,PREM (preprocessing and Matching) という簡単な手法を提案する。
我々のアプローチは、強力な異常検出機能を維持しながら、GADを合理化し、時間とメモリ消費を削減します。
論文 参考訳(メタデータ) (2023-10-18T02:59:57Z) - UFPMP-Det: Toward Accurate and Efficient Object Detection on Drone
Imagery [26.27705791338182]
本稿では,UFPMP-Det(Unified Foreground Packing)を用いたマルチプロキシ検出ネットワーク(Multi-Proxy Detection Network)を提案する。
UFPMP-Detは、高解像度の入力画像をフォアグラウンド比の低いかなり多くのチップに分割して検出する一般的なソリューションとは異なる、非常に小さなスケールの多数のインスタンスを扱うように設計されている。
広く使われているVisDroneとUAVDTデータセットで実験が行われ、UFPMP-Detは新たな最先端スコアをはるかに高速で報告し、その利点を強調している。
論文 参考訳(メタデータ) (2021-12-20T09:28:44Z) - Improved YOLOv5 network for real-time multi-scale traffic sign detection [4.5598087061051755]
本稿では,アダプティブアテンションモジュール (AAM) と機能拡張モジュール (FEM) を利用して特徴マップ生成の過程での情報損失を低減する機能ピラミッドモデル AF-FPN を提案する。
YOLOv5の本来の特徴ピラミッドネットワークをAF-FPNに置き換え、YOLOv5ネットワークのマルチスケールターゲットの検出性能を向上させる。
論文 参考訳(メタデータ) (2021-12-16T11:02:12Z) - LF-YOLO: A Lighter and Faster YOLO for Weld Defect Detection of X-ray
Image [7.970559381165446]
畳み込みニューラルネットワーク(CNN)に基づく溶接欠陥検出手法,すなわちLighter and Faster YOLO(LF-YOLO)を提案する。
検出ネットワークの性能向上のために,効率的な特徴抽出(EFE)モジュールを提案する。
その結果, 溶接欠陥ネットワークは性能と消費のバランスが良好であり, 61.5 FPSの92.9 mAP50に達することがわかった。
論文 参考訳(メタデータ) (2021-10-28T12:19:32Z) - AdaZoom: Adaptive Zoom Network for Multi-Scale Object Detection in Large
Scenes [57.969186815591186]
大規模なシーンの検出は、小さなオブジェクトと極端なスケールの変動のために難しい問題である。
本稿では,物体検出のための焦点領域を適応的に拡大するために,フレキシブルな形状と焦点長を有する選択的拡大器として,新しい適応型Zoom(AdaZoom)ネットワークを提案する。
論文 参考訳(メタデータ) (2021-06-19T03:30:22Z) - M2TR: Multi-modal Multi-scale Transformers for Deepfake Detection [74.19291916812921]
Deepfake技術によって生成された鍛造画像は、デジタル情報の信頼性に深刻な脅威をもたらします。
本稿では,Deepfake検出のための微妙な操作アーチファクトを異なるスケールで捉えることを目的とする。
最先端の顔スワッピングと顔の再現方法によって生成された4000のDeepFakeビデオで構成される高品質のDeepFakeデータセットSR-DFを紹介します。
論文 参考訳(メタデータ) (2021-04-20T05:43:44Z) - Multi-Scale Positive Sample Refinement for Few-Shot Object Detection [61.60255654558682]
Few-shot Object Detection (FSOD) は、ディテクターがトレーニングインスタンスをほとんど持たない未確認のクラスに適応するのに役立つ。
FSODにおけるオブジェクトスケールを拡張化するためのMPSR(Multi-scale Positive Sample Refinement)アプローチを提案する。
MPSRは、オブジェクトピラミッドとして多スケールの正のサンプルを生成し、様々なスケールで予測を洗練させる。
論文 参考訳(メタデータ) (2020-07-18T09:48:29Z) - Hierarchical Dynamic Filtering Network for RGB-D Salient Object
Detection [91.43066633305662]
RGB-D Salient Object Detection (SOD) の主な目的は、相互融合情報をよりよく統合し活用する方法である。
本稿では,これらの問題を新たな視点から考察する。
我々は、より柔軟で効率的なマルチスケールのクロスモーダルな特徴処理を実装している。
論文 参考訳(メタデータ) (2020-07-13T07:59:55Z) - ASFD: Automatic and Scalable Face Detector [129.82350993748258]
ASFD(Automatic and Scalable Face Detector)を提案する。
ASFDはニューラルアーキテクチャ検索技術の組み合わせと新たな損失設計に基づいている。
ASFD-D0は120FPS以上で動作し、MobilenetはVGA解像度の画像を撮影しています。
論文 参考訳(メタデータ) (2020-03-25T06:00:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。