論文の概要: SaRPFF: A Self-Attention with Register-based Pyramid Feature Fusion module for enhanced RLD detection
- arxiv url: http://arxiv.org/abs/2402.16291v2
- Date: Thu, 23 Jan 2025 11:29:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-24 19:43:30.032493
- Title: SaRPFF: A Self-Attention with Register-based Pyramid Feature Fusion module for enhanced RLD detection
- Title(参考訳): SaRPFF: RLD検出の強化を目的としたレジスタベースピラミッド特徴融合モジュールの自己認識
- Authors: Yunusa Haruna, Shiyin Qin, Abdulrahman Hamman Adama Chukkol, Isah Bello, Adamu Lawan,
- Abstract要約: SaRPFF (Self-Attention with Register-based Pyramid Feature Fusion) は、マルチスケールオブジェクト検出を強化するために設計された新しいモジュールである。
2D-Multi-Head Self-Attention (MHSA)とレジスタトークンを統合し、機能解釈性を改善する。
MRLDデータセットにおける平均精度 (AP) は, YOLOv7のベースラインFPN法と比較して+2.61%向上した。
- 参考スコア(独自算出の注目度): 0.3262230127283452
- License:
- Abstract: Detecting objects across varying scales is still a challenge in computer vision, particularly in agricultural applications like Rice Leaf Disease (RLD) detection, where objects exhibit significant scale variations (SV). Conventional object detection (OD) like Faster R-CNN, SSD, and YOLO methods often fail to effectively address SV, leading to reduced accuracy and missed detections. To tackle this, we propose SaRPFF (Self-Attention with Register-based Pyramid Feature Fusion), a novel module designed to enhance multi-scale object detection. SaRPFF integrates 2D-Multi-Head Self-Attention (MHSA) with Register tokens, improving feature interpretability by mitigating artifacts within MHSA. Additionally, it integrates efficient attention atrous convolutions into the pyramid feature fusion and introduce a deconvolutional layer for refined up-sampling. We evaluate SaRPFF on YOLOv7 using the MRLD and COCO datasets. Our approach demonstrates a +2.61% improvement in Average Precision (AP) on the MRLD dataset compared to the baseline FPN method in YOLOv7. Furthermore, SaRPFF outperforms other FPN variants, including BiFPN, NAS-FPN, and PANET, showcasing its versatility and potential to advance OD techniques. This study highlights SaRPFF effectiveness in addressing SV challenges and its adaptability across FPN-based OD models.
- Abstract(参考訳): 特にライスリーフ病(RLD)検出のような農業用途では、物体が大きなスケール変化(SV)を示す場合において、様々なスケールで物体を検出することはコンピュータビジョンにおいて依然として課題である。
より高速なR-CNN、SSD、YOLOメソッドのような従来のオブジェクト検出(OD)は、SVに効果的に対応できず、精度が低下し、検出に失敗した。
そこで我々は,SARPFF(Self-Attention with Register-based Pyramid Feature Fusion)を提案する。
SaRPFFは2D-Multi-Head Self-Attention (MHSA)とレジスタトークンを統合し、MHSA内のアーティファクトを緩和することで機能の解釈性を向上させる。
さらに、ピラミッドの特徴融合に効率的なアトラクション・アトラクション・コンボリューションを組み込み、改良されたアップサンプリングのためのデコンボリューション層を導入する。
MRLDおよびCOCOデータセットを用いて,YOLOv7上のSaRPFFを評価する。
MRLDデータセットにおける平均精度 (AP) は, YOLOv7のベースラインFPN法と比較して+2.61%向上した。
さらに、SARPFFはBiFPN、NAS-FPN、PANETなど他のFPNよりも優れており、その汎用性とOD技術の進歩の可能性を示している。
本研究は, SV課題への対処におけるSaRPFFの有効性とFPNに基づくODモデル間の適応性を明らかにする。
関連論文リスト
- Efficient Feature Aggregation and Scale-Aware Regression for Monocular 3D Object Detection [40.14197775884804]
MonoASRHは、効率的なハイブリッド特徴集約モジュール(EH-FAM)と適応スケール対応3D回帰ヘッド(ASRH)で構成される新しいモノクル3D検出フレームワークである。
EH-FAMは、小規模オブジェクトのセマンティックな特徴を抽出するために、グローバルな受容領域を持つマルチヘッドアテンションを用いる。
ASRHは2次元境界ボックス次元を符号化し、EH-FAMで集約された意味的特徴とスケール特徴を融合する。
論文 参考訳(メタデータ) (2024-11-05T02:33:25Z) - PVAFN: Point-Voxel Attention Fusion Network with Multi-Pooling Enhancing for 3D Object Detection [59.355022416218624]
点とボクセルの表現の統合は、LiDARベースの3Dオブジェクト検出においてより一般的になりつつある。
PVAFN(Point-Voxel Attention Fusion Network)と呼ばれる新しい2段3次元物体検出器を提案する。
PVAFNはマルチプール戦略を使用して、マルチスケールとリージョン固有の情報を効果的に統合する。
論文 参考訳(メタデータ) (2024-08-26T19:43:01Z) - Mixture-of-Noises Enhanced Forgery-Aware Predictor for Multi-Face Manipulation Detection and Localization [52.87635234206178]
本稿では,多面的操作検出と局所化に適したMoNFAPという新しいフレームワークを提案する。
このフレームワークには2つの新しいモジュールが含まれている: Forgery-aware Unified Predictor (FUP) Module と Mixture-of-Noises Module (MNM)。
論文 参考訳(メタデータ) (2024-08-05T08:35:59Z) - FoRA: Low-Rank Adaptation Model beyond Multimodal Siamese Network [19.466279425330857]
そこで我々は,LMA(Low-rank Modal Adaptors)と呼ばれる新しいマルチモーダル物体検出器を提案する。
作業は2024年4月にACM MMに提出されたが拒否された。
論文 参考訳(メタデータ) (2024-07-23T02:27:52Z) - AMANet: Advancing SAR Ship Detection with Adaptive Multi-Hierarchical
Attention Network [0.5437298646956507]
適応型多階層型アテンションモジュール (AMAM) を提案する。
まず,隣り合う特徴層からの情報を融合して,より小さなターゲットの検出を強化し,マルチスケールな特徴強調を実現する。
第3に,AMAMをバックボーンネットワークと特徴ピラミッドネットワークに埋め込むことにより,適応型多階層アテンションネットワーク(AMANet)を提案する。
論文 参考訳(メタデータ) (2024-01-24T03:56:33Z) - Innovative Horizons in Aerial Imagery: LSKNet Meets DiffusionDet for
Advanced Object Detection [55.2480439325792]
本稿では,LSKNetのバックボーンをDiffusionDetヘッドに統合したオブジェクト検出モデルの詳細な評価を行う。
提案手法は平均精度(MAP)を約45.7%向上させる。
この進歩は、提案された修正の有効性を強調し、航空画像解析の新しいベンチマークを設定する。
論文 参考訳(メタデータ) (2023-11-21T19:49:13Z) - UFPMP-Det: Toward Accurate and Efficient Object Detection on Drone
Imagery [26.27705791338182]
本稿では,UFPMP-Det(Unified Foreground Packing)を用いたマルチプロキシ検出ネットワーク(Multi-Proxy Detection Network)を提案する。
UFPMP-Detは、高解像度の入力画像をフォアグラウンド比の低いかなり多くのチップに分割して検出する一般的なソリューションとは異なる、非常に小さなスケールの多数のインスタンスを扱うように設計されている。
広く使われているVisDroneとUAVDTデータセットで実験が行われ、UFPMP-Detは新たな最先端スコアをはるかに高速で報告し、その利点を強調している。
論文 参考訳(メタデータ) (2021-12-20T09:28:44Z) - Improved YOLOv5 network for real-time multi-scale traffic sign detection [4.5598087061051755]
本稿では,アダプティブアテンションモジュール (AAM) と機能拡張モジュール (FEM) を利用して特徴マップ生成の過程での情報損失を低減する機能ピラミッドモデル AF-FPN を提案する。
YOLOv5の本来の特徴ピラミッドネットワークをAF-FPNに置き換え、YOLOv5ネットワークのマルチスケールターゲットの検出性能を向上させる。
論文 参考訳(メタデータ) (2021-12-16T11:02:12Z) - AdaZoom: Adaptive Zoom Network for Multi-Scale Object Detection in Large
Scenes [57.969186815591186]
大規模なシーンの検出は、小さなオブジェクトと極端なスケールの変動のために難しい問題である。
本稿では,物体検出のための焦点領域を適応的に拡大するために,フレキシブルな形状と焦点長を有する選択的拡大器として,新しい適応型Zoom(AdaZoom)ネットワークを提案する。
論文 参考訳(メタデータ) (2021-06-19T03:30:22Z) - M2TR: Multi-modal Multi-scale Transformers for Deepfake Detection [74.19291916812921]
Deepfake技術によって生成された鍛造画像は、デジタル情報の信頼性に深刻な脅威をもたらします。
本稿では,Deepfake検出のための微妙な操作アーチファクトを異なるスケールで捉えることを目的とする。
最先端の顔スワッピングと顔の再現方法によって生成された4000のDeepFakeビデオで構成される高品質のDeepFakeデータセットSR-DFを紹介します。
論文 参考訳(メタデータ) (2021-04-20T05:43:44Z) - Multi-Scale Positive Sample Refinement for Few-Shot Object Detection [61.60255654558682]
Few-shot Object Detection (FSOD) は、ディテクターがトレーニングインスタンスをほとんど持たない未確認のクラスに適応するのに役立つ。
FSODにおけるオブジェクトスケールを拡張化するためのMPSR(Multi-scale Positive Sample Refinement)アプローチを提案する。
MPSRは、オブジェクトピラミッドとして多スケールの正のサンプルを生成し、様々なスケールで予測を洗練させる。
論文 参考訳(メタデータ) (2020-07-18T09:48:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。