論文の概要: SaRPFF: A Self-Attention with Register-based Pyramid Feature Fusion module for enhanced RLD detection
- arxiv url: http://arxiv.org/abs/2402.16291v2
- Date: Thu, 23 Jan 2025 11:29:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-24 19:43:30.032493
- Title: SaRPFF: A Self-Attention with Register-based Pyramid Feature Fusion module for enhanced RLD detection
- Title(参考訳): SaRPFF: RLD検出の強化を目的としたレジスタベースピラミッド特徴融合モジュールの自己認識
- Authors: Yunusa Haruna, Shiyin Qin, Abdulrahman Hamman Adama Chukkol, Isah Bello, Adamu Lawan,
- Abstract要約: SaRPFF (Self-Attention with Register-based Pyramid Feature Fusion) は、マルチスケールオブジェクト検出を強化するために設計された新しいモジュールである。
2D-Multi-Head Self-Attention (MHSA)とレジスタトークンを統合し、機能解釈性を改善する。
MRLDデータセットにおける平均精度 (AP) は, YOLOv7のベースラインFPN法と比較して+2.61%向上した。
- 参考スコア(独自算出の注目度): 0.3262230127283452
- License:
- Abstract: Detecting objects across varying scales is still a challenge in computer vision, particularly in agricultural applications like Rice Leaf Disease (RLD) detection, where objects exhibit significant scale variations (SV). Conventional object detection (OD) like Faster R-CNN, SSD, and YOLO methods often fail to effectively address SV, leading to reduced accuracy and missed detections. To tackle this, we propose SaRPFF (Self-Attention with Register-based Pyramid Feature Fusion), a novel module designed to enhance multi-scale object detection. SaRPFF integrates 2D-Multi-Head Self-Attention (MHSA) with Register tokens, improving feature interpretability by mitigating artifacts within MHSA. Additionally, it integrates efficient attention atrous convolutions into the pyramid feature fusion and introduce a deconvolutional layer for refined up-sampling. We evaluate SaRPFF on YOLOv7 using the MRLD and COCO datasets. Our approach demonstrates a +2.61% improvement in Average Precision (AP) on the MRLD dataset compared to the baseline FPN method in YOLOv7. Furthermore, SaRPFF outperforms other FPN variants, including BiFPN, NAS-FPN, and PANET, showcasing its versatility and potential to advance OD techniques. This study highlights SaRPFF effectiveness in addressing SV challenges and its adaptability across FPN-based OD models.
- Abstract(参考訳): 特にライスリーフ病(RLD)検出のような農業用途では、物体が大きなスケール変化(SV)を示す場合において、様々なスケールで物体を検出することはコンピュータビジョンにおいて依然として課題である。
より高速なR-CNN、SSD、YOLOメソッドのような従来のオブジェクト検出(OD)は、SVに効果的に対応できず、精度が低下し、検出に失敗した。
そこで我々は,SARPFF(Self-Attention with Register-based Pyramid Feature Fusion)を提案する。
SaRPFFは2D-Multi-Head Self-Attention (MHSA)とレジスタトークンを統合し、MHSA内のアーティファクトを緩和することで機能の解釈性を向上させる。
さらに、ピラミッドの特徴融合に効率的なアトラクション・アトラクション・コンボリューションを組み込み、改良されたアップサンプリングのためのデコンボリューション層を導入する。
MRLDおよびCOCOデータセットを用いて,YOLOv7上のSaRPFFを評価する。
MRLDデータセットにおける平均精度 (AP) は, YOLOv7のベースラインFPN法と比較して+2.61%向上した。
さらに、SARPFFはBiFPN、NAS-FPN、PANETなど他のFPNよりも優れており、その汎用性とOD技術の進歩の可能性を示している。
本研究は, SV課題への対処におけるSaRPFFの有効性とFPNに基づくODモデル間の適応性を明らかにする。
関連論文リスト
- PolSAM: Polarimetric Scattering Mechanism Informed Segment Anything Model [76.95536611263356]
PolSARデータは、そのリッチで複雑な特徴のために、ユニークな課題を提示する。
複素数値データ、偏光特性、振幅画像などの既存のデータ表現が広く使われている。
PolSARのほとんどの機能抽出ネットワークは小さく、機能を効果的にキャプチャする能力を制限している。
本稿では,ドメイン固有の散乱特性と新規なプロンプト生成戦略を統合したSegment Anything Model (SAM) であるPolarimetric Scattering Mechanism-Informed SAM (PolSAM)を提案する。
論文 参考訳(メタデータ) (2024-12-17T09:59:53Z) - Multi-Branch Auxiliary Fusion YOLO with Re-parameterization Heterogeneous Convolutional for accurate object detection [3.7793767915135295]
本稿では,MAF-YOLOという新しいモデルを提案する。
Multi-Branch Auxiliary FPN (MAFPN) という名前の汎用ネックを持つ新しいオブジェクト検出フレームワークである。
例えばMAF-YOLOのナノバージョンを使用すれば、3.76Mの学習可能なパラメータと10.51GのFLOPでCOCO上の42.4%のAPを達成でき、YOLOv8nを約5.1%上回る。
論文 参考訳(メタデータ) (2024-07-05T09:35:30Z) - Multi-scale Quaternion CNN and BiGRU with Cross Self-attention Feature Fusion for Fault Diagnosis of Bearing [5.3598912592106345]
深層学習は断層診断(FD)に著しい進歩をもたらした
マルチスケール畳み込み畳み込みニューラルネットワーク(MQCNN)、双方向ゲートリカレントユニット(BiG)、クロス自己注意機能融合(CSAFF)を統合した新しいFDモデルを提案する。
論文 参考訳(メタデータ) (2024-05-25T07:55:02Z) - MoE-FFD: Mixture of Experts for Generalized and Parameter-Efficient Face Forgery Detection [54.545054873239295]
ディープフェイクは、最近、国民の間で重大な信頼問題とセキュリティ上の懸念を提起した。
ViT法はトランスの表現性を生かし,優れた検出性能を実現する。
この研究は、汎用的でパラメータ効率のよいViTベースのアプローチであるFace Forgery Detection (MoE-FFD)のためのMixture-of-Expertsモジュールを導入する。
論文 参考訳(メタデータ) (2024-04-12T13:02:08Z) - Joint Attention-Guided Feature Fusion Network for Saliency Detection of
Surface Defects [69.39099029406248]
本稿では,エンコーダ・デコーダネットワークに基づく表面欠陥検出のための共同注意誘導型特徴融合ネットワーク(JAFFNet)を提案する。
JAFFNetは、主にJAFFモジュールをデコードステージに組み込んで、低レベルと高レベルの機能を適応的に融合させる。
SD- Saliency-900, Magnetic tile, and DAGM 2007 で行った実験から,本手法が他の最先端手法と比較して有望な性能を達成できたことが示唆された。
論文 参考訳(メタデータ) (2024-02-05T08:10:16Z) - PREM: A Simple Yet Effective Approach for Node-Level Graph Anomaly
Detection [65.24854366973794]
ノードレベルのグラフ異常検出(GAD)は、医学、ソーシャルネットワーク、eコマースなどの分野におけるグラフ構造化データから異常ノードを特定する上で重要な役割を果たす。
本稿では,GADの効率を向上させるために,PREM (preprocessing and Matching) という簡単な手法を提案する。
我々のアプローチは、強力な異常検出機能を維持しながら、GADを合理化し、時間とメモリ消費を削減します。
論文 参考訳(メタデータ) (2023-10-18T02:59:57Z) - LF-YOLO: A Lighter and Faster YOLO for Weld Defect Detection of X-ray
Image [7.970559381165446]
畳み込みニューラルネットワーク(CNN)に基づく溶接欠陥検出手法,すなわちLighter and Faster YOLO(LF-YOLO)を提案する。
検出ネットワークの性能向上のために,効率的な特徴抽出(EFE)モジュールを提案する。
その結果, 溶接欠陥ネットワークは性能と消費のバランスが良好であり, 61.5 FPSの92.9 mAP50に達することがわかった。
論文 参考訳(メタデータ) (2021-10-28T12:19:32Z) - Hierarchical Dynamic Filtering Network for RGB-D Salient Object
Detection [91.43066633305662]
RGB-D Salient Object Detection (SOD) の主な目的は、相互融合情報をよりよく統合し活用する方法である。
本稿では,これらの問題を新たな視点から考察する。
我々は、より柔軟で効率的なマルチスケールのクロスモーダルな特徴処理を実装している。
論文 参考訳(メタデータ) (2020-07-13T07:59:55Z) - Random Partitioning Forest for Point-Wise and Collective Anomaly
Detection -- Application to Intrusion Detection [9.74672460306765]
DiFF-RFはランダムな分割二分木で構成されるアンサンブルアプローチであり、異常を検出する。
実験の結果,DiFF-RFはアイソレーション・フォレスト(IF)アルゴリズムをほぼ体系的に上回っていることがわかった。
我々の経験から,DiFF-RFは小規模な学習データの存在下では有効であることがわかった。
論文 参考訳(メタデータ) (2020-06-29T10:44:08Z) - Salient Object Detection Combining a Self-attention Module and a Feature
Pyramid Network [10.81245352773775]
本稿では,新しいピラミッド自己保持モジュール (PSAM) と独立機能補完戦略の採用を提案する。
PSAMでは、よりリッチな高レベルの特徴をキャプチャし、より大きな受容場をモデルにもたらすために、多スケールピラミッド機能の後、自己注意層が装備される。
論文 参考訳(メタデータ) (2020-04-30T03:08:34Z) - ASFD: Automatic and Scalable Face Detector [129.82350993748258]
ASFD(Automatic and Scalable Face Detector)を提案する。
ASFDはニューラルアーキテクチャ検索技術の組み合わせと新たな損失設計に基づいている。
ASFD-D0は120FPS以上で動作し、MobilenetはVGA解像度の画像を撮影しています。
論文 参考訳(メタデータ) (2020-03-25T06:00:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。