論文の概要: SaRPFF: A Self-Attention with Register-based Pyramid Feature Fusion module for enhanced RLD detection
- arxiv url: http://arxiv.org/abs/2402.16291v2
- Date: Thu, 23 Jan 2025 11:29:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-24 19:17:06.941935
- Title: SaRPFF: A Self-Attention with Register-based Pyramid Feature Fusion module for enhanced RLD detection
- Title(参考訳): SaRPFF: RLD検出の強化を目的としたレジスタベースピラミッド特徴融合モジュールの自己認識
- Authors: Yunusa Haruna, Shiyin Qin, Abdulrahman Hamman Adama Chukkol, Isah Bello, Adamu Lawan,
- Abstract要約: SaRPFF (Self-Attention with Register-based Pyramid Feature Fusion) は、マルチスケールオブジェクト検出を強化するために設計された新しいモジュールである。
2D-Multi-Head Self-Attention (MHSA)とレジスタトークンを統合し、機能解釈性を改善する。
MRLDデータセットにおける平均精度 (AP) は, YOLOv7のベースラインFPN法と比較して+2.61%向上した。
- 参考スコア(独自算出の注目度): 0.3262230127283452
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Detecting objects across varying scales is still a challenge in computer vision, particularly in agricultural applications like Rice Leaf Disease (RLD) detection, where objects exhibit significant scale variations (SV). Conventional object detection (OD) like Faster R-CNN, SSD, and YOLO methods often fail to effectively address SV, leading to reduced accuracy and missed detections. To tackle this, we propose SaRPFF (Self-Attention with Register-based Pyramid Feature Fusion), a novel module designed to enhance multi-scale object detection. SaRPFF integrates 2D-Multi-Head Self-Attention (MHSA) with Register tokens, improving feature interpretability by mitigating artifacts within MHSA. Additionally, it integrates efficient attention atrous convolutions into the pyramid feature fusion and introduce a deconvolutional layer for refined up-sampling. We evaluate SaRPFF on YOLOv7 using the MRLD and COCO datasets. Our approach demonstrates a +2.61% improvement in Average Precision (AP) on the MRLD dataset compared to the baseline FPN method in YOLOv7. Furthermore, SaRPFF outperforms other FPN variants, including BiFPN, NAS-FPN, and PANET, showcasing its versatility and potential to advance OD techniques. This study highlights SaRPFF effectiveness in addressing SV challenges and its adaptability across FPN-based OD models.
- Abstract(参考訳): 特にライスリーフ病(RLD)検出のような農業用途では、物体が大きなスケール変化(SV)を示す場合において、様々なスケールで物体を検出することはコンピュータビジョンにおいて依然として課題である。
より高速なR-CNN、SSD、YOLOメソッドのような従来のオブジェクト検出(OD)は、SVに効果的に対応できず、精度が低下し、検出に失敗した。
そこで我々は,SARPFF(Self-Attention with Register-based Pyramid Feature Fusion)を提案する。
SaRPFFは2D-Multi-Head Self-Attention (MHSA)とレジスタトークンを統合し、MHSA内のアーティファクトを緩和することで機能の解釈性を向上させる。
さらに、ピラミッドの特徴融合に効率的なアトラクション・アトラクション・コンボリューションを組み込み、改良されたアップサンプリングのためのデコンボリューション層を導入する。
MRLDおよびCOCOデータセットを用いて,YOLOv7上のSaRPFFを評価する。
MRLDデータセットにおける平均精度 (AP) は, YOLOv7のベースラインFPN法と比較して+2.61%向上した。
さらに、SARPFFはBiFPN、NAS-FPN、PANETなど他のFPNよりも優れており、その汎用性とOD技術の進歩の可能性を示している。
本研究は, SV課題への対処におけるSaRPFFの有効性とFPNに基づくODモデル間の適応性を明らかにする。
関連論文リスト
- MASF-YOLO: An Improved YOLOv11 Network for Small Object Detection on Drone View [0.0]
マルチスケールコンテキストアグリゲーションとスケール適応型フュージョンYOLO(MASF-YOLO)を提案する。
UAV画像における小物体検出の難しさに対処するため,小型物体の検出精度を大幅に向上させるMFAM(Multi-scale Feature Aggregation Module)を設計した。
第3に,マルチスケール機能融合機能を強化したDASI(Dimension-Aware Selective Integration Module)を導入する。
論文 参考訳(メタデータ) (2025-04-25T07:43:33Z) - YOLO-RS: Remote Sensing Enhanced Crop Detection Methods [0.32985979395737786]
既存のターゲット検出手法は、リモートセンシング画像において、小さなターゲットを扱う際の性能が劣っている。
YOLO-RSは、小さなターゲットの検出を大幅に強化した最新のYolov11に基づいている。
リモートセンシング画像における小目標検出作業におけるYOLO-RSの有効性と適用可能性を検証する実験を行った。
論文 参考訳(メタデータ) (2025-04-15T13:13:22Z) - PolSAM: Polarimetric Scattering Mechanism Informed Segment Anything Model [76.95536611263356]
PolSARデータは、そのリッチで複雑な特徴のために、ユニークな課題を提示する。
複素数値データ、偏光特性、振幅画像などの既存のデータ表現が広く使われている。
PolSARのほとんどの機能抽出ネットワークは小さく、機能を効果的にキャプチャする能力を制限している。
本稿では,ドメイン固有の散乱特性と新規なプロンプト生成戦略を統合したSegment Anything Model (SAM) であるPolarimetric Scattering Mechanism-Informed SAM (PolSAM)を提案する。
論文 参考訳(メタデータ) (2024-12-17T09:59:53Z) - Efficient Feature Aggregation and Scale-Aware Regression for Monocular 3D Object Detection [40.14197775884804]
MonoASRHは、効率的なハイブリッド特徴集約モジュール(EH-FAM)と適応スケール対応3D回帰ヘッド(ASRH)で構成される新しいモノクル3D検出フレームワークである。
EH-FAMは、小規模オブジェクトのセマンティックな特徴を抽出するために、グローバルな受容領域を持つマルチヘッドアテンションを用いる。
ASRHは2次元境界ボックス次元を符号化し、EH-FAMで集約された意味的特徴とスケール特徴を融合する。
論文 参考訳(メタデータ) (2024-11-05T02:33:25Z) - PVAFN: Point-Voxel Attention Fusion Network with Multi-Pooling Enhancing for 3D Object Detection [59.355022416218624]
点とボクセルの表現の統合は、LiDARベースの3Dオブジェクト検出においてより一般的になりつつある。
PVAFN(Point-Voxel Attention Fusion Network)と呼ばれる新しい2段3次元物体検出器を提案する。
PVAFNはマルチプール戦略を使用して、マルチスケールとリージョン固有の情報を効果的に統合する。
論文 参考訳(メタデータ) (2024-08-26T19:43:01Z) - Mixture-of-Noises Enhanced Forgery-Aware Predictor for Multi-Face Manipulation Detection and Localization [52.87635234206178]
本稿では,多面的操作検出と局所化に適したMoNFAPという新しいフレームワークを提案する。
このフレームワークには2つの新しいモジュールが含まれている: Forgery-aware Unified Predictor (FUP) Module と Mixture-of-Noises Module (MNM)。
論文 参考訳(メタデータ) (2024-08-05T08:35:59Z) - FoRA: Low-Rank Adaptation Model beyond Multimodal Siamese Network [19.466279425330857]
そこで我々は,LMA(Low-rank Modal Adaptors)と呼ばれる新しいマルチモーダル物体検出器を提案する。
作業は2024年4月にACM MMに提出されたが拒否された。
論文 参考訳(メタデータ) (2024-07-23T02:27:52Z) - Multi-Branch Auxiliary Fusion YOLO with Re-parameterization Heterogeneous Convolutional for accurate object detection [3.7793767915135295]
本稿では,MAF-YOLOという新しいモデルを提案する。
Multi-Branch Auxiliary FPN (MAFPN) という名前の汎用ネックを持つ新しいオブジェクト検出フレームワークである。
例えばMAF-YOLOのナノバージョンを使用すれば、3.76Mの学習可能なパラメータと10.51GのFLOPでCOCO上の42.4%のAPを達成でき、YOLOv8nを約5.1%上回る。
論文 参考訳(メタデータ) (2024-07-05T09:35:30Z) - Multi-scale Quaternion CNN and BiGRU with Cross Self-attention Feature Fusion for Fault Diagnosis of Bearing [5.3598912592106345]
深層学習は断層診断(FD)に著しい進歩をもたらした
マルチスケール畳み込み畳み込みニューラルネットワーク(MQCNN)、双方向ゲートリカレントユニット(BiG)、クロス自己注意機能融合(CSAFF)を統合した新しいFDモデルを提案する。
論文 参考訳(メタデータ) (2024-05-25T07:55:02Z) - MoE-FFD: Mixture of Experts for Generalized and Parameter-Efficient Face Forgery Detection [54.545054873239295]
ディープフェイクは、最近、国民の間で重大な信頼問題とセキュリティ上の懸念を提起した。
ViT法はトランスの表現性を生かし,優れた検出性能を実現する。
この研究は、汎用的でパラメータ効率のよいViTベースのアプローチであるFace Forgery Detection (MoE-FFD)のためのMixture-of-Expertsモジュールを導入する。
論文 参考訳(メタデータ) (2024-04-12T13:02:08Z) - Joint Attention-Guided Feature Fusion Network for Saliency Detection of
Surface Defects [69.39099029406248]
本稿では,エンコーダ・デコーダネットワークに基づく表面欠陥検出のための共同注意誘導型特徴融合ネットワーク(JAFFNet)を提案する。
JAFFNetは、主にJAFFモジュールをデコードステージに組み込んで、低レベルと高レベルの機能を適応的に融合させる。
SD- Saliency-900, Magnetic tile, and DAGM 2007 で行った実験から,本手法が他の最先端手法と比較して有望な性能を達成できたことが示唆された。
論文 参考訳(メタデータ) (2024-02-05T08:10:16Z) - AMANet: Advancing SAR Ship Detection with Adaptive Multi-Hierarchical
Attention Network [0.5437298646956507]
適応型多階層型アテンションモジュール (AMAM) を提案する。
まず,隣り合う特徴層からの情報を融合して,より小さなターゲットの検出を強化し,マルチスケールな特徴強調を実現する。
第3に,AMAMをバックボーンネットワークと特徴ピラミッドネットワークに埋め込むことにより,適応型多階層アテンションネットワーク(AMANet)を提案する。
論文 参考訳(メタデータ) (2024-01-24T03:56:33Z) - Innovative Horizons in Aerial Imagery: LSKNet Meets DiffusionDet for
Advanced Object Detection [55.2480439325792]
本稿では,LSKNetのバックボーンをDiffusionDetヘッドに統合したオブジェクト検出モデルの詳細な評価を行う。
提案手法は平均精度(MAP)を約45.7%向上させる。
この進歩は、提案された修正の有効性を強調し、航空画像解析の新しいベンチマークを設定する。
論文 参考訳(メタデータ) (2023-11-21T19:49:13Z) - PREM: A Simple Yet Effective Approach for Node-Level Graph Anomaly
Detection [65.24854366973794]
ノードレベルのグラフ異常検出(GAD)は、医学、ソーシャルネットワーク、eコマースなどの分野におけるグラフ構造化データから異常ノードを特定する上で重要な役割を果たす。
本稿では,GADの効率を向上させるために,PREM (preprocessing and Matching) という簡単な手法を提案する。
我々のアプローチは、強力な異常検出機能を維持しながら、GADを合理化し、時間とメモリ消費を削減します。
論文 参考訳(メタデータ) (2023-10-18T02:59:57Z) - UFPMP-Det: Toward Accurate and Efficient Object Detection on Drone
Imagery [26.27705791338182]
本稿では,UFPMP-Det(Unified Foreground Packing)を用いたマルチプロキシ検出ネットワーク(Multi-Proxy Detection Network)を提案する。
UFPMP-Detは、高解像度の入力画像をフォアグラウンド比の低いかなり多くのチップに分割して検出する一般的なソリューションとは異なる、非常に小さなスケールの多数のインスタンスを扱うように設計されている。
広く使われているVisDroneとUAVDTデータセットで実験が行われ、UFPMP-Detは新たな最先端スコアをはるかに高速で報告し、その利点を強調している。
論文 参考訳(メタデータ) (2021-12-20T09:28:44Z) - Improved YOLOv5 network for real-time multi-scale traffic sign detection [4.5598087061051755]
本稿では,アダプティブアテンションモジュール (AAM) と機能拡張モジュール (FEM) を利用して特徴マップ生成の過程での情報損失を低減する機能ピラミッドモデル AF-FPN を提案する。
YOLOv5の本来の特徴ピラミッドネットワークをAF-FPNに置き換え、YOLOv5ネットワークのマルチスケールターゲットの検出性能を向上させる。
論文 参考訳(メタデータ) (2021-12-16T11:02:12Z) - LF-YOLO: A Lighter and Faster YOLO for Weld Defect Detection of X-ray
Image [7.970559381165446]
畳み込みニューラルネットワーク(CNN)に基づく溶接欠陥検出手法,すなわちLighter and Faster YOLO(LF-YOLO)を提案する。
検出ネットワークの性能向上のために,効率的な特徴抽出(EFE)モジュールを提案する。
その結果, 溶接欠陥ネットワークは性能と消費のバランスが良好であり, 61.5 FPSの92.9 mAP50に達することがわかった。
論文 参考訳(メタデータ) (2021-10-28T12:19:32Z) - AdaZoom: Adaptive Zoom Network for Multi-Scale Object Detection in Large
Scenes [57.969186815591186]
大規模なシーンの検出は、小さなオブジェクトと極端なスケールの変動のために難しい問題である。
本稿では,物体検出のための焦点領域を適応的に拡大するために,フレキシブルな形状と焦点長を有する選択的拡大器として,新しい適応型Zoom(AdaZoom)ネットワークを提案する。
論文 参考訳(メタデータ) (2021-06-19T03:30:22Z) - M2TR: Multi-modal Multi-scale Transformers for Deepfake Detection [74.19291916812921]
Deepfake技術によって生成された鍛造画像は、デジタル情報の信頼性に深刻な脅威をもたらします。
本稿では,Deepfake検出のための微妙な操作アーチファクトを異なるスケールで捉えることを目的とする。
最先端の顔スワッピングと顔の再現方法によって生成された4000のDeepFakeビデオで構成される高品質のDeepFakeデータセットSR-DFを紹介します。
論文 参考訳(メタデータ) (2021-04-20T05:43:44Z) - Multi-Scale Positive Sample Refinement for Few-Shot Object Detection [61.60255654558682]
Few-shot Object Detection (FSOD) は、ディテクターがトレーニングインスタンスをほとんど持たない未確認のクラスに適応するのに役立つ。
FSODにおけるオブジェクトスケールを拡張化するためのMPSR(Multi-scale Positive Sample Refinement)アプローチを提案する。
MPSRは、オブジェクトピラミッドとして多スケールの正のサンプルを生成し、様々なスケールで予測を洗練させる。
論文 参考訳(メタデータ) (2020-07-18T09:48:29Z) - Hierarchical Dynamic Filtering Network for RGB-D Salient Object
Detection [91.43066633305662]
RGB-D Salient Object Detection (SOD) の主な目的は、相互融合情報をよりよく統合し活用する方法である。
本稿では,これらの問題を新たな視点から考察する。
我々は、より柔軟で効率的なマルチスケールのクロスモーダルな特徴処理を実装している。
論文 参考訳(メタデータ) (2020-07-13T07:59:55Z) - ASFD: Automatic and Scalable Face Detector [129.82350993748258]
ASFD(Automatic and Scalable Face Detector)を提案する。
ASFDはニューラルアーキテクチャ検索技術の組み合わせと新たな損失設計に基づいている。
ASFD-D0は120FPS以上で動作し、MobilenetはVGA解像度の画像を撮影しています。
論文 参考訳(メタデータ) (2020-03-25T06:00:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。