論文の概要: Spatial Transformer Network YOLO Model for Agricultural Object Detection
- arxiv url: http://arxiv.org/abs/2407.21652v2
- Date: Sun, 15 Sep 2024 21:04:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-18 01:06:42.692217
- Title: Spatial Transformer Network YOLO Model for Agricultural Object Detection
- Title(参考訳): 農業用物体検出のための空間変圧器ネットワークYOLOモデル
- Authors: Yash Zambre, Ekdev Rajkitkul, Akshatha Mohan, Joshua Peeples,
- Abstract要約: 本稿では,空間変換器ネットワーク(STN)をYOLOに統合し,性能を向上させる手法を提案する。
提案するSTN-YOLOは,画像の重要な領域に着目し,モデルの有効性を高めることを目的としている。
農業オブジェクト検出のためのベンチマークデータセットと、最先端の植物表現型温室施設からの新たなデータセットにSTN-YOLOを適用した。
- 参考スコア(独自算出の注目度): 0.3124884279860061
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Object detection plays a crucial role in the field of computer vision by autonomously locating and identifying objects of interest. The You Only Look Once (YOLO) model is an effective single-shot detector. However, YOLO faces challenges in cluttered or partially occluded scenes and can struggle with small, low-contrast objects. We propose a new method that integrates spatial transformer networks (STNs) into YOLO to improve performance. The proposed STN-YOLO aims to enhance the model's effectiveness by focusing on important areas of the image and improving the spatial invariance of the model before the detection process. Our proposed method improved object detection performance both qualitatively and quantitatively. We explore the impact of different localization networks within the STN module as well as the robustness of the model across different spatial transformations. We apply the STN-YOLO on benchmark datasets for Agricultural object detection as well as a new dataset from a state-of-the-art plant phenotyping greenhouse facility. Our code and dataset are publicly available.
- Abstract(参考訳): 対象検出は、関心のある対象を自律的に特定することによって、コンピュータビジョンの分野において重要な役割を果たす。
You Only Look Once (YOLO)モデルは効果的な単発検出器である。
しかし、YOLOは散らばった、あるいは部分的に隠されたシーンの課題に直面し、小さな、低コントラストのオブジェクトと戦うことができる。
本稿では,空間変換器ネットワーク(STN)をYOLOに統合し,性能を向上させる手法を提案する。
提案するSTN-YOLOは,画像の重要な領域に着目し,検出前のモデルの空間的不変性を改善することにより,モデルの有効性を高めることを目的としている。
提案手法は,定性的かつ定量的に物体検出性能を向上する。
我々はSTNモジュール内の異なるローカライゼーションネットワークの影響と、異なる空間変換におけるモデルのロバスト性について検討する。
農業オブジェクト検出のためのベンチマークデータセットと、最先端の植物表現型温室施設からの新たなデータセットにSTN-YOLOを適用した。
コードとデータセットは公開されています。
関連論文リスト
- YOLOv11: An Overview of the Key Architectural Enhancements [0.5639904484784127]
本稿では、オブジェクト検出、インスタンスセグメンテーション、ポーズ推定、オブジェクト指向オブジェクト検出(OBB)など、さまざまなコンピュータビジョンタスクにまたがるYOLOv11の拡張機能について検討する。
本稿では,パラメータ数と精度のトレードオフに着目し,平均精度(mAP)と計算効率の両面からモデルの性能改善を概観する。
我々の研究は、オブジェクト検出の広い視野におけるYOLOv11の位置と、リアルタイムコンピュータビジョンアプリケーションに対する潜在的な影響についての洞察を提供する。
論文 参考訳(メタデータ) (2024-10-23T09:55:22Z) - YOLO-ELA: Efficient Local Attention Modeling for High-Performance Real-Time Insulator Defect Detection [0.0]
無人航空機からの絶縁体欠陥検出のための既存の検出方法は、複雑な背景や小さな物体と競合する。
本稿では,この課題に対処するため,新しい注目基盤アーキテクチャであるYOLO-ELAを提案する。
高分解能UAV画像による実験結果から,本手法は96.9% mAP0.5,リアルタイム検出速度74.63フレーム/秒を実現した。
論文 参考訳(メタデータ) (2024-10-15T16:00:01Z) - A Simple Background Augmentation Method for Object Detection with Diffusion Model [53.32935683257045]
コンピュータビジョンでは、データの多様性の欠如がモデル性能を損なうことはよく知られている。
本稿では, 生成モデルの進歩を生かして, 単純かつ効果的なデータ拡張手法を提案する。
背景強化は、特にモデルの堅牢性と一般化能力を大幅に改善する。
論文 参考訳(メタデータ) (2024-08-01T07:40:00Z) - Mamba YOLO: SSMs-Based YOLO For Object Detection [9.879086222226617]
Mamba-YOLOはステートスペースモデルに基づく新しい物体検出モデルである。
本報告では,マンバヨロが既存のYOLOシリーズモデルを上回る性能と競争性を示す。
論文 参考訳(メタデータ) (2024-06-09T15:56:19Z) - SOAR: Advancements in Small Body Object Detection for Aerial Imagery Using State Space Models and Programmable Gradients [0.8873228457453465]
空中画像における小さな物体検出は、コンピュータビジョンにおいて重要な課題である。
トランスフォーマーベースのモデルを用いた従来の手法は、特殊データベースの欠如に起因する制限に直面していることが多い。
本稿では,小型空中物体の検出とセグメンテーション機能を大幅に向上する2つの革新的なアプローチを紹介する。
論文 参考訳(メタデータ) (2024-05-02T19:47:08Z) - YOLO-World: Real-Time Open-Vocabulary Object Detection [87.08732047660058]
オープン語彙検出機能でYOLOを強化する革新的なアプローチであるYOLO-Worldを紹介する。
提案手法は,ゼロショット方式で広範囲の物体を高効率で検出する。
YOLO-WorldはV100上で52.0 FPSの35.4 APを達成した。
論文 参考訳(メタデータ) (2024-01-30T18:59:38Z) - Innovative Horizons in Aerial Imagery: LSKNet Meets DiffusionDet for
Advanced Object Detection [55.2480439325792]
本稿では,LSKNetのバックボーンをDiffusionDetヘッドに統合したオブジェクト検出モデルの詳細な評価を行う。
提案手法は平均精度(MAP)を約45.7%向上させる。
この進歩は、提案された修正の有効性を強調し、航空画像解析の新しいベンチマークを設定する。
論文 参考訳(メタデータ) (2023-11-21T19:49:13Z) - Weakly-supervised Contrastive Learning for Unsupervised Object Discovery [52.696041556640516]
ジェネリックな方法でオブジェクトを発見できるため、教師なしのオブジェクト発見は有望である。
画像から高レベルな意味的特徴を抽出する意味誘導型自己教師学習モデルを設計する。
オブジェクト領域のローカライズのための主成分分析(PCA)を導入する。
論文 参考訳(メタデータ) (2023-07-07T04:03:48Z) - AdaZoom: Adaptive Zoom Network for Multi-Scale Object Detection in Large
Scenes [57.969186815591186]
大規模なシーンの検出は、小さなオブジェクトと極端なスケールの変動のために難しい問題である。
本稿では,物体検出のための焦点領域を適応的に拡大するために,フレキシブルな形状と焦点長を有する選択的拡大器として,新しい適応型Zoom(AdaZoom)ネットワークを提案する。
論文 参考訳(メタデータ) (2021-06-19T03:30:22Z) - Salient Objects in Clutter [130.63976772770368]
本稿では,既存の正当性オブジェクト検出(SOD)データセットの重大な設計バイアスを特定し,対処する。
この設計バイアスは、既存のデータセットで評価した場合、最先端のSODモデルのパフォーマンスの飽和につながった。
我々は,新しい高品質データセットを提案し,前回のsaliencyベンチマークを更新する。
論文 参考訳(メタデータ) (2021-05-07T03:49:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。