論文の概要: RF-DETR Object Detection vs YOLOv12 : A Study of Transformer-based and CNN-based Architectures for Single-Class and Multi-Class Greenfruit Detection in Complex Orchard Environments Under Label Ambiguity
- arxiv url: http://arxiv.org/abs/2504.13099v1
- Date: Thu, 17 Apr 2025 17:08:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-18 14:36:37.347084
- Title: RF-DETR Object Detection vs YOLOv12 : A Study of Transformer-based and CNN-based Architectures for Single-Class and Multi-Class Greenfruit Detection in Complex Orchard Environments Under Label Ambiguity
- Title(参考訳): RF-DETRオブジェクト検出 vs YOLOv12 : ラベル曖昧性下における複合オーチャード環境におけるシングルクラスおよびマルチクラスグリーンフルーツ検出のためのトランスフォーマーベースおよびCNNベースアーキテクチャの検討
- Authors: Ranjan Sapkota, Rahul Harsha Cheppally, Ajay Sharda, Manoj Karkee,
- Abstract要約: 本研究では,RF-DETRオブジェクト検出ベースモデルとYOLOv12オブジェクト検出モデル構成の詳細な比較を行う。
単一クラス (greenfruit) とマルチクラス (occluded and non-ococuded greenfruits) アノテーションを備えたカスタムデータセットが開発された。
DINOv2のバックボーンと変形可能なアテンションを利用するRF-DETRモデルは、グローバルなコンテキストモデリングにおいて優れている。
YOLOv12はCNNベースの注意をローカル特徴抽出の強化に利用し、計算効率とエッジデプロイメントに最適化した。
- 参考スコア(独自算出の注目度): 0.8488322025656239
- License:
- Abstract: This study conducts a detailed comparison of RF-DETR object detection base model and YOLOv12 object detection model configurations for detecting greenfruits in a complex orchard environment marked by label ambiguity, occlusions, and background blending. A custom dataset was developed featuring both single-class (greenfruit) and multi-class (occluded and non-occluded greenfruits) annotations to assess model performance under dynamic real-world conditions. RF-DETR object detection model, utilizing a DINOv2 backbone and deformable attention, excelled in global context modeling, effectively identifying partially occluded or ambiguous greenfruits. In contrast, YOLOv12 leveraged CNN-based attention for enhanced local feature extraction, optimizing it for computational efficiency and edge deployment. RF-DETR achieved the highest mean Average Precision (mAP50) of 0.9464 in single-class detection, proving its superior ability to localize greenfruits in cluttered scenes. Although YOLOv12N recorded the highest mAP@50:95 of 0.7620, RF-DETR consistently outperformed in complex spatial scenarios. For multi-class detection, RF-DETR led with an mAP@50 of 0.8298, showing its capability to differentiate between occluded and non-occluded fruits, while YOLOv12L scored highest in mAP@50:95 with 0.6622, indicating better classification in detailed occlusion contexts. Training dynamics analysis highlighted RF-DETR's swift convergence, particularly in single-class settings where it plateaued within 10 epochs, demonstrating the efficiency of transformer-based architectures in adapting to dynamic visual data. These findings validate RF-DETR's effectiveness for precision agricultural applications, with YOLOv12 suited for fast-response scenarios. >Index Terms: RF-DETR object detection, YOLOv12, YOLOv13, YOLOv14, YOLOv15, YOLOE, YOLO World, YOLO, You Only Look Once, Roboflow, Detection Transformers, CNNs
- Abstract(参考訳): 本研究では, RF-DETRオブジェクト検出ベースモデルとYOLOv12オブジェクト検出モデルを用いて, ラベルのあいまいさ, オクルージョン, 背景ブレンディングを特徴とする複雑な果樹園環境下でのグリーンフルーツの検出について, 詳細な比較を行った。
単一クラス(Greenfruit)とマルチクラス(Coverdedおよび非Coverded Greenfruits)アノテーションの両方を備えたカスタムデータセットが開発され、動的実世界の条件下でモデルパフォーマンスを評価する。
RF-DETRオブジェクト検出モデルは、DINOv2バックボーンと変形可能な注意力を利用して、大域的なコンテキストモデリングに優れ、部分的に隠蔽されたまたは曖昧なグリーンフルーツを効果的に識別する。
これとは対照的に、YOLOv12はCNNベースの注意をローカル特徴抽出の強化に利用し、計算効率とエッジデプロイメントに最適化した。
RF-DETRは、単一クラス検出において平均平均精度(mAP50)が0.9464に達した。
YOLOv12Nは0.7620のmAP@50:95の最高値を記録したが、RF-DETRは複雑な空間シナリオにおいて一貫して優れていた。
多クラス検出では、RF-DETRが0.8298のmAP@50をリードし、閉鎖された果実と非閉鎖された果実を区別する能力を示し、YOLOv12Lは0.6622でmAP@50:95で最高値を記録した。
トレーニングダイナミクス分析では、RF-DETRの急激な収束が強調され、特に10エポック以内の単一クラス環境では、動的視覚データに適応するトランスフォーマーベースのアーキテクチャの効率を実証した。
これらの結果は, 高速応答シナリオに適したYOLOv12を用いて, RF-DETRによる精密農業利用の有効性を検証した。
出典:RF-DETR object detection, YOLOv12, YOLOv13, YOLOv14, YOLOv15, YOLOE, YOLO World, YOLO, You Only Look Once, Roboflow, Detection Transformers, CNNs
関連論文リスト
- Assessing the Capability of YOLO- and Transformer-based Object Detectors for Real-time Weed Detection [0.0]
YOLOv8, YOLOv9, YOLOv10, RT-DETRのすべての利用可能なモデルは、実地状況の画像を用いて訓練され、評価される。
その結果、評価された指標では、全てのモデルが等しくよく機能するのに対し、YOLOv9モデルは強いリコールスコアの点で際立っていることがわかった。
RT-DETRモデル、特にRT-DETR-lは、データセット1では82.44 %、データセット2では81.46 %の精度で優れている。
論文 参考訳(メタデータ) (2025-01-29T02:39:57Z) - Robust Fine-tuning of Zero-shot Models via Variance Reduction [56.360865951192324]
微調整ゼロショットモデルの場合、このデシドラトゥムは細調整モデルで、分布内(ID)と分布外(OOD)の両方で優れる。
トレードオフを伴わずに最適なIDとOODの精度を同時に達成できるサンプルワイズアンサンブル手法を提案する。
論文 参考訳(メタデータ) (2024-11-11T13:13:39Z) - YOLO Evolution: A Comprehensive Benchmark and Architectural Review of YOLOv12, YOLO11, and Their Previous Versions [0.0]
本研究は, YOLOv3から最新のYOLOv12への包括的実験評価である。
考慮すべき課題は、さまざまなオブジェクトサイズ、多様なアスペクト比、単一クラスの小さなオブジェクトである。
分析では各YOLOバージョンの特徴的長所と短所を強調した。
論文 参考訳(メタデータ) (2024-10-31T20:45:00Z) - YOLO-ELA: Efficient Local Attention Modeling for High-Performance Real-Time Insulator Defect Detection [0.0]
無人航空機からの絶縁体欠陥検出のための既存の検出方法は、複雑な背景や小さな物体と競合する。
本稿では,この課題に対処するため,新しい注目基盤アーキテクチャであるYOLO-ELAを提案する。
高分解能UAV画像による実験結果から,本手法は96.9% mAP0.5,リアルタイム検出速度74.63フレーム/秒を実現した。
論文 参考訳(メタデータ) (2024-10-15T16:00:01Z) - YOLOv10: Real-Time End-to-End Object Detection [68.28699631793967]
リアルタイムオブジェクト検出の分野では,YOLOが主流のパラダイムとして浮上している。
非最大抑圧(NMS)による処理後ハマーによるYOLOのエンドツーエンドデプロイメントへの依存。
YOLOの総合的効率-精度駆動型モデル設計戦略を紹介する。
論文 参考訳(メタデータ) (2024-05-23T11:44:29Z) - SIRST-5K: Exploring Massive Negatives Synthesis with Self-supervised
Learning for Robust Infrared Small Target Detection [53.19618419772467]
単一フレーム赤外線小ターゲット検出(SIRST)は、乱雑な背景から小さなターゲットを認識することを目的としている。
Transformerの開発に伴い、SIRSTモデルのスケールは常に増大している。
赤外線小ターゲットデータの多彩な多様性により,本アルゴリズムはモデル性能と収束速度を大幅に改善する。
論文 参考訳(メタデータ) (2024-03-08T16:14:54Z) - YOLO-World: Real-Time Open-Vocabulary Object Detection [87.08732047660058]
オープン語彙検出機能でYOLOを強化する革新的なアプローチであるYOLO-Worldを紹介する。
提案手法は,ゼロショット方式で広範囲の物体を高効率で検出する。
YOLO-WorldはV100上で52.0 FPSの35.4 APを達成した。
論文 参考訳(メタデータ) (2024-01-30T18:59:38Z) - DiffYOLO: Object Detection for Anti-Noise via YOLO and Diffusion Models [4.7846759259287985]
本稿では,DiffYOLO と呼ばれる YOLO モデルに適用可能なフレームワークを提案する。
具体的には,拡散確率モデルから特徴写像を抽出し,よく訓練されたモデルを強化する。
その結果、このフレームワークはノイズの多いデータセットのパフォーマンスを証明できるだけでなく、高品質なテストデータセットにおける検出結果も証明できることがわかった。
論文 参考訳(メタデータ) (2024-01-03T10:35:35Z) - YOLO-MS: Rethinking Multi-Scale Representation Learning for Real-time Object Detection [63.36722419180875]
YOLO-MSと呼ばれる効率的かつ高性能な物体検出器を提供する。
私たちは、他の大規模なデータセットに頼ることなく、MS COCOデータセット上でYOLO-MSをスクラッチからトレーニングします。
私たちの作業は、他のYOLOモデルのプラグイン・アンド・プレイモジュールとしても機能します。
論文 参考訳(メタデータ) (2023-08-10T10:12:27Z) - DeepSeaNet: Improving Underwater Object Detection using EfficientDet [0.0]
このプロジェクトでは、注釈付き水中データセット上で様々な物体検出モデルを実装し、評価する。
このデータセットは、Limfjorden水中で捕獲された魚、カニ、ヒトデ、その他の水生動物の注釈画像からなる。
I compare the results of YOLOv3 (31.10% mean Average Precision (mAP)), YOLOv4 (83.72% mAP), YOLOv5 (97.6%), YOLOv8 (98.20%), EfficientDet (98.56% mAP) and Detectron2 (95.20% mAP) on the same dataset。
論文 参考訳(メタデータ) (2023-05-26T13:41:35Z) - A lightweight and accurate YOLO-like network for small target detection
in Aerial Imagery [94.78943497436492]
小型ターゲット検出のためのシンプルで高速で効率的なネットワークであるYOLO-Sを提案する。
YOLO-SはDarknet20をベースとした小さな特徴抽出器と、バイパスと連結の両方を通じて接続をスキップする。
YOLO-Sはパラメータサイズが87%減少し、約半分のFLOPがYOLOv3となり、低消費電力の産業用アプリケーションに実用化された。
論文 参考訳(メタデータ) (2022-04-05T16:29:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。