Fugu-MT 論文翻訳(概要): RF-DETR Object Detection vs YOLOv12 : A Study of Transformer-based and CNN-based Architectures for Single-Class and Multi-Class Greenfruit Detection in Complex Orchard Environments Under Label Ambiguity

論文の概要: RF-DETR Object Detection vs YOLOv12 : A Study of Transformer-based and CNN-based Architectures for Single-Class and Multi-Class Greenfruit Detection in Complex Orchard Environments Under Label Ambiguity

arxiv url: http://arxiv.org/abs/2504.13099v1
Date: Thu, 17 Apr 2025 17:08:11 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-25 17:32:19.419713
Title: RF-DETR Object Detection vs YOLOv12 : A Study of Transformer-based and CNN-based Architectures for Single-Class and Multi-Class Greenfruit Detection in Complex Orchard Environments Under Label Ambiguity
Title（参考訳）: RF-DETRオブジェクト検出 vs YOLOv12 : ラベル曖昧性下における複合オーチャード環境におけるシングルクラスおよびマルチクラスグリーンフルーツ検出のためのトランスフォーマーベースおよびCNNベースアーキテクチャの検討
Authors: Ranjan Sapkota, Rahul Harsha Cheppally, Ajay Sharda, Manoj Karkee,
Abstract要約: 本研究では,RF-DETRオブジェクト検出ベースモデルとYOLOv12オブジェクト検出モデル構成の詳細な比較を行う。単一クラス (greenfruit) とマルチクラス (occluded and non-ococuded greenfruits) アノテーションを備えたカスタムデータセットが開発された。 DINOv2のバックボーンと変形可能なアテンションを利用するRF-DETRモデルは、グローバルなコンテキストモデリングにおいて優れている。 YOLOv12はCNNベースの注意をローカル特徴抽出の強化に利用し、計算効率とエッジデプロイメントに最適化した。
参考スコア（独自算出の注目度）: 0.8488322025656239
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This study conducts a detailed comparison of RF-DETR object detection base model and YOLOv12 object detection model configurations for detecting greenfruits in a complex orchard environment marked by label ambiguity, occlusions, and background blending. A custom dataset was developed featuring both single-class (greenfruit) and multi-class (occluded and non-occluded greenfruits) annotations to assess model performance under dynamic real-world conditions. RF-DETR object detection model, utilizing a DINOv2 backbone and deformable attention, excelled in global context modeling, effectively identifying partially occluded or ambiguous greenfruits. In contrast, YOLOv12 leveraged CNN-based attention for enhanced local feature extraction, optimizing it for computational efficiency and edge deployment. RF-DETR achieved the highest mean Average Precision (mAP50) of 0.9464 in single-class detection, proving its superior ability to localize greenfruits in cluttered scenes. Although YOLOv12N recorded the highest mAP@50:95 of 0.7620, RF-DETR consistently outperformed in complex spatial scenarios. For multi-class detection, RF-DETR led with an mAP@50 of 0.8298, showing its capability to differentiate between occluded and non-occluded fruits, while YOLOv12L scored highest in mAP@50:95 with 0.6622, indicating better classification in detailed occlusion contexts. Training dynamics analysis highlighted RF-DETR's swift convergence, particularly in single-class settings where it plateaued within 10 epochs, demonstrating the efficiency of transformer-based architectures in adapting to dynamic visual data. These findings validate RF-DETR's effectiveness for precision agricultural applications, with YOLOv12 suited for fast-response scenarios. >Index Terms: RF-DETR object detection, YOLOv12, YOLOv13, YOLOv14, YOLOv15, YOLOE, YOLO World, YOLO, You Only Look Once, Roboflow, Detection Transformers, CNNs
Abstract（参考訳）: 本研究では, RF-DETRオブジェクト検出ベースモデルとYOLOv12オブジェクト検出モデルを用いて, ラベルのあいまいさ, オクルージョン, 背景ブレンディングを特徴とする複雑な果樹園環境下でのグリーンフルーツの検出について, 詳細な比較を行った。単一クラス(Greenfruit)とマルチクラス(Coverdedおよび非Coverded Greenfruits)アノテーションの両方を備えたカスタムデータセットが開発され、動的実世界の条件下でモデルパフォーマンスを評価する。 RF-DETRオブジェクト検出モデルは、DINOv2バックボーンと変形可能な注意力を利用して、大域的なコンテキストモデリングに優れ、部分的に隠蔽されたまたは曖昧なグリーンフルーツを効果的に識別する。これとは対照的に、YOLOv12はCNNベースの注意をローカル特徴抽出の強化に利用し、計算効率とエッジデプロイメントに最適化した。 RF-DETRは、単一クラス検出において平均平均精度(mAP50)が0.9464に達した。 YOLOv12Nは0.7620のmAP@50:95の最高値を記録したが、RF-DETRは複雑な空間シナリオにおいて一貫して優れていた。多クラス検出では、RF-DETRが0.8298のmAP@50をリードし、閉鎖された果実と非閉鎖された果実を区別する能力を示し、YOLOv12Lは0.6622でmAP@50:95で最高値を記録した。トレーニングダイナミクス分析では、RF-DETRの急激な収束が強調され、特に10エポック以内の単一クラス環境では、動的視覚データに適応するトランスフォーマーベースのアーキテクチャの効率を実証した。これらの結果は, 高速応答シナリオに適したYOLOv12を用いて, RF-DETRによる精密農業利用の有効性を検証した。出典:RF-DETR object detection, YOLOv12, YOLOv13, YOLOv14, YOLOv15, YOLOE, YOLO World, YOLO, You Only Look Once, Roboflow, Detection Transformers, CNNs

関連論文リスト

YOLO-RS: Remote Sensing Enhanced Crop Detection Methods [0.32985979395737786]
既存のターゲット検出手法は、リモートセンシング画像において、小さなターゲットを扱う際の性能が劣っている。 YOLO-RSは、小さなターゲットの検出を大幅に強化した最新のYolov11に基づいている。リモートセンシング画像における小目標検出作業におけるYOLO-RSの有効性と適用可能性を検証する実験を行った。
論文参考訳（メタデータ） (2025-04-15T13:13:22Z)
SPARC: Score Prompting and Adaptive Fusion for Zero-Shot Multi-Label Recognition in Vision-Language Models [74.40683913645731]
Zero-shot Multi-label Recognition (MLR) with Vision-Language Models (VLMs) は、トレーニングデータ、モデルチューニング、アーキテクチャの変更なしに重要な課題に直面している。我々の研究は、VLMをブラックボックスとして扱い、トレーニングデータや地上の真実を使わずにスコアを活用する新しいソリューションを提案する。これらのプロンプトスコアの分析により、VLMバイアスとAND'/OR信号の曖昧さが明らかになり、特に、最高スコアは2番目に高いスコアに比べて驚くほど低い。
論文参考訳（メタデータ） (2025-02-24T07:15:05Z)
Assessing the Capability of YOLO- and Transformer-based Object Detectors for Real-time Weed Detection [0.0]
YOLOv8, YOLOv9, YOLOv10, RT-DETRのすべての利用可能なモデルは、実地状況の画像を用いて訓練され、評価される。その結果、評価された指標では、全てのモデルが等しくよく機能するのに対し、YOLOv9モデルは強いリコールスコアの点で際立っていることがわかった。 RT-DETRモデル、特にRT-DETR-lは、データセット1では82.44 %、データセット2では81.46 %の精度で優れている。
論文参考訳（メタデータ） (2025-01-29T02:39:57Z)
YOLO-ELA: Efficient Local Attention Modeling for High-Performance Real-Time Insulator Defect Detection [0.0]
無人航空機からの絶縁体欠陥検出のための既存の検出方法は、複雑な背景や小さな物体と競合する。本稿では,この課題に対処するため,新しい注目基盤アーキテクチャであるYOLO-ELAを提案する。高分解能UAV画像による実験結果から,本手法は96.9% mAP0.5,リアルタイム検出速度74.63フレーム/秒を実現した。
論文参考訳（メタデータ） (2024-10-15T16:00:01Z)
YOLOv10: Real-Time End-to-End Object Detection [68.28699631793967]
リアルタイムオブジェクト検出の分野では,YOLOが主流のパラダイムとして浮上している。非最大抑圧(NMS)による処理後ハマーによるYOLOのエンドツーエンドデプロイメントへの依存。 YOLOの総合的効率-精度駆動型モデル設計戦略を紹介する。
論文参考訳（メタデータ） (2024-05-23T11:44:29Z)
SIRST-5K: Exploring Massive Negatives Synthesis with Self-supervised Learning for Robust Infrared Small Target Detection [53.19618419772467]
単一フレーム赤外線小ターゲット検出(SIRST)は、乱雑な背景から小さなターゲットを認識することを目的としている。 Transformerの開発に伴い、SIRSTモデルのスケールは常に増大している。赤外線小ターゲットデータの多彩な多様性により,本アルゴリズムはモデル性能と収束速度を大幅に改善する。
論文参考訳（メタデータ） (2024-03-08T16:14:54Z)
YOLO-World: Real-Time Open-Vocabulary Object Detection [87.08732047660058]
オープン語彙検出機能でYOLOを強化する革新的なアプローチであるYOLO-Worldを紹介する。提案手法は,ゼロショット方式で広範囲の物体を高効率で検出する。 YOLO-WorldはV100上で52.0 FPSの35.4 APを達成した。
論文参考訳（メタデータ） (2024-01-30T18:59:38Z)
DiffYOLO: Object Detection for Anti-Noise via YOLO and Diffusion Models [4.7846759259287985]
本稿では,DiffYOLO と呼ばれる YOLO モデルに適用可能なフレームワークを提案する。具体的には,拡散確率モデルから特徴写像を抽出し,よく訓練されたモデルを強化する。その結果、このフレームワークはノイズの多いデータセットのパフォーマンスを証明できるだけでなく、高品質なテストデータセットにおける検出結果も証明できることがわかった。
論文参考訳（メタデータ） (2024-01-03T10:35:35Z)
YOLO-MS: Rethinking Multi-Scale Representation Learning for Real-time Object Detection [63.36722419180875]
YOLO-MSと呼ばれる効率的かつ高性能な物体検出器を提供する。私たちは、他の大規模なデータセットに頼ることなく、MS COCOデータセット上でYOLO-MSをスクラッチからトレーニングします。私たちの作業は、他のYOLOモデルのプラグイン・アンド・プレイモジュールとしても機能します。
論文参考訳（メタデータ） (2023-08-10T10:12:27Z)
DeepSeaNet: Improving Underwater Object Detection using EfficientDet [0.0]
このプロジェクトでは、注釈付き水中データセット上で様々な物体検出モデルを実装し、評価する。このデータセットは、Limfjorden水中で捕獲された魚、カニ、ヒトデ、その他の水生動物の注釈画像からなる。 I compare the results of YOLOv3 (31.10% mean Average Precision (mAP)), YOLOv4 (83.72% mAP), YOLOv5 (97.6%), YOLOv8 (98.20%), EfficientDet (98.56% mAP) and Detectron2 (95.20% mAP) on the same dataset。
論文参考訳（メタデータ） (2023-05-26T13:41:35Z)
A lightweight and accurate YOLO-like network for small target detection in Aerial Imagery [94.78943497436492]
小型ターゲット検出のためのシンプルで高速で効率的なネットワークであるYOLO-Sを提案する。 YOLO-SはDarknet20をベースとした小さな特徴抽出器と、バイパスと連結の両方を通じて接続をスキップする。 YOLO-Sはパラメータサイズが87%減少し、約半分のFLOPがYOLOv3となり、低消費電力の産業用アプリケーションに実用化された。
論文参考訳（メタデータ） (2022-04-05T16:29:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。