論文の概要: YOLO11 and Vision Transformers based 3D Pose Estimation of Immature Green Fruits in Commercial Apple Orchards for Robotic Thinning
- arxiv url: http://arxiv.org/abs/2410.19846v1
- Date: Mon, 21 Oct 2024 17:00:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-03 07:21:57.302128
- Title: YOLO11 and Vision Transformers based 3D Pose Estimation of Immature Green Fruits in Commercial Apple Orchards for Robotic Thinning
- Title(参考訳): YOLO11とビジョントランスフォーマーを用いた市販リンゴ果樹における未熟緑果汁の3次元評価
- Authors: Ranjan Sapkota, Manoj Karkee,
- Abstract要約: 商業用果樹果樹における未熟リンゴ(フルーツレット)の3次元ポーズ推定法を開発した。
YOLO11オブジェクト検出とポーズ推定アルゴリズムとViT(Vision Transformers)を併用して深度推定を行う。
YOLO11nは、ボックス精度と精度の点で、YOLO11とYOLOv8のすべての構成を上回った。
- 参考スコア(独自算出の注目度): 0.4143603294943439
- License:
- Abstract: In this study, a robust method for 3D pose estimation of immature green apples (fruitlets) in commercial orchards was developed, utilizing the YOLO11 object detection and pose estimation algorithm alongside Vision Transformers (ViT) for depth estimation (Dense Prediction Transformer (DPT) and Depth Anything V2). For object detection and pose estimation, performance comparisons of YOLO11 (YOLO11n, YOLO11s, YOLO11m, YOLO11l and YOLO11x) and YOLOv8 (YOLOv8n, YOLOv8s, YOLOv8m, YOLOv8l and YOLOv8x) were made under identical hyperparameter settings among the all configurations. It was observed that YOLO11n surpassed all configurations of YOLO11 and YOLOv8 in terms of box precision and pose precision, achieving scores of 0.91 and 0.915, respectively. Conversely, YOLOv8n exhibited the highest box and pose recall scores of 0.905 and 0.925, respectively. Regarding the mean average precision at 50\% intersection over union (mAP@50), YOLO11s led all configurations with a box mAP@50 score of 0.94, while YOLOv8n achieved the highest pose mAP@50 score of 0.96. In terms of image processing speed, YOLO11n outperformed all configurations with an impressive inference speed of 2.7 ms, significantly faster than the quickest YOLOv8 configuration, YOLOv8n, which processed images in 7.8 ms. Subsequent integration of ViTs for the green fruit's pose depth estimation revealed that Depth Anything V2 outperformed Dense Prediction Transformer in 3D pose length validation, achieving the lowest Root Mean Square Error (RMSE) of 1.52 and Mean Absolute Error (MAE) of 1.28, demonstrating exceptional precision in estimating immature green fruit lengths. Integration of YOLO11 and Depth Anything Model provides a promising solution to 3D pose estimation of immature green fruits for robotic thinning applications.
- Abstract(参考訳): 本研究では,商業用果樹園における未熟リンゴ(フルーツレット)の3次元ポーズ推定法を開発し,深度推定のためのビジョントランスフォーマー(ViT)と共にYOLO11オブジェクトの検出とポーズ推定アルゴリズムを開発した。
オブジェクト検出とポーズ推定では, YOLO11(YOLO11n, YOLO11s, YOLO11m, YOLO11l, YOLO11x)とYOLOv8(YOLOv8n, YOLOv8s, YOLOv8m, YOLOv8l, YOLOv8x)のパフォーマンス比較を行った。
YOLO11nはボックス精度でYOLO11とYOLOv8の全ての構成を上回り、それぞれ0.91と0.915のスコアを得た。
逆に、YOLOv8nは最高のボックスを示し、それぞれ0.905と0.925のリコールスコアを示した。
MAP@50の平均交点平均精度(mAP@50)について、YOLO11sはmAP@50のボックススコア0.94で、YOLOv8nはmAP@50のボックススコア0.96で、全ての構成を導いた。
最も高速なYOLOv8構成であるYOLOv8nは、7.8msの速度で画像を処理した。 グリーンフルーツのポーズ深度推定のためのViTsのその後の統合により、3DのDepth Anything V2 Experformed Dense Prediction Transformerは長さの検証を行い、1.52のRoot Mean Square Error(RMSE)と1.28のMean Absolute Error(MAE)を達成した。
YOLO11とDepth Anything Modelの統合は、ロボットの薄型化への応用のために、未熟な緑の果実を3Dポーズで推定する、有望なソリューションを提供する。
関連論文リスト
- Robust Fine-tuning of Zero-shot Models via Variance Reduction [56.360865951192324]
微調整ゼロショットモデルの場合、このデシドラトゥムは細調整モデルで、分布内(ID)と分布外(OOD)の両方で優れる。
トレードオフを伴わずに最適なIDとOODの精度を同時に達成できるサンプルワイズアンサンブル手法を提案する。
論文 参考訳(メタデータ) (2024-11-11T13:13:39Z) - Evaluating the Evolution of YOLO (You Only Look Once) Models: A Comprehensive Benchmark Study of YOLO11 and Its Predecessors [0.0]
本研究では,YOLOv3から最新のYOLO11まで,YOLO(You Only Look Once)アルゴリズムのベンチマーク解析を行った。
トラフィックシグネチャ(さまざまなオブジェクトサイズを持つ)、アフリカ野生生物(多彩なアスペクト比と画像当たりのオブジェクトの少なくとも1つのインスタンス)、および船と船舶(単一のクラスの小さなオブジェクトを持つ)の3つの多様なデータセットでパフォーマンスを評価する。
論文 参考訳(メタデータ) (2024-10-31T20:45:00Z) - Comparing YOLO11 and YOLOv8 for instance segmentation of occluded and non-occluded immature green fruits in complex orchard environment [0.4143603294943439]
本研究は、果樹園における未成熟リンゴのYOLO11とYOLOv8のインスタンスセグメンテーション機能に焦点を当てた。
YOLO11n-セグはすべてのカテゴリーで最高のマスク精度を達成し、スコアは0.831であった。
YOLO11m-segは、ボックスとマスクのセグメンテーションで最高スコアを記録した。
論文 参考訳(メタデータ) (2024-10-24T00:12:20Z) - Quantizing YOLOv7: A Comprehensive Study [0.0]
本稿では,最先端のYOLOv7モデルの事前学習重みに対する様々な量子化スキームの有効性について検討する。
その結果、4ビット量子化と異なる粒度の組合せを組み合わせることで、均一な量子化と非一様量子化のための3.92倍と3.86倍のメモリ節約が得られることがわかった。
論文 参考訳(メタデータ) (2024-07-06T03:23:04Z) - Comprehensive Performance Evaluation of YOLO11, YOLOv10, YOLOv9 and YOLOv8 on Detecting and Counting Fruitlet in Complex Orchard Environments [0.9565934024763958]
本研究は, 商業果樹園における緑果検出のためのYOLOv8, YOLOv9, YOLOv10, YOLO11の全構成(Total 22)を対象に, You Only Look Once (YOLO) オブジェクト検出アルゴリズムを広範囲に評価した。
この研究は、iPhoneとマシンビジョンセンサーを使って、Scifresh、Scilate、Honeycrisp、Cosmic Crispの4種類のリンゴをフィールドで数えたことも検証した。
論文 参考訳(メタデータ) (2024-07-01T17:59:55Z) - YOLOv10: Real-Time End-to-End Object Detection [68.28699631793967]
リアルタイムオブジェクト検出の分野では,YOLOが主流のパラダイムとして浮上している。
非最大抑圧(NMS)による処理後ハマーによるYOLOのエンドツーエンドデプロイメントへの依存。
YOLOの総合的効率-精度駆動型モデル設計戦略を紹介する。
論文 参考訳(メタデータ) (2024-05-23T11:44:29Z) - YOLO-World: Real-Time Open-Vocabulary Object Detection [87.08732047660058]
オープン語彙検出機能でYOLOを強化する革新的なアプローチであるYOLO-Worldを紹介する。
提案手法は,ゼロショット方式で広範囲の物体を高効率で検出する。
YOLO-WorldはV100上で52.0 FPSの35.4 APを達成した。
論文 参考訳(メタデータ) (2024-01-30T18:59:38Z) - YOLO-MS: Rethinking Multi-Scale Representation Learning for Real-time
Object Detection [80.11152626362109]
YOLO-MSと呼ばれる効率的かつ高性能な物体検出器を提供する。
私たちは、他の大規模なデータセットに頼ることなく、MS COCOデータセット上でYOLO-MSをスクラッチからトレーニングします。
私たちの仕事は、他のYOLOモデルのプラグイン・アンド・プレイ・モジュールとしても使えます。
論文 参考訳(メタデータ) (2023-08-10T10:12:27Z) - Real-time Strawberry Detection Based on Improved YOLOv5s Architecture
for Robotic Harvesting in open-field environment [0.0]
本研究では, 屋外環境下でイチゴを検出するために, YOLOv5を用いたカスタムオブジェクト検出モデルを提案する。
最も高い平均精度は80.3%であり、提案されたアーキテクチャを用いて達成された。
このモデルは、リアルタイムのイチゴ検出とロボットピッキングのローカライズに十分高速である。
論文 参考訳(メタデータ) (2023-08-08T02:28:48Z) - A lightweight and accurate YOLO-like network for small target detection
in Aerial Imagery [94.78943497436492]
小型ターゲット検出のためのシンプルで高速で効率的なネットワークであるYOLO-Sを提案する。
YOLO-SはDarknet20をベースとした小さな特徴抽出器と、バイパスと連結の両方を通じて接続をスキップする。
YOLO-Sはパラメータサイズが87%減少し、約半分のFLOPがYOLOv3となり、低消費電力の産業用アプリケーションに実用化された。
論文 参考訳(メタデータ) (2022-04-05T16:29:49Z) - Workshop on Autonomous Driving at CVPR 2021: Technical Report for
Streaming Perception Challenge [57.647371468876116]
本稿では,現実的な自律運転シナリオのためのリアルタイム2次元物体検出システムについて紹介する。
私たちの検出器は、YOLOXと呼ばれる新しい設計のYOLOモデルで構築されています。
Argoverse-HDデータセットでは,検出のみのトラック/トラックで2位を7.8/6.1上回る41.0ストリーミングAPを達成した。
論文 参考訳(メタデータ) (2021-07-27T06:36:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。