論文の概要: Comparing YOLOv8 and Mask RCNN for object segmentation in complex orchard environments
- arxiv url: http://arxiv.org/abs/2312.07935v3
- Date: Thu, 4 Jul 2024 16:00:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-09 00:32:39.291390
- Title: Comparing YOLOv8 and Mask RCNN for object segmentation in complex orchard environments
- Title(参考訳): 複雑な果樹園環境におけるオブジェクトセグメンテーションのためのYOLOv8とMask RCNNの比較
- Authors: Ranjan Sapkota, Dawood Ahmed, Manoj Karkee,
- Abstract要約: 本研究では,一段階のYOLOv8と二段階のMask R-CNN機械学習モデルとの比較を行った。
YOLOv8はMask R-CNNより優れており、信頼性閾値0.5で両方のデータセット間で良好な精度とほぼ完璧なリコールを実現している。
- 参考スコア(独自算出の注目度): 0.36868085124383626
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Instance segmentation, an important image processing operation for automation in agriculture, is used to precisely delineate individual objects of interest within images, which provides foundational information for various automated or robotic tasks such as selective harvesting and precision pruning. This study compares the one-stage YOLOv8 and the two-stage Mask R-CNN machine learning models for instance segmentation under varying orchard conditions across two datasets. Dataset 1, collected in dormant season, includes images of dormant apple trees, which were used to train multi-object segmentation models delineating tree branches and trunks. Dataset 2, collected in the early growing season, includes images of apple tree canopies with green foliage and immature (green) apples (also called fruitlet), which were used to train single-object segmentation models delineating only immature green apples. The results showed that YOLOv8 performed better than Mask R-CNN, achieving good precision and near-perfect recall across both datasets at a confidence threshold of 0.5. Specifically, for Dataset 1, YOLOv8 achieved a precision of 0.90 and a recall of 0.95 for all classes. In comparison, Mask R-CNN demonstrated a precision of 0.81 and a recall of 0.81 for the same dataset. With Dataset 2, YOLOv8 achieved a precision of 0.93 and a recall of 0.97. Mask R-CNN, in this single-class scenario, achieved a precision of 0.85 and a recall of 0.88. Additionally, the inference times for YOLOv8 were 10.9 ms for multi-class segmentation (Dataset 1) and 7.8 ms for single-class segmentation (Dataset 2), compared to 15.6 ms and 12.8 ms achieved by Mask R-CNN's, respectively.
- Abstract(参考訳): 農業における自動化のための重要な画像処理操作であるインスタンスセグメンテーション(インスタンスセグメンテーション)は、画像内の個々の関心対象を正確に記述するために使用され、選択的な収穫や精密刈り取りなどの様々な自動化またはロボットタスクの基礎情報を提供する。
本研究では,1段階のYOLOv8と2段階のMask R-CNN機械学習モデルを比較した。
休眠期に収集されたデータセット1には、木の枝と幹を並べた多目的セグメンテーションモデルのトレーニングに使用された休眠リンゴのイメージが含まれている。
初期の成長期に収集されたデータセット2には、未熟リンゴのみを規定する単一対象セグメンテーションモデルを訓練するために用いられた、緑の葉を持つリンゴの樹冠と未熟リンゴ(フルーツレットとも呼ばれる)のイメージが含まれている。
その結果, YOLOv8 は Mask R-CNN より優れており, 信頼性閾値0.5。
具体的には、Dataset 1ではYOLOv8が0.90の精度で、すべてのクラスで0.95のリコールを達成した。
比較として、Mask R-CNNは0.81の精度を示し、同じデータセットに対して0.81のリコールを行った。
Dataset 2でYOLOv8は精度0.93、リコール0.97を達成した。
Mask R-CNNはこのシングルクラスのシナリオで精度0.85とリコール0.88を達成した。
さらに、YOLOv8の推論時間は、マルチクラスのセグメンテーション(データセット1)で10.9ms、シングルクラスのセグメンテーション(データセット2)で7.8msであり、Mask R-CNNが達成した15.6msと12.8msである。
関連論文リスト
- Comparison of Machine Learning Approaches for Classifying Spinodal Events [3.030969076856776]
我々は、いくつかのアンサンブルモデル(大投票、AdaBoost)とともに、最先端モデル(MobileViT、NAT、EfficientNet、CNN)を評価する。
以上の結果から,NATとMobileViTは他のモデルよりも優れており,トレーニングデータとテストデータの両方において,最高の測定精度,AUC,F1スコアを達成できた。
論文 参考訳(メタデータ) (2024-10-13T07:27:00Z) - EffiSegNet: Gastrointestinal Polyp Segmentation through a Pre-Trained EfficientNet-based Network with a Simplified Decoder [0.8892527836401773]
EffiSegNetは、トレーニング済みの畳み込みニューラルネットワーク(CNN)をバックボーンとして、トランスファーラーニングを活用する新しいセグメンテーションフレームワークである。
Kvasir-SEGデータセットを用いて消化管ポリープセグメンテーションタスクの評価を行い,その成果を得た。
論文 参考訳(メタデータ) (2024-07-23T08:54:55Z) - MIMIC: Masked Image Modeling with Image Correspondences [29.8154890262928]
効果的な事前トレーニングデータセットを構築するための現在の方法は、アノテーション付き3Dメッシュ、ポイントクラウド、シミュレートされた環境からのカメラパラメータに依存している。
我々は、追加のアノテーションを必要としない事前トレーニングされたデータセットキュレーションアプローチを提案する。
提案手法により,実世界のビデオとシミュレーション環境の両方から,大規模にマルチビューデータセットを生成することができる。
論文 参考訳(メタデータ) (2023-06-27T00:40:12Z) - EdgeNeXt: Efficiently Amalgamated CNN-Transformer Architecture for
Mobile Vision Applications [68.35683849098105]
入力テンソルを複数のチャネルグループに分割するSDTAエンコーダを導入する。
1.3Mパラメータを持つEdgeNeXtモデルでは、ImageNet-1Kで71.2%のTop-1精度を実現している。
パラメータ5.6MのEdgeNeXtモデルでは、ImageNet-1Kで79.4%のTop-1精度を実現しています。
論文 参考訳(メタデータ) (2022-06-21T17:59:56Z) - Global Context Vision Transformers [78.5346173956383]
我々は,コンピュータビジョンのパラメータと計算利用を向上する新しいアーキテクチャであるGC ViT(Global context vision transformer)を提案する。
本稿では,ViTにおける帰納バイアスの欠如に対処し,アーキテクチャにおける可溶性逆残差ブロックを改良して活用することを提案する。
提案したGC ViTは,画像分類,オブジェクト検出,セマンティックセマンティックセグメンテーションタスクにまたがる最先端の処理結果を実現する。
論文 参考訳(メタデータ) (2022-06-20T18:42:44Z) - MSeg: A Composite Dataset for Multi-domain Semantic Segmentation [100.17755160696939]
セマンティックセグメンテーションデータセットを異なるドメインから統合する合成データセットであるMSegを提案する。
一般化と画素レベルのアノテーションのアライメントを調整し,2万枚以上のオブジェクトマスクを8万枚以上の画像で再現する。
MSegでトレーニングされたモデルは、WildDash-v1のリーダーボードで、トレーニング中にWildDashのデータに触れることなく、堅牢なセマンティックセグメンテーションのためにランク付けされている。
論文 参考訳(メタデータ) (2021-12-27T16:16:35Z) - Multi-dataset Pretraining: A Unified Model for Semantic Segmentation [97.61605021985062]
我々は、異なるデータセットの断片化アノテーションを最大限に活用するために、マルチデータセット事前訓練と呼ばれる統合フレームワークを提案する。
これは、複数のデータセットに対して提案されたピクセルからプロトタイプへのコントラスト損失を通じてネットワークを事前トレーニングすることで実現される。
異なるデータセットからの画像とクラス間の関係をより良くモデル化するために、クロスデータセットの混合によりピクセルレベルの埋め込みを拡張する。
論文 参考訳(メタデータ) (2021-06-08T06:13:11Z) - Contemplating real-world object classification [53.10151901863263]
Barbuらが最近提案したObjectNetデータセットを再分析した。
日常の状況に物を含むこと。
分離されたオブジェクトにディープモデルを適用すると、元の論文のようにシーン全体ではなく、約20~30%の性能改善が得られます。
論文 参考訳(メタデータ) (2021-03-08T23:29:59Z) - A CNN Approach to Simultaneously Count Plants and Detect Plantation-Rows
from UAV Imagery [56.10033255997329]
畳み込みニューラルネットワーク(CNN)を用いた新しい深層学習手法を提案する。
高度に乾燥したプランテーション構成を考慮した植物を数えながら、同時にプランテーション・ロウを検出し、配置する。
提案手法は、異なる種類の作物のUAV画像において、植物と植物をカウントおよびジオロケートするための最先端の性能を達成した。
論文 参考訳(メタデータ) (2020-12-31T18:51:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。