Fugu-MT 論文翻訳(概要): Comparing YOLOv8 and Mask RCNN for object segmentation in complex orchard environments

論文の概要: Comparing YOLOv8 and Mask RCNN for object segmentation in complex orchard environments

arxiv url: http://arxiv.org/abs/2312.07935v1
Date: Wed, 13 Dec 2023 07:29:24 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-14 16:23:10.355304
Title: Comparing YOLOv8 and Mask RCNN for object segmentation in complex orchard environments
Title（参考訳）: 複雑な果樹園環境におけるオブジェクトセグメンテーションのためのYOLOv8とMask RCNNの比較
Authors: Ranjan Sapkota, Dawood Ahmed, Manoj Karkee
Abstract要約: 本研究では,一段階のYOLOv8と二段階のMask R-CNN機械学習モデルとの比較を行った。 YOLOv8はMask R-CNNより優れており、信頼性閾値0.5で両方のデータセット間で良好な精度とほぼ完璧なリコールを実現している。
参考スコア（独自算出の注目度）: 0.4143603294943439
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Instance segmentation, an important image processing operation for automation in agriculture, is used to precisely delineate individual objects of interest within images, which provides foundational information for various automated or robotic tasks such as selective harvesting and precision pruning. This study compares the one-stage YOLOv8 and the two-stage Mask R-CNN machine learning models for instance segmentation under varying orchard conditions across two datasets. Dataset 1, collected in dormant season, includes images of dormant apple trees, which were used to train multi-object segmentation models delineating tree branches and trunks. Dataset 2, collected in the early growing season, includes images of apple tree canopies with green foliage and immature (green) apples (also called fruitlet), which were used to train single-object segmentation models delineating only immature green apples. The results showed that YOLOv8 performed better than Mask R-CNN, achieving good precision and near-perfect recall across both datasets at a confidence threshold of 0.5. Specifically, for Dataset 1, YOLOv8 achieved a precision of 0.90 and a recall of 0.95 for all classes. In comparison, Mask R-CNN demonstrated a precision of 0.81 and a recall of 0.81 for the same dataset. With Dataset 2, YOLOv8 achieved a precision of 0.93 and a recall of 0.97. Mask R-CNN, in this single-class scenario, achieved a precision of 0.85 and a recall of 0.88. Additionally, the inference times for YOLOv8 were 10.9 ms for multi-class segmentation (Dataset 1) and 7.8 ms for single-class segmentation (Dataset 2), compared to 15.6 ms and 12.8 ms achieved by Mask R-CNN's, respectively.
Abstract（参考訳）: 農業における自動化のための重要な画像処理操作であるインスタンスセグメンテーションは、画像内の個々の関心対象を正確に定義するために使用され、選択的な収穫や精密な刈り取りなど、さまざまな自動化やロボットタスクの基礎情報を提供する。本研究では,1段階のYOLOv8と2段階のMask R-CNN機械学習モデルを比較した。休眠期に収集されたデータセット1には、木の枝と幹を並べた多目的セグメンテーションモデルのトレーニングに使用された休眠リンゴのイメージが含まれている。初期の成長期に収集されたデータセット2には、未熟リンゴのみを規定する単一対象セグメンテーションモデルを訓練するために用いられた、緑の葉を持つリンゴの樹冠と未熟リンゴ(フルーツレットとも呼ばれる)の画像が含まれている。その結果、yolov8はマスクr-cnnよりも優れた性能を示し、信頼しきい値0.5で両データセットをまたいだ精度とほぼ完全なリコールを達成した。具体的には、Dataset 1ではYOLOv8が精度0.90、リコール0.95を達成した。比較として、Mask R-CNNは0.81の精度を示し、同じデータセットに対して0.81のリコールを行った。 Dataset 2でYOLOv8は精度0.93、リコール0.97を達成した。 Mask R-CNNはこのシングルクラスのシナリオで精度0.85とリコール0.88を達成した。さらに、YOLOv8の推論時間は、マルチクラスのセグメンテーション(データセット1)で10.9ms、シングルクラスのセグメンテーション(データセット2)で7.8msであり、Mask R-CNNが達成した15.6msと12.8msである。

関連論文リスト

NOCTIS: Novel Object Cyclic Threshold based Instance Segmentation [47.32364120562497]
Novel Object Cyclic Threshold based Instance (NOCTIS) は、新しいオブジェクトに使えるようなモデル全般を設計するためのフレームワークである。我々は,NOCTISが「未知オブジェクトのモデルベース2Dセグメンテーション」タスクにおいて,BOP 2023チャレンジの7つのコアデータセットにおいて,最高のRGBおよびRGB-D手法より優れていることを示す。
論文参考訳（メタデータ） (2025-07-02T08:23:14Z)
RF-DETR Object Detection vs YOLOv12 : A Study of Transformer-based and CNN-based Architectures for Single-Class and Multi-Class Greenfruit Detection in Complex Orchard Environments Under Label Ambiguity [0.8488322025656239]
本研究では,RF-DETRオブジェクト検出ベースモデルとYOLOv12オブジェクト検出モデル構成の詳細な比較を行う。単一クラス (greenfruit) とマルチクラス (occluded and non-ococuded greenfruits) アノテーションを備えたカスタムデータセットが開発された。 DINOv2のバックボーンと変形可能なアテンションを利用するRF-DETRモデルは、グローバルなコンテキストモデリングにおいて優れている。 YOLOv12はCNNベースの注意をローカル特徴抽出の強化に利用し、計算効率とエッジデプロイメントに最適化した。
論文参考訳（メタデータ） (2025-04-17T17:08:11Z)
Remote Sensing Image Classification Using Convolutional Neural Network (CNN) and Transfer Learning Techniques [1.024113475677323]
本研究では, 送電塔, 森林, 農地, 山々の航空画像の分類について検討した。分類ジョブを完了するには、畳み込みニューラルネットワーク(CNN)アーキテクチャを用いて入力写真から特徴を抽出する。本研究では,移動学習モデル,特にMobileNetV2がランドスケープ分類に有効であることを示す。
論文参考訳（メタデータ） (2025-03-04T11:19:18Z)
Assessing the Capability of YOLO- and Transformer-based Object Detectors for Real-time Weed Detection [0.0]
YOLOv8, YOLOv9, YOLOv10, RT-DETRのすべての利用可能なモデルは、実地状況の画像を用いて訓練され、評価される。その結果、評価された指標では、全てのモデルが等しくよく機能するのに対し、YOLOv9モデルは強いリコールスコアの点で際立っていることがわかった。 RT-DETRモデル、特にRT-DETR-lは、データセット1では82.44 %、データセット2では81.46 %の精度で優れている。
論文参考訳（メタデータ） (2025-01-29T02:39:57Z)
Zero-Shot Automatic Annotation and Instance Segmentation using LLM-Generated Datasets: Eliminating Field Imaging and Manual Annotation for Deep Learning Model Development [0.36868085124383626]
本研究では, 果樹園におけるリンゴの深層学習に基づくインスタンスセグメンテーション手法を提案する。そこで我々は, YOLO11ベースモデルと統合したSegment Anything Model (SAM) を用いて, オーチャード画像を合成し, 自動的に注釈付けを行った。その結果、自動生成したアノテーションはDice Coefficient 0.99513 と IoU 0.9303 を達成し、マスクアノテーションの精度と重複性を検証した。
論文参考訳（メタデータ） (2024-11-18T05:11:29Z)
Comparison of Machine Learning Approaches for Classifying Spinodal Events [3.030969076856776]
我々は、いくつかのアンサンブルモデル(大投票、AdaBoost)とともに、最先端モデル(MobileViT、NAT、EfficientNet、CNN)を評価する。以上の結果から,NATとMobileViTは他のモデルよりも優れており,トレーニングデータとテストデータの両方において,最高の測定精度,AUC,F1スコアを達成できた。
論文参考訳（メタデータ） (2024-10-13T07:27:00Z)
EffiSegNet: Gastrointestinal Polyp Segmentation through a Pre-Trained EfficientNet-based Network with a Simplified Decoder [0.8892527836401773]
EffiSegNetは、トレーニング済みの畳み込みニューラルネットワーク(CNN)をバックボーンとして、トランスファーラーニングを活用する新しいセグメンテーションフレームワークである。 Kvasir-SEGデータセットを用いて消化管ポリープセグメンテーションタスクの評価を行い,その成果を得た。
論文参考訳（メタデータ） (2024-07-23T08:54:55Z)
MIMIC: Masked Image Modeling with Image Correspondences [29.8154890262928]
効果的な事前トレーニングデータセットを構築するための現在の方法は、アノテーション付き3Dメッシュ、ポイントクラウド、シミュレートされた環境からのカメラパラメータに依存している。我々は、追加のアノテーションを必要としない事前トレーニングされたデータセットキュレーションアプローチを提案する。提案手法により,実世界のビデオとシミュレーション環境の両方から,大規模にマルチビューデータセットを生成することができる。
論文参考訳（メタデータ） (2023-06-27T00:40:12Z)
EdgeNeXt: Efficiently Amalgamated CNN-Transformer Architecture for Mobile Vision Applications [68.35683849098105]
入力テンソルを複数のチャネルグループに分割するSDTAエンコーダを導入する。 1.3Mパラメータを持つEdgeNeXtモデルでは、ImageNet-1Kで71.2%のTop-1精度を実現している。パラメータ5.6MのEdgeNeXtモデルでは、ImageNet-1Kで79.4%のTop-1精度を実現しています。
論文参考訳（メタデータ） (2022-06-21T17:59:56Z)
Global Context Vision Transformers [78.5346173956383]
我々は,コンピュータビジョンのパラメータと計算利用を向上する新しいアーキテクチャであるGC ViT(Global context vision transformer)を提案する。本稿では,ViTにおける帰納バイアスの欠如に対処し,アーキテクチャにおける可溶性逆残差ブロックを改良して活用することを提案する。提案したGC ViTは,画像分類,オブジェクト検出,セマンティックセマンティックセグメンテーションタスクにまたがる最先端の処理結果を実現する。
論文参考訳（メタデータ） (2022-06-20T18:42:44Z)
MSeg: A Composite Dataset for Multi-domain Semantic Segmentation [100.17755160696939]
セマンティックセグメンテーションデータセットを異なるドメインから統合する合成データセットであるMSegを提案する。一般化と画素レベルのアノテーションのアライメントを調整し,2万枚以上のオブジェクトマスクを8万枚以上の画像で再現する。 MSegでトレーニングされたモデルは、WildDash-v1のリーダーボードで、トレーニング中にWildDashのデータに触れることなく、堅牢なセマンティックセグメンテーションのためにランク付けされている。
論文参考訳（メタデータ） (2021-12-27T16:16:35Z)
Multi-dataset Pretraining: A Unified Model for Semantic Segmentation [97.61605021985062]
我々は、異なるデータセットの断片化アノテーションを最大限に活用するために、マルチデータセット事前訓練と呼ばれる統合フレームワークを提案する。これは、複数のデータセットに対して提案されたピクセルからプロトタイプへのコントラスト損失を通じてネットワークを事前トレーニングすることで実現される。異なるデータセットからの画像とクラス間の関係をより良くモデル化するために、クロスデータセットの混合によりピクセルレベルの埋め込みを拡張する。
論文参考訳（メタデータ） (2021-06-08T06:13:11Z)
Contemplating real-world object classification [53.10151901863263]
Barbuらが最近提案したObjectNetデータセットを再分析した。日常の状況に物を含むこと。分離されたオブジェクトにディープモデルを適用すると、元の論文のようにシーン全体ではなく、約20～30%の性能改善が得られます。
論文参考訳（メタデータ） (2021-03-08T23:29:59Z)
A CNN Approach to Simultaneously Count Plants and Detect Plantation-Rows from UAV Imagery [56.10033255997329]
畳み込みニューラルネットワーク(CNN)を用いた新しい深層学習手法を提案する。高度に乾燥したプランテーション構成を考慮した植物を数えながら、同時にプランテーション・ロウを検出し、配置する。提案手法は、異なる種類の作物のUAV画像において、植物と植物をカウントおよびジオロケートするための最先端の性能を達成した。
論文参考訳（メタデータ） (2020-12-31T18:51:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。