論文の概要: Comparing YOLOv8 and Mask R-CNN for instance segmentation in complex orchard environments
- arxiv url: http://arxiv.org/abs/2312.07935v4
- Date: Thu, 02 Oct 2025 19:49:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-06 16:35:51.842195
- Title: Comparing YOLOv8 and Mask R-CNN for instance segmentation in complex orchard environments
- Title(参考訳): 複雑な果樹園環境におけるインスタンスセグメンテーションにおけるYOLOv8とMask R-CNNの比較
- Authors: Ranjan Sapkota, Dawood Ahmed, Manoj Karkee,
- Abstract要約: 本研究では,1段階のYOLOv8モデルと2段階のMask R CNNモデルとの比較を行った。
その結果, YOLOv8はMask R CNNよりも精度が高く, 精度は0.5。
- 参考スコア(独自算出の注目度): 2.925778409623925
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Instance segmentation is an important image processing operation for agricultural automation, providing precise delineation of individual objects within images and enabling tasks such as selective harvesting and precision pruning. This study compares the one stage YOLOv8 model with the two stage Mask R CNN model for instance segmentation under varying orchard conditions across two datasets. Dataset 1, collected in the dormant season, contains images of apple trees without foliage and was used to train multi object segmentation models delineating branches and trunks. Dataset 2, collected in the early growing season, includes canopy images with green foliage and immature apples and was used to train single object segmentation models delineating fruitlets. Results showed YOLOv8 outperformed Mask R CNN with higher precision and near perfect recall at a confidence threshold of 0.5. For Dataset 1, YOLOv8 achieved precision 0.90 and recall 0.95 compared to 0.81 and 0.81 for Mask R CNN. For Dataset 2, YOLOv8 reached precision 0.93 and recall 0.97 compared to 0.85 and 0.88. Inference times were also lower for YOLOv8, at 10.9 ms and 7.8 ms, versus 15.6 ms and 12.8 ms for Mask R CNN. These findings demonstrate superior accuracy and efficiency of YOLOv8 for real time orchard automation tasks such as robotic harvesting and fruit thinning.
- Abstract(参考訳): インスタンスセグメンテーションは、農業自動化のための重要な画像処理操作であり、画像内の個々のオブジェクトを正確に記述し、選択的収穫や精密刈り取りといったタスクを可能にする。
本研究では,1段階のYOLOv8モデルと2段階のMask R CNNモデルを比較した。
休眠期に収集されたデータセット1は、葉のないリンゴの木の画像を含み、枝や幹を並べた多目的セグメンテーションモデルの訓練に使用された。
成長期の早い時期に収集されたデータセット2は、緑葉と未熟リンゴの天蓋画像を含み、単体セグメンテーションモデルのトレーニングに使用された。
その結果, YOLOv8はMask R CNNよりも精度が高く, 精度は0.5。
Dataset 1 では YOLOv8 が精度 0.90 とリコール 0.95 を Mask R CNN では 0.81 と 0.81 と比較した。
Dataset 2 では YOLOv8 は 0.93 に達し、0.85 と 0.88 と比較して 0.97 をリコールした。
YOLOv8は10.9msと7.8ms、Mask R CNNは15.6msと12.8msであった。
これらの結果は,ロボット収穫や果実の薄化といったリアルタイム果樹自動化タスクにおいて,YOLOv8の精度と効率性に優れていた。
関連論文リスト
- NOCTIS: Novel Object Cyclic Threshold based Instance Segmentation [47.32364120562497]
Novel Object Cyclic Threshold based Instance (NOCTIS) は、新しいオブジェクトに使えるようなモデル全般を設計するためのフレームワークである。
我々は,NOCTISが「未知オブジェクトのモデルベース2Dセグメンテーション」タスクにおいて,BOP 2023チャレンジの7つのコアデータセットにおいて,最高のRGBおよびRGB-D手法より優れていることを示す。
論文 参考訳(メタデータ) (2025-07-02T08:23:14Z) - RF-DETR Object Detection vs YOLOv12 : A Study of Transformer-based and CNN-based Architectures for Single-Class and Multi-Class Greenfruit Detection in Complex Orchard Environments Under Label Ambiguity [0.8488322025656239]
本研究では,RF-DETRオブジェクト検出ベースモデルとYOLOv12オブジェクト検出モデル構成の詳細な比較を行う。
単一クラス (greenfruit) とマルチクラス (occluded and non-ococuded greenfruits) アノテーションを備えたカスタムデータセットが開発された。
DINOv2のバックボーンと変形可能なアテンションを利用するRF-DETRモデルは、グローバルなコンテキストモデリングにおいて優れている。
YOLOv12はCNNベースの注意をローカル特徴抽出の強化に利用し、計算効率とエッジデプロイメントに最適化した。
論文 参考訳(メタデータ) (2025-04-17T17:08:11Z) - Remote Sensing Image Classification Using Convolutional Neural Network (CNN) and Transfer Learning Techniques [1.024113475677323]
本研究では, 送電塔, 森林, 農地, 山々の航空画像の分類について検討した。
分類ジョブを完了するには、畳み込みニューラルネットワーク(CNN)アーキテクチャを用いて入力写真から特徴を抽出する。
本研究では,移動学習モデル,特にMobileNetV2がランドスケープ分類に有効であることを示す。
論文 参考訳(メタデータ) (2025-03-04T11:19:18Z) - Assessing the Capability of YOLO- and Transformer-based Object Detectors for Real-time Weed Detection [0.0]
YOLOv8, YOLOv9, YOLOv10, RT-DETRのすべての利用可能なモデルは、実地状況の画像を用いて訓練され、評価される。
その結果、評価された指標では、全てのモデルが等しくよく機能するのに対し、YOLOv9モデルは強いリコールスコアの点で際立っていることがわかった。
RT-DETRモデル、特にRT-DETR-lは、データセット1では82.44 %、データセット2では81.46 %の精度で優れている。
論文 参考訳(メタデータ) (2025-01-29T02:39:57Z) - Zero-Shot Automatic Annotation and Instance Segmentation using LLM-Generated Datasets: Eliminating Field Imaging and Manual Annotation for Deep Learning Model Development [0.36868085124383626]
本研究では, 果樹園におけるリンゴの深層学習に基づくインスタンスセグメンテーション手法を提案する。
そこで我々は, YOLO11ベースモデルと統合したSegment Anything Model (SAM) を用いて, オーチャード画像を合成し, 自動的に注釈付けを行った。
その結果、自動生成したアノテーションはDice Coefficient 0.99513 と IoU 0.9303 を達成し、マスクアノテーションの精度と重複性を検証した。
論文 参考訳(メタデータ) (2024-11-18T05:11:29Z) - Comparison of Machine Learning Approaches for Classifying Spinodal Events [3.030969076856776]
我々は、いくつかのアンサンブルモデル(大投票、AdaBoost)とともに、最先端モデル(MobileViT、NAT、EfficientNet、CNN)を評価する。
以上の結果から,NATとMobileViTは他のモデルよりも優れており,トレーニングデータとテストデータの両方において,最高の測定精度,AUC,F1スコアを達成できた。
論文 参考訳(メタデータ) (2024-10-13T07:27:00Z) - EffiSegNet: Gastrointestinal Polyp Segmentation through a Pre-Trained EfficientNet-based Network with a Simplified Decoder [0.8892527836401773]
EffiSegNetは、トレーニング済みの畳み込みニューラルネットワーク(CNN)をバックボーンとして、トランスファーラーニングを活用する新しいセグメンテーションフレームワークである。
Kvasir-SEGデータセットを用いて消化管ポリープセグメンテーションタスクの評価を行い,その成果を得た。
論文 参考訳(メタデータ) (2024-07-23T08:54:55Z) - MIMIC: Masked Image Modeling with Image Correspondences [29.8154890262928]
効果的な事前トレーニングデータセットを構築するための現在の方法は、アノテーション付き3Dメッシュ、ポイントクラウド、シミュレートされた環境からのカメラパラメータに依存している。
我々は、追加のアノテーションを必要としない事前トレーニングされたデータセットキュレーションアプローチを提案する。
提案手法により,実世界のビデオとシミュレーション環境の両方から,大規模にマルチビューデータセットを生成することができる。
論文 参考訳(メタデータ) (2023-06-27T00:40:12Z) - EdgeNeXt: Efficiently Amalgamated CNN-Transformer Architecture for
Mobile Vision Applications [68.35683849098105]
入力テンソルを複数のチャネルグループに分割するSDTAエンコーダを導入する。
1.3Mパラメータを持つEdgeNeXtモデルでは、ImageNet-1Kで71.2%のTop-1精度を実現している。
パラメータ5.6MのEdgeNeXtモデルでは、ImageNet-1Kで79.4%のTop-1精度を実現しています。
論文 参考訳(メタデータ) (2022-06-21T17:59:56Z) - Global Context Vision Transformers [78.5346173956383]
我々は,コンピュータビジョンのパラメータと計算利用を向上する新しいアーキテクチャであるGC ViT(Global context vision transformer)を提案する。
本稿では,ViTにおける帰納バイアスの欠如に対処し,アーキテクチャにおける可溶性逆残差ブロックを改良して活用することを提案する。
提案したGC ViTは,画像分類,オブジェクト検出,セマンティックセマンティックセグメンテーションタスクにまたがる最先端の処理結果を実現する。
論文 参考訳(メタデータ) (2022-06-20T18:42:44Z) - MSeg: A Composite Dataset for Multi-domain Semantic Segmentation [100.17755160696939]
セマンティックセグメンテーションデータセットを異なるドメインから統合する合成データセットであるMSegを提案する。
一般化と画素レベルのアノテーションのアライメントを調整し,2万枚以上のオブジェクトマスクを8万枚以上の画像で再現する。
MSegでトレーニングされたモデルは、WildDash-v1のリーダーボードで、トレーニング中にWildDashのデータに触れることなく、堅牢なセマンティックセグメンテーションのためにランク付けされている。
論文 参考訳(メタデータ) (2021-12-27T16:16:35Z) - Multi-dataset Pretraining: A Unified Model for Semantic Segmentation [97.61605021985062]
我々は、異なるデータセットの断片化アノテーションを最大限に活用するために、マルチデータセット事前訓練と呼ばれる統合フレームワークを提案する。
これは、複数のデータセットに対して提案されたピクセルからプロトタイプへのコントラスト損失を通じてネットワークを事前トレーニングすることで実現される。
異なるデータセットからの画像とクラス間の関係をより良くモデル化するために、クロスデータセットの混合によりピクセルレベルの埋め込みを拡張する。
論文 参考訳(メタデータ) (2021-06-08T06:13:11Z) - Contemplating real-world object classification [53.10151901863263]
Barbuらが最近提案したObjectNetデータセットを再分析した。
日常の状況に物を含むこと。
分離されたオブジェクトにディープモデルを適用すると、元の論文のようにシーン全体ではなく、約20~30%の性能改善が得られます。
論文 参考訳(メタデータ) (2021-03-08T23:29:59Z) - A CNN Approach to Simultaneously Count Plants and Detect Plantation-Rows
from UAV Imagery [56.10033255997329]
畳み込みニューラルネットワーク(CNN)を用いた新しい深層学習手法を提案する。
高度に乾燥したプランテーション構成を考慮した植物を数えながら、同時にプランテーション・ロウを検出し、配置する。
提案手法は、異なる種類の作物のUAV画像において、植物と植物をカウントおよびジオロケートするための最先端の性能を達成した。
論文 参考訳(メタデータ) (2020-12-31T18:51:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。