論文の概要: Zero-Shot Automatic Annotation and Instance Segmentation using LLM-Generated Datasets: Eliminating Field Imaging and Manual Annotation for Deep Learning Model Development
- arxiv url: http://arxiv.org/abs/2411.11285v1
- Date: Mon, 18 Nov 2024 05:11:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-19 14:35:19.717409
- Title: Zero-Shot Automatic Annotation and Instance Segmentation using LLM-Generated Datasets: Eliminating Field Imaging and Manual Annotation for Deep Learning Model Development
- Title(参考訳): LLM生成データセットを用いたゼロショット自動アノテーションとインスタンスセグメンテーション:深層学習モデル構築のためのフィールドイメージングとマニュアルアノテーションの除去
- Authors: Ranjan Sapkota, Achyut Paudel, Manoj Karkee,
- Abstract要約: 本研究では, 果樹園におけるリンゴの深層学習に基づくインスタンスセグメンテーション手法を提案する。
そこで我々は, YOLO11ベースモデルと統合したSegment Anything Model (SAM) を用いて, オーチャード画像を合成し, 自動的に注釈付けを行った。
その結果、自動生成したアノテーションはDice Coefficient 0.99513 と IoU 0.9303 を達成し、マスクアノテーションの精度と重複性を検証した。
- 参考スコア(独自算出の注目度): 0.36868085124383626
- License:
- Abstract: Currently, deep learning-based instance segmentation for various applications (e.g., Agriculture) is predominantly performed using a labor-intensive process involving extensive field data collection using sophisticated sensors, followed by careful manual annotation of images, presenting significant logistical and financial challenges to researchers and organizations. The process also slows down the model development and training process. In this study, we presented a novel method for deep learning-based instance segmentation of apples in commercial orchards that eliminates the need for labor-intensive field data collection and manual annotation. Utilizing a Large Language Model (LLM), we synthetically generated orchard images and automatically annotated them using the Segment Anything Model (SAM) integrated with a YOLO11 base model. This method significantly reduces reliance on physical sensors and manual data processing, presenting a major advancement in "Agricultural AI". The synthetic, auto-annotated dataset was used to train the YOLO11 model for Apple instance segmentation, which was then validated on real orchard images. The results showed that the automatically generated annotations achieved a Dice Coefficient of 0.9513 and an IoU of 0.9303, validating the accuracy and overlap of the mask annotations. All YOLO11 configurations, trained solely on these synthetic datasets with automated annotations, accurately recognized and delineated apples, highlighting the method's efficacy. Specifically, the YOLO11m-seg configuration achieved a mask precision of 0.902 and a mask mAP@50 of 0.833 on test images collected from a commercial orchard. Additionally, the YOLO11l-seg configuration outperformed other models in validation on 40 LLM-generated images, achieving the highest mask precision and mAP@50 metrics. Keywords: YOLO, SAM, SAMv2, YOLO11, YOLOv11, Segment Anything, YOLO-SAM
- Abstract(参考訳): 現在、様々なアプリケーション(例えば農業)のためのディープラーニングベースのインスタンスセグメンテーションは、高度なセンサーを用いた広範囲なフィールドデータ収集を含む労働集約的なプロセスを用いて主に行われ、画像の注意深い手動アノテーションによって、研究者や組織に重大な論理的および財政的課題が提示されている。
プロセスはまた、モデルの開発とトレーニングプロセスを遅くする。
本研究では,果樹園におけるリンゴの深層学習型インスタンスセグメンテーションについて,労働集約的なフィールドデータ収集や手動アノテーションの必要性を排除した新しい手法を提案する。
また,Large Language Model (LLM) を用いて合成した果樹園の画像を,YOLO11ベースモデルと統合したSAM(Segment Anything Model)を用いて自動的に注釈付けした。
この手法は, 物理的センサと手動データ処理への依存を著しく低減し, 「農業型AI」の大幅な進歩を示す。
合成された自動注釈付きデータセットは、AppleインスタンスセグメンテーションのためのYOLO11モデルをトレーニングするために使用され、実際のオーチャードイメージ上で検証された。
その結果、自動生成したアノテーションはDice Coefficient 0.99513 と IoU 0.9303 を達成し、マスクアノテーションの精度と重複性を検証した。
すべてのYOLO11構成は、自動アノテーションでこれらの合成データセットのみにトレーニングされ、リンゴを正確に認識し、デライン化し、メソッドの有効性を強調した。
具体的には、商業用果樹園から収集したテスト画像において、YOLO11m-seg構成は0.902のマスク精度と0.833のマスクmAP@50を達成した。
さらに、YOLO11l-seg構成は40LLM生成画像の検証において他のモデルよりも優れており、最も高いマスク精度とmAP@50メトリクスを実現している。
キーワード:YOLO、SAM、SAMv2、YOLO11、YOLOv11、Seegment Anything、YOLO-SAM
関連論文リスト
- Evaluating the Evolution of YOLO (You Only Look Once) Models: A Comprehensive Benchmark Study of YOLO11 and Its Predecessors [0.0]
本研究では,YOLOv3から最新のYOLO11まで,YOLO(You Only Look Once)アルゴリズムのベンチマーク解析を行った。
トラフィックシグネチャ(さまざまなオブジェクトサイズを持つ)、アフリカ野生生物(多彩なアスペクト比と画像当たりのオブジェクトの少なくとも1つのインスタンス)、および船と船舶(単一のクラスの小さなオブジェクトを持つ)の3つの多様なデータセットでパフォーマンスを評価する。
論文 参考訳(メタデータ) (2024-10-31T20:45:00Z) - Semi-Supervised One-Shot Imitation Learning [83.94646047695412]
ワンショットのImitation Learningは、AIエージェントに1つのデモから新しいタスクを学ぶ能力を持たせることを目的としている。
我々は,学習エージェントにトラジェクトリの大規模なデータセットを提示する,半教師付きOSIL問題設定を導入する。
我々は,この半教師付きOSIL設定に適用可能なアルゴリズムを開発した。
論文 参考訳(メタデータ) (2024-08-09T18:11:26Z) - Comparing YOLOv8 and Mask RCNN for object segmentation in complex orchard environments [0.36868085124383626]
本研究では,一段階のYOLOv8と二段階のMask R-CNN機械学習モデルとの比較を行った。
YOLOv8はMask R-CNNより優れており、信頼性閾値0.5で両方のデータセット間で良好な精度とほぼ完璧なリコールを実現している。
論文 参考訳(メタデータ) (2023-12-13T07:29:24Z) - Self-Supervised Dataset Distillation for Transfer Learning [77.4714995131992]
ラベルなしデータセットを、効率的な自己教師付き学習(SSL)のための小さな合成サンプル群に蒸留する新しい問題を提案する。
両レベル最適化におけるSSL目標に対する合成サンプルの勾配は、データ拡張やマスキングから生じるランダム性から、テキストバイアスを受けていることを最初に証明する。
転送学習を含む様々な応用における本手法の有効性を実証的に検証する。
論文 参考訳(メタデータ) (2023-10-10T10:48:52Z) - DatasetDM: Synthesizing Data with Perception Annotations Using Diffusion
Models [61.906934570771256]
多様な合成画像や知覚アノテーションを生成できる汎用データセット生成モデルを提案する。
本手法は,事前学習した拡散モデルに基づいて,テキスト誘導画像合成を知覚データ生成に拡張する。
拡散モデルのリッチ潜時コードはデコーダモジュールを用いて正確な認識アノテーションとして効果的に復号できることを示す。
論文 参考訳(メタデータ) (2023-08-11T14:38:11Z) - MIMIC: Masked Image Modeling with Image Correspondences [29.8154890262928]
効果的な事前トレーニングデータセットを構築するための現在の方法は、アノテーション付き3Dメッシュ、ポイントクラウド、シミュレートされた環境からのカメラパラメータに依存している。
我々は、追加のアノテーションを必要としない事前トレーニングされたデータセットキュレーションアプローチを提案する。
提案手法により,実世界のビデオとシミュレーション環境の両方から,大規模にマルチビューデータセットを生成することができる。
論文 参考訳(メタデータ) (2023-06-27T00:40:12Z) - Exploring the Effectiveness of Dataset Synthesis: An application of
Apple Detection in Orchards [68.95806641664713]
本研究では,リンゴ樹の合成データセットを生成するための安定拡散2.1-baseの有用性について検討する。
我々は、現実世界のリンゴ検出データセットでリンゴを予測するために、YOLOv5mオブジェクト検出モデルを訓練する。
その結果、実世界の画像でトレーニングされたベースラインモデルと比較して、生成データでトレーニングされたモデルはわずかに性能が劣っていることがわかった。
論文 参考訳(メタデータ) (2023-06-20T09:46:01Z) - Delving Deeper into Data Scaling in Masked Image Modeling [145.36501330782357]
視覚認識のためのマスク付き画像モデリング(MIM)手法のスケーリング能力に関する実証的研究を行った。
具体的には、Webで収集したCoyo-700Mデータセットを利用する。
我々のゴールは、データとモデルのサイズの異なるスケールでダウンストリームタスクのパフォーマンスがどのように変化するかを調べることです。
論文 参考訳(メタデータ) (2023-05-24T15:33:46Z) - Towards Good Practices for Efficiently Annotating Large-Scale Image
Classification Datasets [90.61266099147053]
多数の画像の分類ラベルを収集するための効率的なアノテーション戦略を検討する。
人間のラベリング作業を最小化するための修正とベストプラクティスを提案します。
ImageNet100の125kイメージサブセットのシミュレーション実験では、平均で0.35のアノテーションで80%のトップ-1の精度でアノテートできることが示されている。
論文 参考訳(メタデータ) (2021-04-26T16:29:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。