論文の概要: Learn from Foundation Model: Fruit Detection Model without Manual Annotation
- arxiv url: http://arxiv.org/abs/2411.16196v1
- Date: Mon, 25 Nov 2024 08:52:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-26 14:22:57.186860
- Title: Learn from Foundation Model: Fruit Detection Model without Manual Annotation
- Title(参考訳): 基礎モデルから学ぶ:手書きアノテーションのない果実検出モデル
- Authors: Yanan Wang, Zhenghao Fei, Ruichen Li, Yibin Ying,
- Abstract要約: 農業は十分なデータを持たない領域の1つである。
そこで本研究では,手動のアノテーションを使わずに,基礎モデルから効果的でドメイン固有な小さなモデルを学習するためのフレームワークを提案する。
- 参考スコア(独自算出の注目度): 8.486694650855949
- License:
- Abstract: Recent breakthroughs in large foundation models have enabled the possibility of transferring knowledge pre-trained on vast datasets to domains with limited data availability. Agriculture is one of the domains that lacks sufficient data. This study proposes a framework to train effective, domain-specific, small models from foundation models without manual annotation. Our approach begins with SDM (Segmentation-Description-Matching), a stage that leverages two foundation models: SAM2 (Segment Anything in Images and Videos) for segmentation and OpenCLIP (Open Contrastive Language-Image Pretraining) for zero-shot open-vocabulary classification. In the second stage, a novel knowledge distillation mechanism is utilized to distill compact, edge-deployable models from SDM, enhancing both inference speed and perception accuracy. The complete method, termed SDM-D (Segmentation-Description-Matching-Distilling), demonstrates strong performance across various fruit detection tasks object detection, semantic segmentation, and instance segmentation) without manual annotation. It nearly matches the performance of models trained with abundant labels. Notably, SDM-D outperforms open-set detection methods such as Grounding SAM and YOLO-World on all tested fruit detection datasets. Additionally, we introduce MegaFruits, a comprehensive fruit segmentation dataset encompassing over 25,000 images, and all code and datasets are made publicly available at https://github.com/AgRoboticsResearch/SDM-D.git.
- Abstract(参考訳): 大規模な基盤モデルの最近のブレークスルーにより、膨大なデータセットで事前訓練された知識を、限られたデータ可用性を持つドメインに転送することが可能になった。
農業は十分なデータを持たない領域の1つである。
そこで本研究では,手動のアノテーションを使わずに,基礎モデルから効果的でドメイン固有な小さなモデルを学習するためのフレームワークを提案する。
SDM(Segmentation-Description-Matching)は、セグメンテーションのためのSAM2(Segment Anything in Images and Videos)とゼロショットオープン語彙分類のためのOpenCLIP(Open Contrastive Language- Image Pretraining)の2つの基礎モデルを活用する段階である。
第2段階では、新しい知識蒸留機構を用いて、SDMからコンパクトなエッジ展開可能なモデルを蒸留し、推論速度と知覚精度の両方を向上させる。
SDM-D(Segmentation-Description-Matching-Distilling, SDM-D)と呼ばれるこの手法は,手作業によるアノテーションを使わずに,さまざまな果物検出タスクのオブジェクト検出,セマンティックセグメンテーション,インスタンスセグメンテーションなど,強力なパフォーマンスを示す。
これは、豊富なラベルで訓練されたモデルのパフォーマンスとほぼ一致している。
特に、SDM-Dは、試験されたすべての果物検出データセット上で、Grounding SAMやYOLO-Worldのようなオープンセット検出方法より優れている。
さらに、MegaFruitsを紹介します。これは、25,000以上のイメージを含む包括的なフルーツセグメンテーションデータセットで、すべてのコードとデータセットはhttps://github.com/AgRoboticsResearch/SDM-D.gitで公開されています。
関連論文リスト
- Leveraging Large-Scale Pretrained Vision Foundation Models for
Label-Efficient 3D Point Cloud Segmentation [67.07112533415116]
本稿では3Dポイントクラウドセグメンテーションタスクに様々な基礎モデルを適用する新しいフレームワークを提案する。
我々のアプローチでは、異なる大きな視覚モデルを用いて2次元セマンティックマスクの初期予測を行う。
本研究では,ロバストな3Dセマンティックな擬似ラベルを生成するために,投票による全ての結果を効果的に組み合わせたセマンティックなラベル融合戦略を提案する。
論文 参考訳(メタデータ) (2023-11-03T15:41:15Z) - Zero-Shot Refinement of Buildings' Segmentation Models using SAM [6.110856077714895]
本稿では,既存モデルの一般化損失に対処するために基礎モデルを適用する新しいアプローチを提案する。
いくつかのモデルの中で、私たちはSegment Anything Model(SAM)に焦点を当てています。
SAMは認識機能を提供しないので、ローカライズされたオブジェクトの分類とタグ付けに失敗する。
この新しいアプローチはSAMを認識能力で強化する。
論文 参考訳(メタデータ) (2023-10-03T07:19:59Z) - DatasetDM: Synthesizing Data with Perception Annotations Using Diffusion
Models [61.906934570771256]
多様な合成画像や知覚アノテーションを生成できる汎用データセット生成モデルを提案する。
本手法は,事前学習した拡散モデルに基づいて,テキスト誘導画像合成を知覚データ生成に拡張する。
拡散モデルのリッチ潜時コードはデコーダモジュールを用いて正確な認識アノテーションとして効果的に復号できることを示す。
論文 参考訳(メタデータ) (2023-08-11T14:38:11Z) - Semantic-SAM: Segment and Recognize Anything at Any Granularity [83.64686655044765]
本稿では,任意の粒度でセグメンテーションと認識を可能にする汎用画像セグメンテーションモデルであるSemantic-SAMを紹介する。
複数のデータセットを3つの粒度に集約し、オブジェクトとパーツの分離した分類を導入する。
マルチグラニュラリティ機能を実現するために,各クリックで複数のレベルのマスクを生成できるマルチ選択学習方式を提案する。
論文 参考訳(メタデータ) (2023-07-10T17:59:40Z) - Text2Seg: Remote Sensing Image Semantic Segmentation via Text-Guided Visual Foundation Models [7.452422412106768]
リモートセマンティックセマンティックセグメンテーションのためのText2Segという新しい手法を提案する。
自動プロンプト生成プロセスを使用することで、広範なアノテーションへの依存を克服する。
我々は,Text2SegがバニラSAMモデルと比較してゼロショット予測性能を著しく向上することを示した。
論文 参考訳(メタデータ) (2023-04-20T18:39:41Z) - Learning from Temporal Spatial Cubism for Cross-Dataset Skeleton-based
Action Recognition [88.34182299496074]
アクションラベルはソースデータセットでのみ利用可能だが、トレーニング段階のターゲットデータセットでは利用できない。
我々は,2つの骨格に基づく行動データセット間の領域シフトを低減するために,自己スーパービジョン方式を利用する。
時間的セグメントや人体部分のセグメンテーションとパーフォーミングにより、我々は2つの自己教師あり学習分類タスクを設計する。
論文 参考訳(メタデータ) (2022-07-17T07:05:39Z) - MSeg: A Composite Dataset for Multi-domain Semantic Segmentation [100.17755160696939]
セマンティックセグメンテーションデータセットを異なるドメインから統合する合成データセットであるMSegを提案する。
一般化と画素レベルのアノテーションのアライメントを調整し,2万枚以上のオブジェクトマスクを8万枚以上の画像で再現する。
MSegでトレーニングされたモデルは、WildDash-v1のリーダーボードで、トレーニング中にWildDashのデータに触れることなく、堅牢なセマンティックセグメンテーションのためにランク付けされている。
論文 参考訳(メタデータ) (2021-12-27T16:16:35Z) - Multi-dataset Pretraining: A Unified Model for Semantic Segmentation [97.61605021985062]
我々は、異なるデータセットの断片化アノテーションを最大限に活用するために、マルチデータセット事前訓練と呼ばれる統合フレームワークを提案する。
これは、複数のデータセットに対して提案されたピクセルからプロトタイプへのコントラスト損失を通じてネットワークを事前トレーニングすることで実現される。
異なるデータセットからの画像とクラス間の関係をより良くモデル化するために、クロスデータセットの混合によりピクセルレベルの埋め込みを拡張する。
論文 参考訳(メタデータ) (2021-06-08T06:13:11Z) - Semi-supervised Domain Adaptation based on Dual-level Domain Mixing for
Semantic Segmentation [34.790169990156684]
私たちは、少数のラベル付きターゲットデータと大量のラベル付きソースデータが利用可能である半監視ドメイン適応(SSDA)のより実用的な設定に焦点を当てています。
領域レベルとサンプルレベルのドメインギャップを低減する2種類のデータミキシング手法を提案する。
総合的視点と部分的視点から2段階の混合データに基づいて,2つの相補的ドメイン混合教師を得ることができる。
論文 参考訳(メタデータ) (2021-03-08T12:33:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。