論文の概要: Learning to Detect Baked Goods with Limited Supervision
- arxiv url: http://arxiv.org/abs/2602.09979v1
- Date: Tue, 10 Feb 2026 17:06:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-11 20:17:43.693753
- Title: Learning to Detect Baked Goods with Limited Supervision
- Title(参考訳): 限定監督による焼成物検出の学習
- Authors: Thomas H. Schmitt, Maximilian Bundscherer, Tobias Bocklet,
- Abstract要約: 画像から焼成品を識別するオブジェクト検出モデルを訓練する。
平均精度(mAP)は0.91である。
擬似ラベルを用いたファインタニングは、非理想的な配置条件下でモデル性能を19.3%向上させる。
- 参考スコア(独自算出の注目度): 13.091615441925647
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Monitoring leftover products provides valuable insights that can be used to optimize future production. This is especially important for German bakeries because freshly baked goods have a very short shelf life. Automating this process can reduce labor costs, improve accuracy, and streamline operations. We propose automating this process using an object detection model to identify baked goods from images. However, the large diversity of German baked goods makes fully supervised training prohibitively expensive and limits scalability. Although open-vocabulary detectors (e.g., OWLv2, Grounding DINO) offer lexibility, we demonstrate that they are insufficient for our task. While motivated by bakeries, our work addresses the broader challenges of deploying computer vision in industries, where tasks are specialized and annotated datasets are scarce. We compile dataset splits with varying supervision levels, covering 19 classes of baked goods. We propose two training workflows to train an object detection model with limited supervision. First, we combine OWLv2 and Grounding DINO localization with image-level supervision to train the model in a weakly supervised manner. Second, we improve viewpoint robustness by fine-tuning on video frames annotated using Segment Anything 2 as a pseudo-label propagation model. Using these workflows, we train YOLOv11 for our detection task due to its favorable speed accuracy tradeoff. Relying solely on image-level supervision, the model achieves a mean Average Precision (mAP) of 0.91. Finetuning with pseudo-labels raises model performance by 19.3% under non-ideal deployment conditions. Combining these workflows trains a model that surpasses our fully-supervised baseline model under non-ideal deployment conditions, despite relying only on image-level supervision.
- Abstract(参考訳): 余分な製品を監視することは、将来の生産を最適化するために使える貴重な洞察を提供する。
これはドイツのパン屋にとって特に重要であり、新鮮な焼き菓子は極めて短い棚の寿命を持つ。
このプロセスの自動化は、作業コストの削減、精度の向上、運用の合理化につながる。
画像から焼成品を識別するオブジェクト検出モデルを用いて,このプロセスを自動化することを提案する。
しかし、ドイツの焼き菓子の多様さは、完全に監督された訓練を違法に高価にし、スケーラビリティを制限している。
オープンボキャブラリ検出器(OWLv2, Grounding DINO)はレキシビリティを提供するが,我々の作業には不十分であることを示す。
ビークリーをモチベーションとしているが、私たちの仕事は、タスクが専門であり、注釈付きデータセットが不足している業界におけるコンピュータビジョンの展開という、幅広い課題に対処する。
我々は、19種類の焼成品を対象とし、様々な監督レベルのデータセット分割をコンパイルする。
本稿では,オブジェクト検出モデルを限定的に訓練するための2つのトレーニングワークフローを提案する。
まず、OWLv2 と Grounding DINO のローカライゼーションを画像レベルの監督と組み合わせて、弱い教師付きでモデルを訓練する。
次に,Segment Anything 2 を擬似ラベル伝搬モデルとして用いたビデオフレームの微調整により視点ロバスト性を向上させる。
これらのワークフローを使用して、速度精度のトレードオフが好ましいため、検出タスクにYOLOv11をトレーニングします。
画像レベルの監視のみに頼り、平均平均精度(mAP)は0.91である。
擬似ラベルを用いたファインタニングは、非理想的な配置条件下でモデル性能を19.3%向上させる。
これらのワークフローを組み合わせることで、イメージレベルの監視のみに依存するにも関わらず、理想的でないデプロイメント条件下で、完全に教師されたベースラインモデルを上回るモデルをトレーニングします。
関連論文リスト
- GAZE:Governance-Aware pre-annotation for Zero-shot World Model Environments [1.6398143439811486]
堅牢な世界モデルのトレーニングには、大規模で正確にラベル付けされたマルチモーダルデータセットが必要である。
本稿では,GAZEパイプラインを用いて,生の長文ビデオのリッチなタスク対応監視への変換を自動化する。
論文 参考訳(メタデータ) (2025-10-07T21:13:03Z) - Enabling Small Models for Zero-Shot Selection and Reuse through Model Label Learning [50.68074833512999]
モデルと機能の間のギャップを埋める新しいパラダイムであるモデルラベル学習(MLL)を導入する。
7つの実世界のデータセットの実験により、MLLの有効性と効率が検証された。
論文 参考訳(メタデータ) (2024-08-21T09:08:26Z) - Semmeldetector: Application of Machine Learning in Commercial Bakeries [4.659978907530712]
Semmeldetectorは、オブジェクト検出モデルを使用して、画像中の焼き菓子を検出し、分類し、カウントする機械学習アプリケーションである。
我々は18種類の焼き菓子を識別して検出モデルを訓練する1151の画像からなるデータセットをコンパイルした。
テストセットでAP@0.5の89.1%を達成しました。
論文 参考訳(メタデータ) (2024-06-06T13:17:24Z) - Data-efficient Large Vision Models through Sequential Autoregression [58.26179273091461]
限られたデータセットに基づいて,効率的な自己回帰に基づく視覚モデルを構築する。
このモデルは,高レベル・低レベルのセマンティック理解の両方にまたがる視覚的タスクにおいて,その習熟度をいかに達成するかを実証する。
我々の経験的評価は、モデルが様々なタスクに適応する際の機敏さを強調し、パラメータフットプリントの大幅な削減を図った。
論文 参考訳(メタデータ) (2024-02-07T13:41:53Z) - Masked Unsupervised Self-training for Zero-shot Image Classification [98.23094305347709]
Masked Unsupervised Self-Training (MUST)は、疑似ラベルと生画像という2つの異なる、補完的な監督源を活用する新しいアプローチである。
MUSTはCLIPを大きなマージンで改善し、教師なしと教師なしの分類のパフォーマンスギャップを狭める。
論文 参考訳(メタデータ) (2022-06-07T02:03:06Z) - Designing an Efficient End-to-end Machine Learning Pipeline for
Real-time Empty-shelf Detection [0.483420384410068]
小売店における製品のオン・シェルフ・アベイラビリティ(OSA)は、ビジネス上の重要な基準である。
本稿では,実時間空き棚検出のためのエンドツーエンド機械学習パイプラインを設計するためのエレガントなアプローチを提案する。
私たちのデータセットには1,000のイメージが含まれており、明確に定義されたガイドラインによって収集および注釈付けされています。
論文 参考訳(メタデータ) (2022-05-25T21:51:20Z) - Generative Modeling Helps Weak Supervision (and Vice Versa) [87.62271390571837]
本稿では,弱い監督と生成的敵ネットワークを融合したモデルを提案する。
弱い監督によるラベル推定と並行して、データの離散変数をキャプチャする。
これは、弱い教師付き合成画像と擬似ラベルによるデータ拡張を可能にする最初のアプローチである。
論文 参考訳(メタデータ) (2022-03-22T20:24:21Z) - Activation to Saliency: Forming High-Quality Labels for Unsupervised
Salient Object Detection [54.92703325989853]
本稿では,高品質なサリエンシキューを効果的に生成する2段階アクティベーション・ツー・サリエンシ(A2S)フレームワークを提案する。
トレーニングプロセス全体において、私たちのフレームワークにヒューマンアノテーションは関与していません。
本フレームワークは,既存のUSOD法と比較して高い性能を示した。
論文 参考訳(メタデータ) (2021-12-07T11:54:06Z) - Scanflow: A multi-graph framework for Machine Learning workflow
management, supervision, and debugging [0.0]
本稿では,エンドツーエンドの機械学習ワークフロー管理を支援するコンテナ化指向グラフフレームワークを提案する。
このフレームワークは、コンテナ内でMLを定義してデプロイし、メタデータを追跡し、本番環境での振る舞いを確認し、学習された知識と人為的な知識を使用してモデルを改善する。
論文 参考訳(メタデータ) (2021-11-04T17:01:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。