論文の概要: Training a Computer Vision Model for Commercial Bakeries with Primarily Synthetic Images
- arxiv url: http://arxiv.org/abs/2409.20122v1
- Date: Mon, 30 Sep 2024 09:21:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-02 18:56:57.463114
- Title: Training a Computer Vision Model for Commercial Bakeries with Primarily Synthetic Images
- Title(参考訳): 一次合成画像を用いた商用ベーカリーのコンピュータビジョンモデルの訓練
- Authors: Thomas H. Schmitt, Maximilian Bundscherer, Tobias Bocklet,
- Abstract要約: [SBB23]は返却パンの追跡を自動化するAIアプリケーションを提示した。
我々は,2432枚の画像と広範囲の焼成品からなる拡張データセットを作成することにより,その作業を拡張した。
我々の全体的な最高の性能モデルは、テストセットで平均精度AP@0.5の90.3%を達成した。
- 参考スコア(独自算出の注目度): 4.659978907530712
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In the food industry, reprocessing returned product is a vital step to increase resource efficiency. [SBB23] presented an AI application that automates the tracking of returned bread buns. We extend their work by creating an expanded dataset comprising 2432 images and a wider range of baked goods. To increase model robustness, we use generative models pix2pix and CycleGAN to create synthetic images. We train state-of-the-art object detection model YOLOv9 and YOLOv8 on our detection task. Our overall best-performing model achieved an average precision AP@0.5 of 90.3% on our test set.
- Abstract(参考訳): 食品業界では、返品品の再処理は資源効率を高めるための重要なステップである。
[SBB23]は返却パンの追跡を自動化するAIアプリケーションを提示した。
我々は,2432枚の画像と広範囲の焼成品からなる拡張データセットを作成することにより,その作業を拡張した。
モデルロバスト性を高めるため、合成画像を作成するために、生成モデルピクス2ピクセルとCycleGANを使用する。
我々は,現在最先端のオブジェクト検出モデル YOLOv9 と YOLOv8 を,検出タスクで訓練する。
我々の全体的な最高の性能モデルは、テストセットで平均精度AP@0.5の90.3%を達成した。
関連論文リスト
- Semmeldetector: Application of Machine Learning in Commercial Bakeries [4.659978907530712]
Semmeldetectorは、オブジェクト検出モデルを使用して、画像中の焼き菓子を検出し、分類し、カウントする機械学習アプリケーションである。
我々は18種類の焼き菓子を識別して検出モデルを訓練する1151の画像からなるデータセットをコンパイルした。
テストセットでAP@0.5の89.1%を達成しました。
論文 参考訳(メタデータ) (2024-06-06T13:17:24Z) - Pixel-wise RL on Diffusion Models: Reinforcement Learning from Rich Feedback [0.0]
遅延拡散モデルは合成画像生成の最先端技術である。
これらのモデルを人間の好みに合わせるためには、強化学習を用いたモデルのトレーニングが不可欠である。
本稿では, 進化の反復的デノベーション特性を考慮に入れたDDPO(denoising diffusion policy optimisation)を導入する。
このアルゴリズムは各ピクセルに対するフィードバックを受け取り、モデルに対してより微妙な報酬を与える。
論文 参考訳(メタデータ) (2024-04-05T18:56:00Z) - Randomize to Generalize: Domain Randomization for Runway FOD Detection [1.4249472316161877]
細い物体検出は、小型化、低解像度化、オクルージョン化、背景クラッタ、照明条件、被写体対画像比の小さいため困難である。
本稿では,SRIA(Synthetic Image Augmentation)の新たな2段階手法を提案する。
検出精度は初期41%からOODテストセットの92%に改善した。
論文 参考訳(メタデータ) (2023-09-23T05:02:31Z) - Learning from History: Task-agnostic Model Contrastive Learning for
Image Restoration [79.04007257606862]
本稿では,対象モデル自体から負のサンプルを動的に生成する「歴史からの学習」という革新的な手法を提案する。
我々のアプローチはMCLIR(Model Contrastive Learning for Image Restoration)と呼ばれ、遅延モデルを負のモデルとして再定義し、多様な画像復元タスクと互換性を持たせる。
論文 参考訳(メタデータ) (2023-09-12T07:50:54Z) - DINOv2: Learning Robust Visual Features without Supervision [75.42921276202522]
この研究は、既存の事前学習手法、特に自己教師付き手法が、多様なソースから十分なキュレートされたデータで訓練すれば、そのような特徴を生み出すことができることを示している。
技術的な貢献の多くは、大規模なトレーニングを加速し、安定化することを目的としています。
データの観点からは、自己組織化されていないデータではなく、専用で多様でキュレートされた画像データセットを構築するための自動パイプラインを提案する。
論文 参考訳(メタデータ) (2023-04-14T15:12:19Z) - The effectiveness of MAE pre-pretraining for billion-scale pretraining [65.98338857597935]
モデルの初期化には自己教師付きMAE技術を用いる。
画像分類, 映像認識, 物体検出, ローショット分類, ゼロショット認識にまたがる10種類の視覚的タスクに対して, 事前学習の有効性を評価する。
論文 参考訳(メタデータ) (2023-03-23T17:56:12Z) - Synthetic Image Data for Deep Learning [0.294944680995069]
3次元モデルからレンダリングされたリアルな合成画像データを使用して、画像集合を拡大し、画像分類セグメンテーションモデルを訓練することができる。
実車の生産3次元CADモデルに基づく大規模合成データセットを,高品質な物理ベースレンダリングとドメインランダム化により効率的に作成できることを示す。
論文 参考訳(メタデータ) (2022-12-12T20:28:13Z) - Advancing Plain Vision Transformer Towards Remote Sensing Foundation
Model [97.9548609175831]
約1億のパラメータを持つプレーンビジョントランスフォーマーを利用して、リモートセンシングタスク用にカスタマイズされた大規模なビジョンモデルを提案する。
具体的には、RS画像における大きな画像サイズと様々な向きのオブジェクトを扱うために、回転する様々なウィンドウアテンションを提案する。
検出タスクの実験は、DOTA-V1.0データセット上で81.16%のmAPを達成したすべての最先端モデルよりも、我々のモデルの方が優れていることを示す。
論文 参考訳(メタデータ) (2022-08-08T09:08:40Z) - Sim-to-Real 6D Object Pose Estimation via Iterative Self-training for
Robotic Bin-picking [98.5984733963713]
コスト効率の良いロボットグルーピングを容易にするために,シミュレート・トゥ・リアルな6次元オブジェクトのポーズ推定のための反復的自己学習フレームワークを提案する。
我々は、豊富な仮想データを合成するためのフォトリアリスティックシミュレータを構築し、これを初期ポーズ推定ネットワークのトレーニングに利用する。
このネットワークは教師モデルの役割を担い、未ラベルの実データに対するポーズ予測を生成する。
論文 参考訳(メタデータ) (2022-04-14T15:54:01Z) - Improved Techniques for Training Score-Based Generative Models [104.20217659157701]
本研究では,高次元空間におけるスコアモデルからの学習とサンプリングに関する新しい理論的解析を行う。
スコアベースの生成モデルを前例のない解像度で画像に拡張することができる。
我々のスコアベースモデルは、様々な画像データセットで最良クラスGANに匹敵する高忠実度サンプルを生成することができる。
論文 参考訳(メタデータ) (2020-06-16T09:17:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。