論文の概要: Enhancing Object Detection Performance for Small Objects through
Synthetic Data Generation and Proportional Class-Balancing Technique: A
Comparative Study in Industrial Scenarios
- arxiv url: http://arxiv.org/abs/2401.12729v2
- Date: Mon, 29 Jan 2024 13:18:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-30 20:14:56.574989
- Title: Enhancing Object Detection Performance for Small Objects through
Synthetic Data Generation and Proportional Class-Balancing Technique: A
Comparative Study in Industrial Scenarios
- Title(参考訳): 合成データ生成と比例クラスバランス手法による小型物体の物体検出性能の向上:産業シナリオにおける比較研究
- Authors: Jibinraj Antony and Vinit Hegiste and Ali Nazeri and Hooman Tavakoli
and Snehal Walunj and Christiane Plociennik and Martin Ruskowski
- Abstract要約: オブジェクト検出(OD)は,局所クラス情報を抽出する上で重要なコンピュータビジョン手法であることが証明されている。
最先端のSOTA(State-of-the-art OD)モデルの多くは中規模および大型のオブジェクトでよく機能するが、小さなオブジェクトでは動作しない。
本研究では,ODモデルの性能向上のために,新たなデータポイントを注入する手法を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Object Detection (OD) has proven to be a significant computer vision method
in extracting localized class information and has multiple applications in the
industry. Although many of the state-of-the-art (SOTA) OD models perform well
on medium and large sized objects, they seem to under perform on small objects.
In most of the industrial use cases, it is difficult to collect and annotate
data for small objects, as it is time-consuming and prone to human errors.
Additionally, those datasets are likely to be unbalanced and often result in an
inefficient model convergence. To tackle this challenge, this study presents a
novel approach that injects additional data points to improve the performance
of the OD models. Using synthetic data generation, the difficulties in data
collection and annotations for small object data points can be minimized and to
create a dataset with balanced distribution. This paper discusses the effects
of a simple proportional class-balancing technique, to enable better anchor
matching of the OD models. A comparison was carried out on the performances of
the SOTA OD models: YOLOv5, YOLOv7 and SSD, for combinations of real and
synthetic datasets within an industrial use case.
- Abstract(参考訳): オブジェクト検出(od)は、ローカライズされたクラス情報を抽出するための重要なコンピュータビジョン手法であり、業界に複数の応用がある。
多くのSOTA(State-of-the-art)ODモデルは中規模および大型のオブジェクトでよく機能するが、小さなオブジェクトでは動作しないようである。
ほとんどの産業用ユースケースでは、時間を要するためヒューマンエラーを起こしやすいため、小さなオブジェクトのデータを収集して注釈を付けることは困難である。
さらに、これらのデータセットは不均衡であり、しばしば非効率なモデル収束をもたらす。
この課題に取り組むため,本研究ではodモデルの性能を向上させるために追加のデータポイントを注入する新しい手法を提案する。
合成データ生成を用いることで、小さなオブジェクトのデータポイントに対するデータ収集とアノテーションの難しさを最小化し、バランスの取れた分布を持つデータセットを作成することができる。
本稿では,単純な比例クラスバランス手法がodモデルのアンカーマッチングを改善する効果について述べる。
sota odモデル(yolov5、yolov7、ssd)の性能比較を行い、産業用ユースケースにおける実データと合成データの組み合わせについて検討した。
関連論文リスト
- Forewarned is Forearmed: Leveraging LLMs for Data Synthesis through Failure-Inducing Exploration [90.41908331897639]
大規模言語モデル(LLM)は、多種多様な高品質なタスク特化データのトレーニングの恩恵を受けている。
本稿では,効果的なトレーニングサンプルを自動生成する新しい手法であるReverseGenを提案する。
論文 参考訳(メタデータ) (2024-10-22T06:43:28Z) - Unveiling the Flaws: Exploring Imperfections in Synthetic Data and Mitigation Strategies for Large Language Models [89.88010750772413]
大規模言語モデル(LLM)の学習における高品質なデータ不足問題に対する解決法として,合成データを提案する。
我々の研究は、Q-A(Q-A)ペア、一般的な合成データに関連するこれらの特定の欠陥を掘り下げ、これらの欠陥を軽減するための未学習技術に基づく方法を提案する。
我々の研究は、より堅牢で効率的なLLMトレーニングを促進することを目的として、合成データの効果的な利用に関する重要な洞察を得た。
論文 参考訳(メタデータ) (2024-06-18T08:38:59Z) - Let's Synthesize Step by Step: Iterative Dataset Synthesis with Large
Language Models by Extrapolating Errors from Small Models [69.76066070227452]
※データ合成*はラベル付きデータの少ない小さなモデルをトレーニングするための有望な方法です。
本稿では,この分散ギャップを縮めるデータ合成フレームワークであるStep* (**S3**) による合成ステップを提案する。
提案手法は,合成データセットと実データとのギャップを小さくすることで,小型モデルの性能を向上させる。
論文 参考訳(メタデータ) (2023-10-20T17:14:25Z) - Synthetic Data Generation with Large Language Models for Text
Classification: Potential and Limitations [21.583825474908334]
本研究では,合成データに基づいて学習したモデルの性能が,分類の主観性によってどう変化するかを検討する。
その結果,主観性は,タスクレベルとインスタンスレベルの両方において,合成データに基づいて訓練されたモデルの性能と負の相関関係があることが示唆された。
論文 参考訳(メタデータ) (2023-10-11T19:51:13Z) - Building Manufacturing Deep Learning Models with Minimal and Imbalanced
Training Data Using Domain Adaptation and Data Augmentation [15.333573151694576]
本稿では,目標学習課題に対するラベル付き学習データ不足の問題に対処する新しいドメイン適応(DA)手法を提案する。
我々のアプローチは、ソースデータセットとターゲット学習タスクで利用可能なデータセットが同一または異なる機能空間を持つシナリオで機能する。
我々は、ウェハ欠陥予測のための画像データを用いて、組み合わせたアプローチを評価する。
論文 参考訳(メタデータ) (2023-05-31T21:45:34Z) - Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z) - Temporal Output Discrepancy for Loss Estimation-based Active Learning [65.93767110342502]
ラベルのないサンプルが高損失を伴っていると信じられている場合に,データアノテーションのオラクルに問い合わせる,新しいディープラーニングアプローチを提案する。
本手法は,画像分類やセマンティックセグメンテーションタスクにおける最先端の能動学習手法よりも優れた性能を実現する。
論文 参考訳(メタデータ) (2022-12-20T19:29:37Z) - Effective Few-Shot Named Entity Linking by Meta-Learning [34.70028855572534]
本稿では,非自明な合成エンティティ-メント対を生成するための新しい弱監督戦略を提案する。
また,各合成実体対に異なる重みを割り当てるメタ学習機構を設計する。
実世界のデータセットの実験により、提案手法は最先端の少数ショットエンティティリンクモデルを大幅に改善できることが示された。
論文 参考訳(メタデータ) (2022-07-12T03:23:02Z) - Contrastive Model Inversion for Data-Free Knowledge Distillation [60.08025054715192]
そこで、データ多様性を最適化可能な目的として明示的にモデル化するContrastive Model Inversionを提案します。
我々の主な観察では、同じ量のデータの制約の下では、高いデータの多様性は、通常より強いインスタンス識別を示す。
CIFAR-10, CIFAR-100, Tiny-ImageNetを用いた実験により, 生成したデータを知識蒸留に使用する場合, CMIは極めて優れた性能を示すことが示された。
論文 参考訳(メタデータ) (2021-05-18T15:13:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。