論文の概要: Towards Reducing Data Acquisition and Labeling for Defect Detection using Simulated Data
- arxiv url: http://arxiv.org/abs/2406.19175v1
- Date: Thu, 27 Jun 2024 13:51:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-28 14:08:07.722427
- Title: Towards Reducing Data Acquisition and Labeling for Defect Detection using Simulated Data
- Title(参考訳): シミュレーションデータを用いた欠陥検出のためのデータ取得とラベル付けの削減に向けて
- Authors: Lukas Malte Kemeter, Rasmus Hvingelby, Paulina Sierak, Tobias Schön, Bishwajit Gosswam,
- Abstract要約: 多くの製造環境では、機械学習やコンピュータビジョンのためのアノテートデータがコストがかかるが、合成データは大幅に低コストで生成される。
したがって、実世界のデータを合成データで置き換えることは、大量のトレーニングデータを必要とする多くの機械学習アプリケーションにとって魅力的である。
アルミニウムホイールのX線スキャンにおける欠陥を検出する際に,そのような領域シフトに対処するためのアプローチについて議論する。
- 参考スコア(独自算出の注目度): 0.04194295877935867
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In many manufacturing settings, annotating data for machine learning and computer vision is costly, but synthetic data can be generated at significantly lower cost. Substituting the real-world data with synthetic data is therefore appealing for many machine learning applications that require large amounts of training data. However, relying solely on synthetic data is frequently inadequate for effectively training models that perform well on real-world data, primarily due to domain shifts between the synthetic and real-world data. We discuss approaches for dealing with such a domain shift when detecting defects in X-ray scans of aluminium wheels. Using both simulated and real-world X-ray images, we train an object detection model with different strategies to identify the training approach that generates the best detection results while minimising the demand for annotated real-world training samples. Our preliminary findings suggest that the sim-2-real domain adaptation approach is more cost-efficient than a fully supervised oracle - if the total number of available annotated samples is fixed. Given a certain number of labeled real-world samples, training on a mix of synthetic and unlabeled real-world data achieved comparable or even better detection results at significantly lower cost. We argue that future research into the cost-efficiency of different training strategies is important for a better understanding of how to allocate budget in applied machine learning projects.
- Abstract(参考訳): 多くの製造環境では、機械学習やコンピュータビジョンのためのアノテートデータがコストがかかるが、合成データは大幅に低コストで生成される。
したがって、実世界のデータを合成データで置き換えることは、大量のトレーニングデータを必要とする多くの機械学習アプリケーションにとって魅力的である。
しかし、合成データのみに頼ることは、主に合成データと実世界のデータのドメインシフトのために、実世界のデータでうまく機能するモデルを効果的に訓練するには不十分であることが多い。
アルミニウムホイールのX線スキャンにおける欠陥を検出する際に,そのような領域シフトに対処するためのアプローチについて議論する。
シミュレーション画像と実世界のX線画像の両方を用いて、オブジェクト検出モデルを訓練し、注釈付き実世界のトレーニングサンプルの需要を最小化しつつ、最良の検出結果を生成するトレーニングアプローチを特定する。
以上の結果から, sim-2-real domain adapt approach は完全教師付きオラクルよりもコスト効率が高いことが示唆された。
ラベル付き実世界のサンプルが一定数あるとすると、合成データとラベル付けされていない実世界のデータの混合に関するトレーニングは、はるかに低コストで同等かさらに優れた検出結果を得た。
さまざまなトレーニング戦略の費用効率に関する今後の研究は、応用機械学習プロジェクトにおける予算配分方法の理解を深めるために重要であると我々は主張する。
関連論文リスト
- Analysis of Classifier Training on Synthetic Data for Cross-Domain Datasets [4.696575161583618]
本研究は、高度な運転支援システムと自律運転のためのカメラベースの交通標識認識アプリケーションに焦点を当てた。
合成データセットの増補パイプラインは、構造化影やガウスの特異なハイライトのような新しい増補プロセスを含む。
実験の結果、クロスドメインテストデータセットに適用した場合、ほとんどの場合、合成画像ベースアプローチは実際の画像ベーストレーニングよりも優れていた。
論文 参考訳(メタデータ) (2024-10-30T07:11:41Z) - A CLIP-Powered Framework for Robust and Generalizable Data Selection [51.46695086779598]
実世界のデータセットは、しばしば冗長でノイズの多いデータを含み、トレーニング効率とモデルパフォーマンスに悪影響を及ぼす。
データ選択は、データセット全体から最も代表的なサンプルを特定することを約束している。
より堅牢で一般化可能なサンプル選択にマルチモーダル情報を活用するCLIPを利用した新しいデータ選択フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-15T03:00:58Z) - Multimodal Misinformation Detection by Learning from Synthetic Data with Multimodal LLMs [13.684959490938269]
本稿では,2つのモデルに依存しないデータ選択手法を用いて,実世界のマルチモーダル誤情報を検出するための合成データからの学習を提案する。
実世界のファクトチェックデータセット上でのMLLMの性能を向上させる実験を行った。
論文 参考訳(メタデータ) (2024-09-29T11:01:14Z) - Improving Object Detector Training on Synthetic Data by Starting With a Strong Baseline Methodology [0.14980193397844666]
本稿では,合成データを用いた学習における事前学習対象検出器の性能向上手法を提案する。
提案手法は,実画像の事前学習から得られた有用な特徴を忘れずに,合成データから有能な情報を抽出することに焦点を当てる。
論文 参考訳(メタデータ) (2024-05-30T08:31:01Z) - Learning Defect Prediction from Unrealistic Data [57.53586547895278]
事前訓練されたコードのモデルは、コード理解と生成タスクに人気がある。
このようなモデルは大きい傾向があり、訓練データの総量を必要とする。
人工的に注入されたバグのある関数など、はるかに大きくてもより現実的なデータセットを持つモデルをトレーニングすることが一般的になった。
このようなデータで訓練されたモデルは、実際のプログラムでは性能が劣りながら、同様のデータでのみうまく機能する傾向にある。
論文 参考訳(メタデータ) (2023-11-02T01:51:43Z) - Reimagining Synthetic Tabular Data Generation through Data-Centric AI: A
Comprehensive Benchmark [56.8042116967334]
合成データは、機械学習モデルのトレーニングの代替となる。
合成データが現実世界データの複雑なニュアンスを反映することを保証することは、難しい作業です。
本稿では,データ中心型AI技術の統合による合成データ生成プロセスのガイドの可能性について検討する。
論文 参考訳(メタデータ) (2023-10-25T20:32:02Z) - ParGANDA: Making Synthetic Pedestrians A Reality For Object Detection [2.7648976108201815]
本稿では,GAN(Generative Adversarial Network)を用いて,実データと合成データのギャップを埋めることを提案する。
我々のアプローチは、視覚的に可視なサンプルを生成するだけでなく、実際のドメインのラベルも必要としない。
論文 参考訳(メタデータ) (2023-07-21T05:26:32Z) - A New Benchmark: On the Utility of Synthetic Data with Blender for Bare
Supervised Learning and Downstream Domain Adaptation [42.2398858786125]
コンピュータビジョンにおけるディープラーニングは、大規模ラベル付きトレーニングデータの価格で大きな成功を収めた。
制御不能なデータ収集プロセスは、望ましくない重複が存在する可能性のある非IIDトレーニングおよびテストデータを生成する。
これを回避するために、ドメインランダム化による3Dレンダリングによる合成データを生成する方法がある。
論文 参考訳(メタデータ) (2023-03-16T09:03:52Z) - Synthetic Data for Object Classification in Industrial Applications [53.180678723280145]
オブジェクト分類では、オブジェクトごとに、異なる条件下で、多数の画像を取得することは必ずしも不可能である。
本研究は,学習データセット内の限られたデータに対処するゲームエンジンを用いた人工画像の作成について検討する。
論文 参考訳(メタデータ) (2022-12-09T11:43:04Z) - TRoVE: Transforming Road Scene Datasets into Photorealistic Virtual
Environments [84.6017003787244]
本研究では、シミュレーションデータセットに存在する困難とドメインギャップに対処する合成データ生成パイプラインを提案する。
既存のデータセットからアノテーションや視覚的手がかりを利用すれば、自動マルチモーダルデータ生成が容易になることを示す。
論文 参考訳(メタデータ) (2022-08-16T20:46:08Z) - AutoSimulate: (Quickly) Learning Synthetic Data Generation [70.82315853981838]
目的の新たな微分可能近似に基づく最適な合成データ生成法を提案する。
提案手法は,学習データ生成の高速化(最大50Times$)と,実世界のテストデータセットの精度向上(+8.7%$)を実現している。
論文 参考訳(メタデータ) (2020-08-16T11:36:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。