論文の概要: Building Manufacturing Deep Learning Models with Minimal and Imbalanced
Training Data Using Domain Adaptation and Data Augmentation
- arxiv url: http://arxiv.org/abs/2306.00202v1
- Date: Wed, 31 May 2023 21:45:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-02 19:21:08.638395
- Title: Building Manufacturing Deep Learning Models with Minimal and Imbalanced
Training Data Using Domain Adaptation and Data Augmentation
- Title(参考訳): ドメイン適応とデータ拡張を用いた最小・不均衡トレーニングデータによるディープラーニングモデルの構築
- Authors: Adrian Shuai Li, Elisa Bertino, Rih-Teng Wu, Ting-Yan Wu
- Abstract要約: 本稿では,目標学習課題に対するラベル付き学習データ不足の問題に対処する新しいドメイン適応(DA)手法を提案する。
我々のアプローチは、ソースデータセットとターゲット学習タスクで利用可能なデータセットが同一または異なる機能空間を持つシナリオで機能する。
我々は、ウェハ欠陥予測のための画像データを用いて、組み合わせたアプローチを評価する。
- 参考スコア(独自算出の注目度): 15.333573151694576
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep learning (DL) techniques are highly effective for defect detection from
images. Training DL classification models, however, requires vast amounts of
labeled data which is often expensive to collect. In many cases, not only the
available training data is limited but may also imbalanced. In this paper, we
propose a novel domain adaptation (DA) approach to address the problem of
labeled training data scarcity for a target learning task by transferring
knowledge gained from an existing source dataset used for a similar learning
task. Our approach works for scenarios where the source dataset and the dataset
available for the target learning task have same or different feature spaces.
We combine our DA approach with an autoencoder-based data augmentation approach
to address the problem of imbalanced target datasets. We evaluate our combined
approach using image data for wafer defect prediction. The experiments show its
superior performance against other algorithms when the number of labeled
samples in the target dataset is significantly small and the target dataset is
imbalanced.
- Abstract(参考訳): 深層学習(DL)技術は画像からの欠陥検出に極めて有効である。
しかし、dl分類モデルのトレーニングには膨大な量のラベル付きデータが必要である。
多くの場合、利用可能なトレーニングデータは限られているだけでなく、不均衡もある。
本稿では,類似学習課題に使用される既存のソースデータセットから得られた知識を伝達することにより,目標学習課題に対するラベル付きトレーニングデータ不足の問題に対処する,新しいドメイン適応(DA)アプローチを提案する。
我々のアプローチは、ソースデータセットとターゲット学習タスクで利用可能なデータセットが同一または異なる機能空間を持つシナリオで機能する。
DAアプローチとオートエンコーダベースのデータ拡張アプローチを組み合わせて、不均衡なターゲットデータセットの問題に対処します。
画像データを用いたウェハ欠陥予測手法の評価を行った。
実験は、ターゲットデータセット内のラベル付きサンプルの数が著しく小さく、ターゲットデータセットが不均衡である場合、他のアルゴリズムよりも優れた性能を示す。
関連論文リスト
- Automatic Dataset Construction (ADC): Sample Collection, Data Curation, and Beyond [38.89457061559469]
本稿では,データセット作成をコストと高効率で自動化する革新的な手法を提案する。
我々は,ラベルの誤り検出,ノイズやバイアスのあるデータによる堅牢な学習など,既存の手法を組み込んだオープンソースソフトウェアを提供する。
ラベルノイズ検出、ラベルノイズ学習、クラス不均衡学習に焦点を当てた3つのベンチマークデータセットを設計する。
論文 参考訳(メタデータ) (2024-08-21T04:45:12Z) - Data Adaptive Traceback for Vision-Language Foundation Models in Image Classification [34.37262622415682]
我々はData Adaptive Tracebackと呼ばれる新しい適応フレームワークを提案する。
具体的には、ゼロショット法を用いて、事前学習データの最もダウンストリームなタスク関連サブセットを抽出する。
我々は、擬似ラベルに基づく半教師付き手法を採用し、事前学習画像の再利用と、半教師付き学習における確証バイアス問題に対処するための視覚言語コントラスト学習手法を提案する。
論文 参考訳(メタデータ) (2024-07-11T18:01:58Z) - Retrieval-Augmented Data Augmentation for Low-Resource Domain Tasks [66.87070857705994]
低リソース環境では、データ拡張に使用するシードデータサンプルの量は極めて少ない。
本稿では、他のデータセットから豊富なサンプルを組み込むことで、トレーニングデータを増強する新しい手法を提案する。
このアプローチは、生成されたデータが関連性だけでなく、限られたシードデータだけで達成できるものよりも多様であることを保証する。
論文 参考訳(メタデータ) (2024-02-21T02:45:46Z) - Group Distributionally Robust Dataset Distillation with Risk
Minimization [18.07189444450016]
本稿では,クラスタリングとリスク尺度の最小化を組み合わせ,DDを遂行する損失を最小化するアルゴリズムを提案する。
数値実験により,その有効一般化と部分群間のロバスト性を示す。
論文 参考訳(メタデータ) (2024-02-07T09:03:04Z) - TIDo: Source-free Task Incremental Learning in Non-stationary
Environments [0.0]
モデルベースのエージェントを更新して新しいターゲットタスクを学習するには、過去のトレーニングデータを格納する必要があります。
ラベル付きターゲットデータセットの制限を克服するタスクインクリメンタル学習手法はほとんどない。
本研究では,非定常的および目標的タスクに適応可能なワンショットタスクインクリメンタル学習手法を提案する。
論文 参考訳(メタデータ) (2023-01-28T02:19:45Z) - Towards Robust Dataset Learning [90.2590325441068]
本稿では,頑健なデータセット学習問題を定式化するための三段階最適化法を提案する。
ロバストな特徴と非ロバストな特徴を特徴付ける抽象モデルの下で,提案手法はロバストなデータセットを確実に学習する。
論文 参考訳(メタデータ) (2022-11-19T17:06:10Z) - Domain Adaptation Principal Component Analysis: base linear method for
learning with out-of-distribution data [55.41644538483948]
ドメイン適応は現代の機械学習において一般的なパラダイムである。
ドメイン適応主成分分析(DAPCA)という手法を提案する。
DAPCAは、領域適応タスクの解決に有用な線形化データ表現を見つける。
論文 参考訳(メタデータ) (2022-08-28T21:10:56Z) - CAFA: Class-Aware Feature Alignment for Test-Time Adaptation [50.26963784271912]
テスト時間適応(TTA)は、テスト時にラベルのないデータにモデルを適応させることによって、この問題に対処することを目的としている。
本稿では,クラス認識特徴アライメント(CAFA, Class-Aware Feature Alignment)と呼ばれる単純な機能アライメント損失を提案する。
論文 参考訳(メタデータ) (2022-06-01T03:02:07Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - Weak Adaptation Learning -- Addressing Cross-domain Data Insufficiency
with Weak Annotator [2.8672054847109134]
一部のターゲット問題ドメインでは、学習プロセスを妨げる可能性のあるデータサンプルがあまりありません。
類似のソースドメインからのラベルなしデータを活用した弱い適応学習(wal)手法を提案する。
本実験は,対象領域に限定されたラベル付きデータを含む正確な分類器を学習する手法の有効性を示す。
論文 参考訳(メタデータ) (2021-02-15T06:19:25Z) - DeGAN : Data-Enriching GAN for Retrieving Representative Samples from a
Trained Classifier [58.979104709647295]
我々は、トレーニングされたネットワークの将来の学習タスクのために、利用可能なデータの豊富さと関連するデータの欠如の間のギャップを埋める。
利用可能なデータは、元のトレーニングデータセットまたは関連するドメインデータセットの不均衡なサブセットである可能性があるため、代表サンプルを検索するために使用します。
関連ドメインからのデータを活用して最先端のパフォーマンスを実現することを実証する。
論文 参考訳(メタデータ) (2019-12-27T02:05:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。