論文の概要: Building Manufacturing Deep Learning Models with Minimal and Imbalanced
Training Data Using Domain Adaptation and Data Augmentation
- arxiv url: http://arxiv.org/abs/2306.00202v1
- Date: Wed, 31 May 2023 21:45:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-02 19:21:08.638395
- Title: Building Manufacturing Deep Learning Models with Minimal and Imbalanced
Training Data Using Domain Adaptation and Data Augmentation
- Title(参考訳): ドメイン適応とデータ拡張を用いた最小・不均衡トレーニングデータによるディープラーニングモデルの構築
- Authors: Adrian Shuai Li, Elisa Bertino, Rih-Teng Wu, Ting-Yan Wu
- Abstract要約: 本稿では,目標学習課題に対するラベル付き学習データ不足の問題に対処する新しいドメイン適応(DA)手法を提案する。
我々のアプローチは、ソースデータセットとターゲット学習タスクで利用可能なデータセットが同一または異なる機能空間を持つシナリオで機能する。
我々は、ウェハ欠陥予測のための画像データを用いて、組み合わせたアプローチを評価する。
- 参考スコア(独自算出の注目度): 15.333573151694576
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep learning (DL) techniques are highly effective for defect detection from
images. Training DL classification models, however, requires vast amounts of
labeled data which is often expensive to collect. In many cases, not only the
available training data is limited but may also imbalanced. In this paper, we
propose a novel domain adaptation (DA) approach to address the problem of
labeled training data scarcity for a target learning task by transferring
knowledge gained from an existing source dataset used for a similar learning
task. Our approach works for scenarios where the source dataset and the dataset
available for the target learning task have same or different feature spaces.
We combine our DA approach with an autoencoder-based data augmentation approach
to address the problem of imbalanced target datasets. We evaluate our combined
approach using image data for wafer defect prediction. The experiments show its
superior performance against other algorithms when the number of labeled
samples in the target dataset is significantly small and the target dataset is
imbalanced.
- Abstract(参考訳): 深層学習(DL)技術は画像からの欠陥検出に極めて有効である。
しかし、dl分類モデルのトレーニングには膨大な量のラベル付きデータが必要である。
多くの場合、利用可能なトレーニングデータは限られているだけでなく、不均衡もある。
本稿では,類似学習課題に使用される既存のソースデータセットから得られた知識を伝達することにより,目標学習課題に対するラベル付きトレーニングデータ不足の問題に対処する,新しいドメイン適応(DA)アプローチを提案する。
我々のアプローチは、ソースデータセットとターゲット学習タスクで利用可能なデータセットが同一または異なる機能空間を持つシナリオで機能する。
DAアプローチとオートエンコーダベースのデータ拡張アプローチを組み合わせて、不均衡なターゲットデータセットの問題に対処します。
画像データを用いたウェハ欠陥予測手法の評価を行った。
実験は、ターゲットデータセット内のラベル付きサンプルの数が著しく小さく、ターゲットデータセットが不均衡である場合、他のアルゴリズムよりも優れた性能を示す。
関連論文リスト
- Retrieval-Augmented Data Augmentation for Low-Resource Domain Tasks [66.87070857705994]
低リソース環境では、データ拡張に使用するシードデータサンプルの量は極めて少ない。
本稿では、他のデータセットから豊富なサンプルを組み込むことで、トレーニングデータを増強する新しい手法を提案する。
このアプローチは、生成されたデータが関連性だけでなく、限られたシードデータだけで達成できるものよりも多様であることを保証する。
論文 参考訳(メタデータ) (2024-02-21T02:45:46Z) - Group Distributionally Robust Dataset Distillation with Risk
Minimization [18.07189444450016]
本稿では,クラスタリングとリスク尺度の最小化を組み合わせ,DDを遂行する損失を最小化するアルゴリズムを提案する。
数値実験により,その有効一般化と部分群間のロバスト性を示す。
論文 参考訳(メタデータ) (2024-02-07T09:03:04Z) - Combining Public Human Activity Recognition Datasets to Mitigate Labeled
Data Scarcity [1.274578243851308]
本稿では,一般公開されたデータセットと一般化されたHARモデルを学習するための新たな戦略を提案する。
我々の実験評価は、さまざまな最先端ニューラルネットワークアーキテクチャの実験を含むもので、公開データセットを組み合わせることで、ラベル付きサンプルの数を著しく削減できることを示している。
論文 参考訳(メタデータ) (2023-06-23T18:51:22Z) - TIDo: Source-free Task Incremental Learning in Non-stationary
Environments [0.0]
モデルベースのエージェントを更新して新しいターゲットタスクを学習するには、過去のトレーニングデータを格納する必要があります。
ラベル付きターゲットデータセットの制限を克服するタスクインクリメンタル学習手法はほとんどない。
本研究では,非定常的および目標的タスクに適応可能なワンショットタスクインクリメンタル学習手法を提案する。
論文 参考訳(メタデータ) (2023-01-28T02:19:45Z) - Towards Robust Dataset Learning [90.2590325441068]
本稿では,頑健なデータセット学習問題を定式化するための三段階最適化法を提案する。
ロバストな特徴と非ロバストな特徴を特徴付ける抽象モデルの下で,提案手法はロバストなデータセットを確実に学習する。
論文 参考訳(メタデータ) (2022-11-19T17:06:10Z) - Domain Adaptation Principal Component Analysis: base linear method for
learning with out-of-distribution data [55.41644538483948]
ドメイン適応は現代の機械学習において一般的なパラダイムである。
ドメイン適応主成分分析(DAPCA)という手法を提案する。
DAPCAは、領域適応タスクの解決に有用な線形化データ表現を見つける。
論文 参考訳(メタデータ) (2022-08-28T21:10:56Z) - CAFA: Class-Aware Feature Alignment for Test-Time Adaptation [50.26963784271912]
テスト時間適応(TTA)は、テスト時にラベルのないデータにモデルを適応させることによって、この問題に対処することを目的としている。
本稿では,クラス認識特徴アライメント(CAFA, Class-Aware Feature Alignment)と呼ばれる単純な機能アライメント損失を提案する。
論文 参考訳(メタデータ) (2022-06-01T03:02:07Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - Self Training with Ensemble of Teacher Models [8.257085583227695]
堅牢なディープラーニングモデルのトレーニングには,大量のラベル付きデータが必要である。
このようなラベル付きデータの大規模なリポジトリがなければ、ラベルなしのデータも同様に利用することができる。
準スーパービジョン学習は、そのようなラベルのないデータを分類モデルの訓練に活用することを目的としている。
論文 参考訳(メタデータ) (2021-07-17T09:44:09Z) - Weak Adaptation Learning -- Addressing Cross-domain Data Insufficiency
with Weak Annotator [2.8672054847109134]
一部のターゲット問題ドメインでは、学習プロセスを妨げる可能性のあるデータサンプルがあまりありません。
類似のソースドメインからのラベルなしデータを活用した弱い適応学習(wal)手法を提案する。
本実験は,対象領域に限定されたラベル付きデータを含む正確な分類器を学習する手法の有効性を示す。
論文 参考訳(メタデータ) (2021-02-15T06:19:25Z) - DeGAN : Data-Enriching GAN for Retrieving Representative Samples from a
Trained Classifier [58.979104709647295]
我々は、トレーニングされたネットワークの将来の学習タスクのために、利用可能なデータの豊富さと関連するデータの欠如の間のギャップを埋める。
利用可能なデータは、元のトレーニングデータセットまたは関連するドメインデータセットの不均衡なサブセットである可能性があるため、代表サンプルを検索するために使用します。
関連ドメインからのデータを活用して最先端のパフォーマンスを実現することを実証する。
論文 参考訳(メタデータ) (2019-12-27T02:05:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。