論文の概要: Analyzing Effects of Fake Training Data on the Performance of Deep
Learning Systems
- arxiv url: http://arxiv.org/abs/2303.01268v1
- Date: Thu, 2 Mar 2023 13:53:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-03 14:11:32.817706
- Title: Analyzing Effects of Fake Training Data on the Performance of Deep
Learning Systems
- Title(参考訳): 偽学習データの解析がディープラーニングシステムの性能に及ぼす影響
- Authors: Pratinav Seth, Akshat Bhandari and Kumud Lakara
- Abstract要約: ディープラーニングモデルは、クラス不均衡や分散シフトに対する堅牢性の欠如など、さまざまな問題に悩まされることが多い。
GAN(Generative Adversarial Networks)の出現により、高品質な合成データを生成することが可能になった。
本研究では, 各種合成データと原データとを混合した場合, アウト・オブ・ディストリビューションデータに対するモデルの堅牢性と, 予測の一般品質に影響を及ぼす影響を解析する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep learning models frequently suffer from various problems such as class
imbalance and lack of robustness to distribution shift. It is often difficult
to find data suitable for training beyond the available benchmarks. This is
especially the case for computer vision models. However, with the advent of
Generative Adversarial Networks (GANs), it is now possible to generate
high-quality synthetic data. This synthetic data can be used to alleviate some
of the challenges faced by deep learning models. In this work we present a
detailed analysis of the effect of training computer vision models using
different proportions of synthetic data along with real (organic) data. We
analyze the effect that various quantities of synthetic data, when mixed with
original data, can have on a model's robustness to out-of-distribution data and
the general quality of predictions.
- Abstract(参考訳): ディープラーニングモデルは、クラス不均衡や分散シフトに対する堅牢性の欠如など、さまざまな問題に苦しむことが多い。
利用可能なベンチマーク以上のトレーニングに適したデータを見つけることは、しばしば困難である。
これは特にコンピュータビジョンモデルの場合である。
しかし、GAN(Generative Adversarial Networks)の出現により、高品質な合成データを生成することが可能になった。
この合成データは、ディープラーニングモデルが直面するいくつかの課題を軽減するために使用できる。
本稿では,合成データの異なる比率と実際の(有機的な)データを用いたコンピュータビジョンモデルの訓練の効果について詳細に分析する。
本研究では, 各種合成データとオリジナルデータとの混合が, 分散データに対するモデルのロバスト性, 予測の一般的な品質に及ぼす影響を解析した。
関連論文リスト
- Synthetic Image Learning: Preserving Performance and Preventing Membership Inference Attacks [5.0243930429558885]
本稿では,下流分類器の学習のための合成データの生成と利用を最適化するパイプラインである知識リサイクル(KR)を紹介する。
このパイプラインの核心は生成的知識蒸留(GKD)であり、情報の品質と有用性を大幅に向上させる技術が提案されている。
その結果、実データと合成データでトレーニングされたモデルと、実データでトレーニングされたモデルとの性能差が著しく低下した。
論文 参考訳(メタデータ) (2024-07-22T10:31:07Z) - Unveiling the Flaws: Exploring Imperfections in Synthetic Data and Mitigation Strategies for Large Language Models [89.88010750772413]
大規模言語モデル(LLM)の学習における高品質なデータ不足問題に対する解決法として,合成データを提案する。
我々の研究は、Q-A(Q-A)ペア、一般的な合成データに関連するこれらの特定の欠陥を掘り下げ、これらの欠陥を軽減するための未学習技術に基づく方法を提案する。
我々の研究は、より堅牢で効率的なLLMトレーニングを促進することを目的として、合成データの効果的な利用に関する重要な洞察を得た。
論文 参考訳(メタデータ) (2024-06-18T08:38:59Z) - Best Practices and Lessons Learned on Synthetic Data [83.63271573197026]
AIモデルの成功は、大規模で多様な、高品質なデータセットの可用性に依存している。
合成データは、現実世界のパターンを模倣する人工データを生成することによって、有望なソリューションとして現れてきた。
論文 参考訳(メタデータ) (2024-04-11T06:34:17Z) - Towards Theoretical Understandings of Self-Consuming Generative Models [56.84592466204185]
本稿では,自己消費ループ内で生成モデルを訓練する新たな課題に取り組む。
我々は,このトレーニングが将来のモデルで学習したデータ分布に与える影響を厳格に評価するための理論的枠組みを構築した。
カーネル密度推定の結果は,混合データトレーニングがエラー伝播に与える影響など,微妙な洞察を与える。
論文 参考訳(メタデータ) (2024-02-19T02:08:09Z) - Reimagining Synthetic Tabular Data Generation through Data-Centric AI: A
Comprehensive Benchmark [56.8042116967334]
合成データは、機械学習モデルのトレーニングの代替となる。
合成データが現実世界データの複雑なニュアンスを反映することを保証することは、難しい作業です。
本稿では,データ中心型AI技術の統合による合成データ生成プロセスのガイドの可能性について検討する。
論文 参考訳(メタデータ) (2023-10-25T20:32:02Z) - Private Synthetic Data Meets Ensemble Learning [15.425653946755025]
機械学習モデルが合成データに基づいてトレーニングされ、実際のデータにデプロイされると、しばしばパフォーマンス低下が発生する。
実データを用いた場合のパフォーマンス向上を目標として,下流モデルのトレーニングのための新たなアンサンブル戦略を導入する。
論文 参考訳(メタデータ) (2023-10-15T04:24:42Z) - Does Synthetic Data Make Large Language Models More Efficient? [0.0]
本稿では,NLPにおける合成データ生成のニュアンスについて考察する。
データ拡張の可能性や構造化品種の導入など、その利点を強調します。
テンプレートベースの合成データが現代の変圧器モデルの性能に与える影響を実証する。
論文 参考訳(メタデータ) (2023-10-11T19:16:09Z) - On the Stability of Iterative Retraining of Generative Models on their own Data [56.153542044045224]
混合データセットに対する生成モデルの訓練が与える影響について検討する。
まず、初期生成モデルがデータ分布を十分に近似する条件下で反復学習の安定性を実証する。
我々は、正規化フローと最先端拡散モデルを繰り返し訓練することにより、合成画像と自然画像の両方に関する我々の理論を実証的に検証する。
論文 参考訳(メタデータ) (2023-09-30T16:41:04Z) - SYNAuG: Exploiting Synthetic Data for Data Imbalance Problems [39.675787338941184]
本稿では,データ不均衡問題に対処する合成データの可能性について検討する。
具体的には、SynAuGと呼ばれる手法は、学習データの不均衡分布を等化するために合成データを利用する。
実データと合成データの間には領域ギャップが存在するが,SynAuGを用いたトレーニングと,いくつかの実データを用いた微調整により,優れた性能が得られることを示した。
論文 参考訳(メタデータ) (2023-08-02T07:59:25Z) - Transitioning from Real to Synthetic data: Quantifying the bias in model [1.6134566438137665]
本研究では,合成データを用いたモデルにおけるバイアスと公平性のトレードオフを確立することを目的とする。
合成データを用いて訓練したモデルには、様々なレベルのバイアスの影響があることを実証する。
論文 参考訳(メタデータ) (2021-05-10T06:57:14Z) - Explainable Adversarial Attacks in Deep Neural Networks Using Activation
Profiles [69.9674326582747]
本稿では,敵対的事例に基づくニューラルネットワークモデルを検討するためのビジュアルフレームワークを提案する。
これらの要素を観察することで、モデル内の悪用領域を素早く特定できることを示す。
論文 参考訳(メタデータ) (2021-03-18T13:04:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。