論文の概要: Bridging the Gap: Enhancing the Utility of Synthetic Data via
Post-Processing Techniques
- arxiv url: http://arxiv.org/abs/2305.10118v2
- Date: Tue, 6 Jun 2023 16:13:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-07 19:48:03.194331
- Title: Bridging the Gap: Enhancing the Utility of Synthetic Data via
Post-Processing Techniques
- Title(参考訳): ギャップの橋渡し:ポストプロセッシング技術による合成データの有用性の向上
- Authors: Andrea Lampis, Eugenio Lomurno, Matteo Matteucci
- Abstract要約: 生成モデルは、実世界のデータを置き換えたり拡張したりできる合成データセットを生成するための有望なソリューションとして登場した。
本稿では,合成データセットの品質と多様性を向上させるために,新しい3つのポストプロセッシング手法を提案する。
Gap Filler(GaFi)は、Fashion-MNIST、CIFAR-10、CIFAR-100データセットにおいて、実精度スコアとのギャップを2.03%、1.78%、および3.99%に効果的に減少させることを示した。
- 参考スコア(独自算出の注目度): 7.967995669387532
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Acquiring and annotating suitable datasets for training deep learning models
is challenging. This often results in tedious and time-consuming efforts that
can hinder research progress. However, generative models have emerged as a
promising solution for generating synthetic datasets that can replace or
augment real-world data. Despite this, the effectiveness of synthetic data is
limited by their inability to fully capture the complexity and diversity of
real-world data. To address this issue, we explore the use of Generative
Adversarial Networks to generate synthetic datasets for training classifiers
that are subsequently evaluated on real-world images. To improve the quality
and diversity of the synthetic dataset, we propose three novel post-processing
techniques: Dynamic Sample Filtering, Dynamic Dataset Recycle, and Expansion
Trick. In addition, we introduce a pipeline called Gap Filler (GaFi), which
applies these techniques in an optimal and coordinated manner to maximise
classification accuracy on real-world data. Our experiments show that GaFi
effectively reduces the gap with real-accuracy scores to an error of 2.03%,
1.78%, and 3.99% on the Fashion-MNIST, CIFAR-10, and CIFAR-100 datasets,
respectively. These results represent a new state of the art in Classification
Accuracy Score and highlight the effectiveness of post-processing techniques in
improving the quality of synthetic datasets.
- Abstract(参考訳): ディープラーニングモデルのトレーニングに適したデータセットの取得とアノテートが難しい。
これはしばしば、研究の進歩を妨げる退屈で時間のかかる努力をもたらす。
しかし、生成モデルは、実世界のデータを置き換えたり拡張したりできる合成データセットを生成するための有望なソリューションとして現れてきた。
それにもかかわらず、合成データの有効性は、実世界のデータの複雑さと多様性を完全に捉えることができないために制限されている。
この問題に対処するために,実世界画像上で評価された分類器を訓練するための合成データセットを生成するために,生成型逆ネットワークの利用を検討する。
合成データセットの品質と多様性を改善するために,動的サンプルフィルタリング,動的データセットリサイクル,拡張トリックという3つの新しい後処理手法を提案する。
さらに,Gap Filler (GaFi) と呼ばれるパイプラインを導入し,実世界のデータの分類精度を最大化するために,これらの手法を最適かつ協調的に適用する。
実精度スコアとのギャップをFashion-MNIST, CIFAR-10, CIFAR-100データセットで2.03%, 1.78%, 3.99%とした。
これらの結果は, 分類精度スコアの新たな水準を示し, 合成データセットの品質向上における後処理技術の有効性を強調するものである。
関連論文リスト
- Not All LLM-Generated Data Are Equal: Rethinking Data Weighting in Text Classification [7.357494019212501]
本研究では,合成データと実世界の分布を協調する効率的な重み付け手法を提案する。
複数のテキスト分類タスクにおいて,提案手法の有効性を実証的に評価した。
論文 参考訳(メタデータ) (2024-10-28T20:53:49Z) - Synthetic Image Learning: Preserving Performance and Preventing Membership Inference Attacks [5.0243930429558885]
本稿では,下流分類器の学習のための合成データの生成と利用を最適化するパイプラインである知識リサイクル(KR)を紹介する。
このパイプラインの核心は生成的知識蒸留(GKD)であり、情報の品質と有用性を大幅に向上させる技術が提案されている。
その結果、実データと合成データでトレーニングされたモデルと、実データでトレーニングされたモデルとの性能差が著しく低下した。
論文 参考訳(メタデータ) (2024-07-22T10:31:07Z) - TarGEN: Targeted Data Generation with Large Language Models [51.87504111286201]
TarGENは、高品質な合成データセットを生成するための、多段階のプロンプト戦略である。
我々は,LLMが不正確なラベル付きインスタンスを修正できるようにする自己補正法により,TarGENを増強する。
合成データセットを元のデータセットと比較した包括的な分析により、データセットの複雑さと多様性の類似または高いレベルが明らかになる。
論文 参考訳(メタデータ) (2023-10-27T03:32:17Z) - Reimagining Synthetic Tabular Data Generation through Data-Centric AI: A
Comprehensive Benchmark [56.8042116967334]
合成データは、機械学習モデルのトレーニングの代替となる。
合成データが現実世界データの複雑なニュアンスを反映することを保証することは、難しい作業です。
本稿では,データ中心型AI技術の統合による合成データ生成プロセスのガイドの可能性について検討する。
論文 参考訳(メタデータ) (2023-10-25T20:32:02Z) - Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z) - A New Benchmark: On the Utility of Synthetic Data with Blender for Bare
Supervised Learning and Downstream Domain Adaptation [42.2398858786125]
コンピュータビジョンにおけるディープラーニングは、大規模ラベル付きトレーニングデータの価格で大きな成功を収めた。
制御不能なデータ収集プロセスは、望ましくない重複が存在する可能性のある非IIDトレーニングおよびテストデータを生成する。
これを回避するために、ドメインランダム化による3Dレンダリングによる合成データを生成する方法がある。
論文 参考訳(メタデータ) (2023-03-16T09:03:52Z) - Minimizing the Accumulated Trajectory Error to Improve Dataset
Distillation [151.70234052015948]
本稿では,フラットな軌道を求める最適化アルゴリズムを提案する。
合成データに基づいてトレーニングされた重みは、平坦な軌道への正規化を伴う累積誤差摂動に対して頑健であることを示す。
本手法はFTD (Flat Trajectory Distillation) と呼ばれ, 勾配整合法の性能を最大4.7%向上させる。
論文 参考訳(メタデータ) (2022-11-20T15:49:11Z) - TRoVE: Transforming Road Scene Datasets into Photorealistic Virtual
Environments [84.6017003787244]
本研究では、シミュレーションデータセットに存在する困難とドメインギャップに対処する合成データ生成パイプラインを提案する。
既存のデータセットからアノテーションや視覚的手がかりを利用すれば、自動マルチモーダルデータ生成が容易になることを示す。
論文 参考訳(メタデータ) (2022-08-16T20:46:08Z) - CAFE: Learning to Condense Dataset by Aligning Features [72.99394941348757]
本稿ではCAFE(Aligning features)によるCondenseデータセットの新しいスキームを提案する。
このアプローチの核心は、さまざまなスケールにわたる実データと合成データから機能を整合させる効果的な戦略です。
提案したCAFEを様々なデータセットで検証し,概ね最先端技術であることを示す。
論文 参考訳(メタデータ) (2022-03-03T05:58:49Z) - Semi-synthesis: A fast way to produce effective datasets for stereo
matching [16.602343511350252]
現実に近いテクスチャレンダリングは、ステレオマッチングのパフォーマンスを高める重要な要素です。
実物に近いテクスチャーで大量のデータを合成する効果的かつ高速な方法である半合成法を提案します。
実際のデータセットのさらなる微調整により、MiddleburyのSOTAパフォーマンスとKITTIおよびETH3Dデータセットの競争結果も達成します。
論文 参考訳(メタデータ) (2021-01-26T14:34:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。