論文の概要: Quality-Diversity Generative Sampling for Learning with Synthetic Data
- arxiv url: http://arxiv.org/abs/2312.14369v2
- Date: Tue, 27 Feb 2024 19:21:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-29 18:15:08.569634
- Title: Quality-Diversity Generative Sampling for Learning with Synthetic Data
- Title(参考訳): 合成データを用いた学習のための品質多様性生成サンプリング
- Authors: Allen Chang, Matthew C. Fontaine, Serena Booth, Maja J. Matari\'c,
Stefanos Nikolaidis
- Abstract要約: 生成モデルは、合成トレーニングデータセットを作成することによって、実際のデータソースのサロゲートとして機能する。
本研究では,QDGS(Quality-diversity Generative sample)を提案する。
- 参考スコア(独自算出の注目度): 18.642540152362237
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generative models can serve as surrogates for some real data sources by
creating synthetic training datasets, but in doing so they may transfer biases
to downstream tasks. We focus on protecting quality and diversity when
generating synthetic training datasets. We propose quality-diversity generative
sampling (QDGS), a framework for sampling data uniformly across a user-defined
measure space, despite the data coming from a biased generator. QDGS is a
model-agnostic framework that uses prompt guidance to optimize a quality
objective across measures of diversity for synthetically generated data,
without fine-tuning the generative model. Using balanced synthetic datasets
generated by QDGS, we first debias classifiers trained on color-biased shape
datasets as a proof-of-concept. By applying QDGS to facial data synthesis, we
prompt for desired semantic concepts, such as skin tone and age, to create an
intersectional dataset with a combined blend of visual features. Leveraging
this balanced data for training classifiers improves fairness while maintaining
accuracy on facial recognition benchmarks. Code available at:
https://github.com/Cylumn/qd-generative-sampling.
- Abstract(参考訳): 生成モデルは、合成トレーニングデータセットを作成することによって、実際のデータソースのサロゲートとして機能することができる。
合成トレーニングデータセットを生成する際の品質と多様性の保護に注力する。
バイアス発生器から得られるデータにもかかわらず、ユーザ定義測度空間を均一にサンプリングするフレームワークである品質多様性生成サンプリング(QDGS)を提案する。
qdgsはモデルに依存しないフレームワークで、生成モデルを微調整することなく、合成によって生成されたデータの多様性の尺度で品質目標を最適化する。
qdgsが生成するバランスのとれた合成データセットを用いて,まず,カラーバイアス形状データセットで学習した識別器を概念実証としてデバイアスする。
顔データ合成にqdgを適用することで、肌の色調や年齢といった所望の意味概念を駆使して、視覚特徴のブレンドを組み合わせた交叉データセットを作成する。
このバランスの取れたデータを分類器のトレーニングに利用することで、顔認識ベンチマークの精度を維持しながら公平性が向上する。
コードはhttps://github.com/cylumn/qd-generative-sampling。
関連論文リスト
- Generating Realistic Tabular Data with Large Language Models [49.03536886067729]
大規模言語モデル(LLM)は多様なタスクに使われてきたが、特徴と対象変数の正確な相関は捉えていない。
そこで本研究では,LLMに基づく3つの重要な改良を加えて,実データの特徴クラス相関を正しく把握する手法を提案する。
実験の結果,本手法は下流タスクにおいて,20個のデータセット上で10個のSOTAベースラインを著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2024-10-29T04:14:32Z) - Testing Deep Learning Recommender Systems Models on Synthetic GAN-Generated Datasets [0.27624021966289597]
GANRS(Generative Adversarial Networks for Recommender Systems)は、協調フィルタリングレコメンデーションシステムのためのデータセットを生成する。
我々は、ソースとして3つの異なる実データから複数の合成データセットを作成することにより、GANRS法を検証した。
また、比較性能とGANRS法の両方をテストするために、6つの最先端協調フィルタリング深層学習モデルを選択した。
論文 参考訳(メタデータ) (2024-10-23T08:09:48Z) - Post-training Model Quantization Using GANs for Synthetic Data
Generation [57.40733249681334]
量子化法における実データを用いたキャリブレーションの代用として合成データを用いた場合について検討する。
本稿では,StyleGAN2-ADAが生成したデータと事前学習したDiStyleGANを用いて定量化したモデルの性能と,実データを用いた量子化とフラクタル画像に基づく代替データ生成手法との比較を行った。
論文 参考訳(メタデータ) (2023-05-10T11:10:09Z) - Revisiting the Evaluation of Image Synthesis with GANs [55.72247435112475]
本研究では, 合成性能の評価に関する実証的研究を行い, 生成モデルの代表としてGAN(Generative Adversarial Network)を用いた。
特に、表現空間におけるデータポイントの表現方法、選択したサンプルを用いた公平距離の計算方法、各集合から使用可能なインスタンス数など、さまざまな要素の詳細な分析を行う。
論文 参考訳(メタデータ) (2023-04-04T17:54:32Z) - Creating Synthetic Datasets for Collaborative Filtering Recommender
Systems using Generative Adversarial Networks [1.290382979353427]
機械学習における研究と教育には、必要なトレーニング、検証、テストタスクを処理するために、多様な、代表的でオープンなデータセットが必要です。
この研究の多様性を養うためには、既存のデータセットを合成データセットで補強する必要がある。
本稿では,協調フィルタリングデータセットを生成するGAN(Generative Adversarial Network)に基づく手法を提案する。
論文 参考訳(メタデータ) (2023-03-02T14:23:27Z) - Generating High Fidelity Synthetic Data via Coreset selection and
Entropic Regularization [15.866662428675054]
本稿では,コアセット選択法とエントロピー正規化法を組み合わせて,最も高い忠実度サンプルを選択することを提案する。
半教師付き学習シナリオでは、ラベル付きデータセットを増大させ、選択したサンプルのサブセットを追加することにより、精度が向上することを示す。
論文 参考訳(メタデータ) (2023-01-31T22:59:41Z) - SynBench: Task-Agnostic Benchmarking of Pretrained Representations using
Synthetic Data [78.21197488065177]
近年、下流のタスクで大規模なデータで事前訓練された微調整大型モデルが成功し、ディープラーニングにおける重要なパラダイムシフトにつながった。
本稿では,合成データを用いて事前学習した表現の質を測定するためのタスク非依存フレームワークであるtextitSynBenchを提案する。
論文 参考訳(メタデータ) (2022-10-06T15:25:00Z) - TRoVE: Transforming Road Scene Datasets into Photorealistic Virtual
Environments [84.6017003787244]
本研究では、シミュレーションデータセットに存在する困難とドメインギャップに対処する合成データ生成パイプラインを提案する。
既存のデータセットからアノテーションや視覚的手がかりを利用すれば、自動マルチモーダルデータ生成が容易になることを示す。
論文 参考訳(メタデータ) (2022-08-16T20:46:08Z) - CAFE: Learning to Condense Dataset by Aligning Features [72.99394941348757]
本稿ではCAFE(Aligning features)によるCondenseデータセットの新しいスキームを提案する。
このアプローチの核心は、さまざまなスケールにわたる実データと合成データから機能を整合させる効果的な戦略です。
提案したCAFEを様々なデータセットで検証し,概ね最先端技術であることを示す。
論文 参考訳(メタデータ) (2022-03-03T05:58:49Z) - Towards Synthetic Multivariate Time Series Generation for Flare
Forecasting [5.098461305284216]
データ駆動・レアイベント予測アルゴリズムのトレーニングにおける制限要因の1つは、関心のあるイベントの不足である。
本研究では,データインフォームド・オーバーサンプリングを行う手段として,条件付き生成逆数ネットワーク(CGAN)の有用性を検討する。
論文 参考訳(メタデータ) (2021-05-16T22:23:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。