論文の概要: Generating High Fidelity Synthetic Data via Coreset selection and
Entropic Regularization
- arxiv url: http://arxiv.org/abs/2302.00138v1
- Date: Tue, 31 Jan 2023 22:59:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-02 18:21:10.106744
- Title: Generating High Fidelity Synthetic Data via Coreset selection and
Entropic Regularization
- Title(参考訳): コアセット選択とエントロピー規則化による高忠実度合成データの生成
- Authors: Omead Pooladzandi, Pasha Khosravi, Erik Nijkamp, Baharan Mirzasoleiman
- Abstract要約: 本稿では,コアセット選択法とエントロピー正規化法を組み合わせて,最も高い忠実度サンプルを選択することを提案する。
半教師付き学習シナリオでは、ラベル付きデータセットを増大させ、選択したサンプルのサブセットを追加することにより、精度が向上することを示す。
- 参考スコア(独自算出の注目度): 15.866662428675054
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generative models have the ability to synthesize data points drawn from the
data distribution, however, not all generated samples are high quality. In this
paper, we propose using a combination of coresets selection methods and
``entropic regularization'' to select the highest fidelity samples. We leverage
an Energy-Based Model which resembles a variational auto-encoder with an
inference and generator model for which the latent prior is complexified by an
energy-based model. In a semi-supervised learning scenario, we show that
augmenting the labeled data-set, by adding our selected subset of samples,
leads to better accuracy improvement rather than using all the synthetic
samples.
- Abstract(参考訳): 生成モデルは、データ分布から引き出されたデータポイントを合成する能力を持つが、全ての生成されたサンプルが高品質であるとは限らない。
本稿では,coresets 選択法と `entropic regularization''' の組み合わせを用いて,最も高い忠実度サンプルを選択することを提案する。
我々は,変分オートエンコーダに類似したエネルギーベースモデルと,遅延前処理をエネルギーベースモデルで複雑化する推論モデルとジェネレータモデルを利用する。
半教師付き学習シナリオでは、ラベル付きデータセットの強化により、選択したサンプルのサブセットを追加することで、すべての合成サンプルを使用するよりも精度が向上することを示す。
関連論文リスト
- Exploring Beyond Logits: Hierarchical Dynamic Labeling Based on Embeddings for Semi-Supervised Classification [49.09505771145326]
モデル予測に依存しない階層型動的ラベル付け(HDL)アルゴリズムを提案し,画像埋め込みを用いてサンプルラベルを生成する。
本手法は,半教師付き学習における擬似ラベル生成のパラダイムを変える可能性がある。
論文 参考訳(メタデータ) (2024-04-26T06:00:27Z) - Priority Sampling of Large Language Models for Compilers [4.2266182821287135]
プライオリティサンプリングは、モデルの信頼性によって順序付けられたユニークなサンプルを生成する、単純で決定論的サンプリング技術である。
正規表現に基づいた生成をサポートし、制御可能で構造化された探索プロセスを提供する。
これは、オリジナルのモデルのトレーニングのためにラベルの生成に使用するオートチューニングを、わずか30のサンプルで上回っている。
論文 参考訳(メタデータ) (2024-02-28T22:27:49Z) - Iterated Denoising Energy Matching for Sampling from Boltzmann Densities [109.23137009609519]
反復Denoising Energy Matching (iDEM)
iDEMは,拡散型サンプリング装置から高モデル密度のサンプリング領域を (I) 交換し, (II) それらのサンプルをマッチング目的に使用した。
提案手法は,全測定値の最先端性能を達成し,2~5倍の速さでトレーニングを行う。
論文 参考訳(メタデータ) (2024-02-09T01:11:23Z) - Quality-Diversity Generative Sampling for Learning with Synthetic Data [18.642540152362237]
生成モデルは、合成トレーニングデータセットを作成することによって、実際のデータソースのサロゲートとして機能する。
本研究では,QDGS(Quality-diversity Generative sample)を提案する。
論文 参考訳(メタデータ) (2023-12-22T01:43:27Z) - Revisiting the Evaluation of Image Synthesis with GANs [55.72247435112475]
本研究では, 合成性能の評価に関する実証的研究を行い, 生成モデルの代表としてGAN(Generative Adversarial Network)を用いた。
特に、表現空間におけるデータポイントの表現方法、選択したサンプルを用いた公平距離の計算方法、各集合から使用可能なインスタンス数など、さまざまな要素の詳細な分析を行う。
論文 参考訳(メタデータ) (2023-04-04T17:54:32Z) - Energy-Based Test Sample Adaptation for Domain Generalization [81.04943285281072]
そこで本研究では,ドメインの試験時間におけるエネルギーに基づくサンプル適応を提案する。
対象試料をソース分布に適応させるため,エネルギー最小化により反復的に試料を更新する。
画像とマイクロブログスレッドの分類のための6つのベンチマーク実験により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2023-02-22T08:55:09Z) - Selectively increasing the diversity of GAN-generated samples [8.980453507536017]
本稿では,GAN生成サンプルの多様性を選択的に向上する手法を提案する。
本研究では,CERN における ALICE 実験のZero Degree Calorimeter から得られたデータをシミュレーションする実生活シナリオとともに,本手法の優位性を示す。
論文 参考訳(メタデータ) (2022-07-04T16:27:06Z) - A Kernelised Stein Statistic for Assessing Implicit Generative Models [10.616967871198689]
本稿では,合成データ生成装置の品質を評価するための基本手法を提案する。
合成データ生成装置からのサンプルサイズは所望の大きさで、生成装置がエミュレートすることを目的とした観測データのサイズは固定される。
論文 参考訳(メタデータ) (2022-05-31T23:40:21Z) - Oops I Took A Gradient: Scalable Sampling for Discrete Distributions [53.3142984019796]
このアプローチは、多くの困難な設定において、ジェネリックサンプリングよりも優れていることを示す。
また,高次元離散データを用いた深部エネルギーモデルトレーニングのための改良型サンプリング器についても実演した。
論文 参考訳(メタデータ) (2021-02-08T20:08:50Z) - One for More: Selecting Generalizable Samples for Generalizable ReID
Model [92.40951770273972]
本稿では,選択したサンプルを損失関数として一般化する1対3の学習目標を提案する。
提案した1対3のサンプルは,ReIDトレーニングフレームワークにシームレスに統合できる。
論文 参考訳(メタデータ) (2020-12-10T06:37:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。