論文の概要: Simplex Autoencoders
- arxiv url: http://arxiv.org/abs/2301.06489v1
- Date: Mon, 16 Jan 2023 15:57:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-18 15:40:22.099648
- Title: Simplex Autoencoders
- Title(参考訳): Simplexオートエンコーダ
- Authors: Aymene Mohammed Bouayed and David Naccache
- Abstract要約: 本稿では,オートエンコーダの潜伏空間を単純な表現としてモデル化し,混合モデルの成分数を決定する新しい手法を提案する。
合成データセットに対する我々のアプローチを評価し,その性能を3つのベンチマークデータセットで実証する。
- 参考スコア(独自算出の注目度): 1.3960152426268768
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Synthetic data generation is increasingly important due to privacy concerns.
While Autoencoder-based approaches have been widely used for this purpose,
sampling from their latent spaces can be challenging. Mixture models are
currently the most efficient way to sample from these spaces. In this work, we
propose a new approach that models the latent space of an Autoencoder as a
simplex, allowing for a novel heuristic for determining the number of
components in the mixture model. This heuristic is independent of the number of
classes and produces comparable results. We also introduce a sampling method
based on probability mass functions, taking advantage of the compactness of the
latent space. We evaluate our approaches on a synthetic dataset and demonstrate
their performance on three benchmark datasets: MNIST, CIFAR-10, and Celeba. Our
approach achieves an image generation FID of 4.29, 13.55, and 11.90 on the
MNIST, CIFAR-10, and Celeba datasets, respectively. The best AE FID results to
date on those datasets are respectively 6.3, 85.3 and 35.6 we hence
substantially improve those figures (the lower is the FID the better). However,
AEs are not the best performing algorithms on the concerned datasets and all
FID records are currently held by GANs. While we do not perform better than
GANs on CIFAR and Celeba we do manage to squeeze-out a non-negligible
improvement (of 0.21) over the current GAN-held record for the MNIST dataset.
- Abstract(参考訳): プライバシー上の懸念から、合成データ生成はますます重要になっている。
Autoencoderベースのアプローチはこの目的のために広く使われているが、潜在空間からのサンプリングは困難である。
現在、混合モデルはこれらの空間から最も効率的なサンプリング方法である。
本研究では,オートエンコーダの潜在空間をシンプレックスとしてモデル化し,混合モデルにおける成分数を決定するための新しいヒューリスティックな手法を提案する。
このヒューリスティックはクラスの数とは独立であり、同等の結果を生み出す。
また,潜在空間のコンパクト性を利用して,確率質量関数に基づくサンプリング手法を提案する。
我々は,MNIST,CIFAR-10,Celebaの3つのベンチマークデータセットに対して,合成データセットに対するアプローチを評価し,その性能を示す。
提案手法は,MNIST,CIFAR-10,Celebaデータセット上で4.29,13.55,11.90の画像生成を行う。
それらのデータセットにおける最良のAE FID結果は、それぞれ6.3、85.3、35.6である。
しかしながら、AEは関連するデータセット上で最高のパフォーマンスのアルゴリズムではなく、現在すべてのFIDレコードがGANによって保持されている。
CIFARやCelebaでは、GANよりもパフォーマンスは良くありませんが、MNISTデータセットの現在のGANが保持する記録よりも、(0.21の)無視できない改善を実現しています。
関連論文リスト
- Generating Realistic Tabular Data with Large Language Models [49.03536886067729]
大規模言語モデル(LLM)は多様なタスクに使われてきたが、特徴と対象変数の正確な相関は捉えていない。
そこで本研究では,LLMに基づく3つの重要な改良を加えて,実データの特徴クラス相関を正しく把握する手法を提案する。
実験の結果,本手法は下流タスクにおいて,20個のデータセット上で10個のSOTAベースラインを著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2024-10-29T04:14:32Z) - QDGset: A Large Scale Grasping Dataset Generated with Quality-Diversity [2.095923926387536]
クオリティ・ダイバーシティ(QD)アルゴリズムは,サンプリングの効率を著しく向上させることが証明されている。
我々は、オブジェクト中心の把握を生成するQDフレームワークであるQDG-6DoFを拡張して、合成的把握データセットの生成を拡大する。
論文 参考訳(メタデータ) (2024-10-03T08:56:14Z) - Let's Synthesize Step by Step: Iterative Dataset Synthesis with Large
Language Models by Extrapolating Errors from Small Models [69.76066070227452]
※データ合成*はラベル付きデータの少ない小さなモデルをトレーニングするための有望な方法です。
本稿では,この分散ギャップを縮めるデータ合成フレームワークであるStep* (**S3**) による合成ステップを提案する。
提案手法は,合成データセットと実データとのギャップを小さくすることで,小型モデルの性能を向上させる。
論文 参考訳(メタデータ) (2023-10-20T17:14:25Z) - Improved Distribution Matching for Dataset Condensation [91.55972945798531]
本稿では,分布マッチングに基づく新しいデータセット凝縮法を提案する。
提案手法は,計算資源の少ない従来の最適化指向手法よりも優れている。
論文 参考訳(メタデータ) (2023-07-19T04:07:33Z) - Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z) - Knowledge-integrated AutoEncoder Model [0.0]
本稿では,外部知識源を学習プロセスに統合できるAEモデル開発のための新しいアプローチを提案する。
提案モデルは,3つの異なる科学分野の大規模データセットを用いて評価する。
論文 参考訳(メタデータ) (2023-03-12T18:00:12Z) - Few-Shot Non-Parametric Learning with Deep Latent Variable Model [50.746273235463754]
遅延変数を用いた圧縮による非パラメトリック学習(NPC-LV)を提案する。
NPC-LVは、ラベルなしデータが多いがラベル付きデータはほとんどないデータセットの学習フレームワークである。
我々は,NPC-LVが低データ構造における画像分類における3つのデータセットの教師あり手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-06-23T09:35:03Z) - Infinite Recommendation Networks: A Data-Centric Approach [8.044430277912936]
Neural Tangent Kernelを活用して、無限大のニューラルネットワークをトレーニングし、無限大のボトルネック層を持つオートエンコーダであるinfty$-AEを考案します。
また、小型で高忠実なデータ要約を合成するためのDistill-CFを開発した。
我々は、最初のデータセットサイズの0.1%に満たない完全なデータセット上で、infty$-AEのパフォーマンスの96-105%を観察した。
論文 参考訳(メタデータ) (2022-06-03T00:34:13Z) - Boosting the Speed of Entity Alignment 10*: Dual Attention Matching
Network with Normalized Hard Sample Mining [26.04006507181558]
我々は新しいKGエンコーダ-デュアルアテンションマッチングネットワーク(Dual-AMN)を提案する。
広く利用されている公開データセットの実験結果から,本手法は高精度かつ高効率であることがわかった。
論文 参考訳(メタデータ) (2021-03-29T09:35:07Z) - Least Squares Regression with Markovian Data: Fundamental Limits and
Algorithms [69.45237691598774]
マルコフ連鎖からデータポイントが依存しサンプリングされる最小二乗線形回帰問題について検討する。
この問題を$tau_mathsfmix$という観点から、鋭い情報理論のミニマックス下限を確立する。
本稿では,経験的リプレイに基づくアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-16T04:26:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。