論文の概要: Dataset Condensation with Latent Space Knowledge Factorization and
Sharing
- arxiv url: http://arxiv.org/abs/2208.10494v1
- Date: Sun, 21 Aug 2022 18:14:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-24 12:31:29.867800
- Title: Dataset Condensation with Latent Space Knowledge Factorization and
Sharing
- Title(参考訳): 潜在空間知識の因子化と共有によるデータセットの凝縮
- Authors: Hae Beom Lee, Dong Bok Lee, Sung Ju Hwang
- Abstract要約: 与えられたデータセットの規則性を利用してデータセットの凝縮問題を解決する新しい手法を提案する。
データセットを元の入力空間に直接凝縮するのではなく、学習可能な一連のコードでデータセットの生成プロセスを仮定する。
提案手法は,様々なベンチマークデータセットに対して,有意なマージンで新しい最先端記録を達成できることを実験的に示す。
- 参考スコア(独自算出の注目度): 73.31614936678571
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we introduce a novel approach for systematically solving
dataset condensation problem in an efficient manner by exploiting the
regularity in a given dataset. Instead of condensing the dataset directly in
the original input space, we assume a generative process of the dataset with a
set of learnable codes defined in a compact latent space followed by a set of
tiny decoders which maps them differently to the original input space. By
combining different codes and decoders interchangeably, we can dramatically
increase the number of synthetic examples with essentially the same parameter
count, because the latent space is much lower dimensional and since we can
assume as many decoders as necessary to capture different styles represented in
the dataset with negligible cost. Such knowledge factorization allows efficient
sharing of information between synthetic examples in a systematic way,
providing far better trade-off between compression ratio and quality of the
generated examples. We experimentally show that our method achieves new
state-of-the-art records by significant margins on various benchmark datasets
such as SVHN, CIFAR10, CIFAR100, and TinyImageNet.
- Abstract(参考訳): 本稿では,与えられたデータセットの正則性を活用し,効率良くデータセット凝縮問題を体系的に解く新しい手法を提案する。
データセットを元の入力空間で直接凝縮するのではなく、コンパクトな潜在空間で定義された学習可能なコードの集合と、それらを元の入力空間と異なるマップする小さなデコーダの集合とでデータセットの生成過程を仮定する。
異なる符号とデコーダを相互に組み合わせることで、潜在空間がはるかに低次元であることや、データセットで表現される異なるスタイルを無視可能なコストで捉えるために必要なデコーダの数を仮定できるため、基本的に同じパラメータ数で合成例の数を大幅に増やすことができる。
このような知識の分解は、合成例間の情報を体系的に効率的に共有し、圧縮比と生成例の品質のトレードオフをはるかに良くする。
本研究では,SVHN, CIFAR10, CIFAR100, TinyImageNet など,様々なベンチマークデータセットに対して有意なマージンで新たな最先端記録を達成できることを実験的に示す。
関連論文リスト
- Hierarchical Features Matter: A Deep Exploration of GAN Priors for Improved Dataset Distillation [51.44054828384487]
階層的生成潜在蒸留(H-GLaD)と呼ばれる新しいパラメータ化法を提案する。
本手法はGAN内の階層層を系統的に探索する。
さらに,合成データセット評価に伴う計算負担を軽減するために,新しいクラス関連特徴距離尺度を導入する。
論文 参考訳(メタデータ) (2024-06-09T09:15:54Z) - Koopcon: A new approach towards smarter and less complex learning [13.053285552524052]
ビッグデータの時代、データセットの膨大な量と複雑さは、機械学習において大きな課題を引き起こします。
本稿では,クープマン演算子理論を背景とした,革新的オートエンコーダに基づくデータセット凝縮モデルを提案する。
人間の脳の予測的コーディング機構にインスパイアされた我々のモデルは、データをエンコードし再構成するための新しいアプローチを活用する。
論文 参考訳(メタデータ) (2024-05-22T17:47:14Z) - One Category One Prompt: Dataset Distillation using Diffusion Models [22.512552596310176]
本稿では,D3M(Diffusion Models)をデータセット蒸留の新たなパラダイムとして導入し,生成的テキスト・画像基盤モデルの最近の進歩を活用する。
提案手法では,テキストから画像への合成モデルを微調整する手法であるテキストインバージョンを用いて,大規模データセットの簡潔かつ情報的な表現を生成する。
論文 参考訳(メタデータ) (2024-03-11T20:23:59Z) - Improved Distribution Matching for Dataset Condensation [91.55972945798531]
本稿では,分布マッチングに基づく新しいデータセット凝縮法を提案する。
提案手法は,計算資源の少ない従来の最適化指向手法よりも優れている。
論文 参考訳(メタデータ) (2023-07-19T04:07:33Z) - Disentanglement via Latent Quantization [60.37109712033694]
本研究では,組織化された潜在空間からの符号化と復号化に向けた帰納的バイアスを構築する。
本稿では,基本データレコーダ (vanilla autoencoder) と潜時再構成 (InfoGAN) 生成モデルの両方に追加することで,このアプローチの広範な適用性を実証する。
論文 参考訳(メタデータ) (2023-05-28T06:30:29Z) - DC-BENCH: Dataset Condensation Benchmark [79.18718490863908]
この研究は、データセットの凝縮に関する最初の大規模標準ベンチマークを提供する。
それは、凝縮法の生成可能性と有効性を包括的に反映する一連の評価から成り立っている。
ベンチマークライブラリは、将来の研究とアプリケーションを容易にするためにオープンソース化されている。
論文 参考訳(メタデータ) (2022-07-20T03:54:05Z) - Neural Distributed Source Coding [59.630059301226474]
相関構造に依存せず,高次元までスケール可能な損失DSCのためのフレームワークを提案する。
提案手法は,複数のデータセット上で評価し,複雑な相関関係と最先端PSNRを扱えることを示す。
論文 参考訳(メタデータ) (2021-06-05T04:50:43Z) - Encoded Prior Sliced Wasserstein AutoEncoder for learning latent
manifold representations [0.7614628596146599]
本稿では,Encoded Prior Sliced Wasserstein AutoEncoderを紹介する。
追加のプリエンコーダネットワークは、データ多様体の埋め込みを学習する。
従来のオートエンコーダとは違って,前者はデータの基盤となる幾何を符号化する。
論文 参考訳(メタデータ) (2020-10-02T14:58:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。