論文の概要: Dataset Distillation in Latent Space
- arxiv url: http://arxiv.org/abs/2311.15547v1
- Date: Mon, 27 Nov 2023 05:23:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-28 17:04:32.492283
- Title: Dataset Distillation in Latent Space
- Title(参考訳): 潜在空間におけるデータセット蒸留
- Authors: Yuxuan Duan, Jianfu Zhang, Liqing Zhang
- Abstract要約: データセットの蒸留は、大規模なデータセットのトレーニングモデルにおける重い計算負荷を軽減することを目的とした、新たな研究領域である。
既存のDDメソッドの性能と可用性を損なう3つの主要な問題は、高時間複雑さ、高空間複雑さ、低情報互換性である。
本研究では,従来の画素空間から潜在空間へのDDプロセスの移動により,これらの3つの問題を同時に解決しようとする。
同様の性能を実現しつつ、時間と空間の消費を著しく削減し、従来の手法が失敗したような高解像度のデータセットやターゲットを蒸留することができる。
- 参考スコア(独自算出の注目度): 19.92437393886031
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dataset distillation (DD) is a newly emerging research area aiming at
alleviating the heavy computational load in training models on large datasets.
It tries to distill a large dataset into a small and condensed one so that
models trained on the distilled dataset can perform comparably with those
trained on the full dataset when performing downstream tasks. Among the
previous works in this area, there are three key problems that hinder the
performance and availability of the existing DD methods: high time complexity,
high space complexity, and low info-compactness. In this work, we
simultaneously attempt to settle these three problems by moving the DD
processes from conventionally used pixel space to latent space. Encoded by a
pretrained generic autoencoder, latent codes in the latent space are naturally
info-compact representations of the original images in much smaller sizes.
After transferring three mainstream DD algorithms to latent space, we
significantly reduce time and space consumption while achieving similar
performance, allowing us to distill high-resolution datasets or target at
greater data ratio that previous methods have failed. Besides, within the same
storage budget, we can also quantitatively deliver more latent codes than
pixel-level images, which further boosts the performance of our methods.
- Abstract(参考訳): データセット蒸留(DD)は、大規模データセットのトレーニングモデルにおける重い計算負荷を軽減することを目的とした、新たな研究分野である。
大規模なデータセットを小さく凝縮したデータセットに蒸留し、蒸留データセットでトレーニングされたモデルが、下流タスクを実行する際に、フルデータセットでトレーニングされたモデルと互換性のある実行を可能にする。
この領域におけるこれまでの研究の中で、既存のDDメソッドの性能と可用性を妨げる3つの重要な問題がある。
本研究では,従来の画素空間から潜在空間へのDDプロセスの移動により,これらの3つの問題を同時に解決しようとする。
事前訓練された汎用オートエンコーダによって符号化された潜時空間の潜時符号は、非常に小さなサイズで原画像のインフォコンパクト表現である。
3つの主要なDDアルゴリズムを遅延空間に転送した後、同様の性能を実現しながら時間と空間消費を著しく削減し、従来の手法が失敗したような高解像度のデータセットやターゲットを蒸留することができる。
また、同じストレージ予算内では、ピクセルレベルの画像よりも遅延符号を定量的に提供できるため、メソッドのパフォーマンスがさらに向上する。
関連論文リスト
- The Devil is in the Details: Simple Remedies for Image-to-LiDAR Representation Learning [21.088879084249328]
我々は、空間的および時間的軸に沿って見過ごされた設計選択に焦点を当てる。
基本設計要素、例えばLiDAR座標系、既存の入力インタフェースによる量子化は、損失関数の開発よりも重要である。
論文 参考訳(メタデータ) (2025-01-16T11:44:29Z) - Hierarchical Features Matter: A Deep Exploration of GAN Priors for Improved Dataset Distillation [51.44054828384487]
階層的生成潜在蒸留(H-GLaD)と呼ばれる新しいパラメータ化法を提案する。
本手法はGAN内の階層層を系統的に探索する。
さらに,合成データセット評価に伴う計算負担を軽減するために,新しいクラス関連特徴距離尺度を導入する。
論文 参考訳(メタデータ) (2024-06-09T09:15:54Z) - One Category One Prompt: Dataset Distillation using Diffusion Models [22.512552596310176]
本稿では,D3M(Diffusion Models)をデータセット蒸留の新たなパラダイムとして導入し,生成的テキスト・画像基盤モデルの最近の進歩を活用する。
提案手法では,テキストから画像への合成モデルを微調整する手法であるテキストインバージョンを用いて,大規模データセットの簡潔かつ情報的な表現を生成する。
論文 参考訳(メタデータ) (2024-03-11T20:23:59Z) - Dataset Quantization [72.61936019738076]
大規模データセットを小さなサブセットに圧縮する新しいフレームワークであるデータセット量子化(DQ)を提案する。
DQは、ImageNet-1kのような大規模データセットを最先端圧縮比で蒸留する最初の方法である。
論文 参考訳(メタデータ) (2023-08-21T07:24:29Z) - Improved Distribution Matching for Dataset Condensation [91.55972945798531]
本稿では,分布マッチングに基づく新しいデータセット凝縮法を提案する。
提案手法は,計算資源の少ない従来の最適化指向手法よりも優れている。
論文 参考訳(メタデータ) (2023-07-19T04:07:33Z) - Dataset Distillation: A Comprehensive Review [76.26276286545284]
データセット蒸留(DD)は、トレーニングされたモデルが元のデータセットでトレーニングされたデータセットに匹敵するパフォーマンスを得るために、合成サンプルを含むはるかに小さなデータセットを導出することを目的としている。
本稿ではDDの最近の進歩とその応用について概説する。
論文 参考訳(メタデータ) (2023-01-17T17:03:28Z) - A Comprehensive Survey of Dataset Distillation [73.15482472726555]
限られた計算能力で無制限に成長するデータを扱うことは困難になっている。
ディープラーニング技術はこの10年で前例のない発展を遂げた。
本稿では,多面的なデータセット蒸留の総合的な理解を提供する。
論文 参考訳(メタデータ) (2023-01-13T15:11:38Z) - Dataset Condensation with Latent Space Knowledge Factorization and
Sharing [73.31614936678571]
与えられたデータセットの規則性を利用してデータセットの凝縮問題を解決する新しい手法を提案する。
データセットを元の入力空間に直接凝縮するのではなく、学習可能な一連のコードでデータセットの生成プロセスを仮定する。
提案手法は,様々なベンチマークデータセットに対して,有意なマージンで新しい最先端記録を達成できることを実験的に示す。
論文 参考訳(メタデータ) (2022-08-21T18:14:08Z) - A Method to Generate High Precision Mesh Model and RGB-D Datasetfor 6D
Pose Estimation Task [10.24919213221012]
本稿では, 高速, 高精度, 堅牢性を考慮したオブジェクト再構成手法を提案する。
私たちのデータはレンダリングデータに近いので、実際のデータと合成データのギャップをさらに縮めることができます。
論文 参考訳(メタデータ) (2020-11-17T16:56:57Z) - PILArNet: Public Dataset for Particle Imaging Liquid Argon Detectors in
High Energy Physics [0.0]
PILArNetは、最初の2Dおよび3Dオープンデータセットで、いくつかの重要な分析タスクに使用される。
データセットには、シミュレーションされた30万のサンプルが含まれ、3つの異なるボリュームサイズで記録されている。
体積のシミュレーション粒子に関する補助情報を備えたスパース2Dおよび3Dマトリックス形式で効率よく保存される。
論文 参考訳(メタデータ) (2020-06-03T00:36:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。