論文の概要: Dataset Distillation with Probabilistic Latent Features
- arxiv url: http://arxiv.org/abs/2505.06647v2
- Date: Sat, 17 May 2025 11:28:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 12:45:56.115517
- Title: Dataset Distillation with Probabilistic Latent Features
- Title(参考訳): 確率的潜在特徴を持つデータセット蒸留
- Authors: Zhe Li, Sarah Cechnicka, Cheng Ouyang, Katharina Breininger, Peter Schüffler, Bernhard Kainz,
- Abstract要約: 合成データのコンパクトなセットは、下流の分類タスクにおける元のデータセットを効果的に置き換えることができる。
本稿では,潜在特徴の共分散をモデル化する新しい手法を提案する。
提案手法は,バックボーンアーキテクチャにまたがる最先端のクロスアーキテクチャ性能を実現する。
- 参考スコア(独自算出の注目度): 9.318549327568695
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: As deep learning models grow in complexity and the volume of training data increases, reducing storage and computational costs becomes increasingly important. Dataset distillation addresses this challenge by synthesizing a compact set of synthetic data that can effectively replace the original dataset in downstream classification tasks. While existing methods typically rely on mapping data from pixel space to the latent space of a generative model, we propose a novel stochastic approach that models the joint distribution of latent features. This allows our method to better capture spatial structures and produce diverse synthetic samples, which benefits model training. Specifically, we introduce a low-rank multivariate normal distribution parameterized by a lightweight network. This design maintains low computational complexity and is compatible with various matching networks used in dataset distillation. After distillation, synthetic images are generated by feeding the learned latent features into a pretrained generator. These synthetic images are then used to train classification models, and performance is evaluated on real test set. We validate our method on several benchmarks, including ImageNet subsets, CIFAR-10, and the MedMNIST histopathological dataset. Our approach achieves state-of-the-art cross architecture performance across a range of backbone architectures, demonstrating its generality and effectiveness.
- Abstract(参考訳): ディープラーニングモデルが複雑化し、トレーニングデータの量が増加するにつれて、ストレージと計算コストの削減がますます重要になる。
データセット蒸留は、下流の分類タスクにおける元のデータセットを効果的に置き換えることのできる、コンパクトな合成データの集合を合成することで、この課題に対処する。
既存の手法は、通常、画素空間から生成モデルの潜在空間へのマッピングデータに依存するが、潜在特徴の結合分布をモデル化する新しい確率的アプローチを提案する。
これにより、空間構造をよりよく捉え、多様な合成サンプルを作成でき、モデルトレーニングの恩恵を受けることができる。
具体的には、軽量ネットワークによってパラメータ化された低ランクな多変量正規分布を導入する。
この設計は計算複雑性を低く保ち、データセットの蒸留に使われる様々なマッチングネットワークと互換性がある。
蒸留後、学習した潜伏特徴を予め訓練された発電機に供給することにより合成画像を生成する。
これらの合成画像は、分類モデルを訓練するために使用され、実際のテストセットで性能を評価する。
我々は、ImageNetサブセット、CIFAR-10、MedMNIST組織学的データセットなど、いくつかのベンチマークで手法を検証する。
提案手法は,様々なバックボーンアーキテクチャにおける最先端のクロスアーキテクチャ性能を実現し,その汎用性と有効性を示す。
関連論文リスト
- Feature-to-Image Data Augmentation: Improving Model Feature Extraction with Cluster-Guided Synthetic Samples [4.041834517339835]
本研究ではFICAugを紹介した。FICAugは機能間データ拡張フレームワークである。
構造化された合成サンプルを生成することにより、限られたデータ条件下でのモデル一般化を改善するように設計されている。
実験の結果, FICAugは分類精度を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2024-09-26T09:51:08Z) - Diversity-Driven Synthesis: Enhancing Dataset Distillation through Directed Weight Adjustment [39.137060714048175]
多様性の向上は、データセットを合成するための並列化可能であるが孤立したアプローチを改善することができる、と我々は主張する。
本稿では,動的かつ指向的な重み調整技術を用いて合成過程を変調する新しい手法を提案する。
提案手法は,合成データの各バッチが,元のデータセットの大規模かつ多様なサブセットの特徴を反映していることを保証する。
論文 参考訳(メタデータ) (2024-09-26T08:03:19Z) - Dataset Distillation for Histopathology Image Classification [46.04496989951066]
病理画像データセット(Histo-DD)に適した新しいデータセット蒸留アルゴリズムを提案する。
提案アルゴリズムの有効性を総合的に評価し, パッチレベルとスライドレベルの両方の分類タスクにおいて, 組織学的サンプルを生成する。
論文 参考訳(メタデータ) (2024-08-19T05:53:38Z) - Distribution-Aware Data Expansion with Diffusion Models [55.979857976023695]
本研究では,分散型拡散モデルに基づくトレーニングフリーなデータ拡張フレームワークであるDistDiffを提案する。
DistDiffは、オリジナルデータのみにトレーニングされたモデルと比較して、さまざまなデータセットの精度を一貫して向上させる。
論文 参考訳(メタデータ) (2024-03-11T14:07:53Z) - Generalizing Dataset Distillation via Deep Generative Prior [75.9031209877651]
本稿では,データセット全体の知識をいくつかの合成画像に抽出することを提案する。
このアイデアは、学習アルゴリズムにトレーニングデータとして与えられる少数の合成データポイントを合成し、結果として元のデータに基づいてトレーニングされたデータを近似するモデルを構築する。
生成モデルの潜在空間における複数の中間特徴ベクトルに多数の画像を蒸留する新しい最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-05-02T17:59:31Z) - Minimizing the Accumulated Trajectory Error to Improve Dataset
Distillation [151.70234052015948]
本稿では,フラットな軌道を求める最適化アルゴリズムを提案する。
合成データに基づいてトレーニングされた重みは、平坦な軌道への正規化を伴う累積誤差摂動に対して頑健であることを示す。
本手法はFTD (Flat Trajectory Distillation) と呼ばれ, 勾配整合法の性能を最大4.7%向上させる。
論文 参考訳(メタデータ) (2022-11-20T15:49:11Z) - CAFE: Learning to Condense Dataset by Aligning Features [72.99394941348757]
本稿ではCAFE(Aligning features)によるCondenseデータセットの新しいスキームを提案する。
このアプローチの核心は、さまざまなスケールにわたる実データと合成データから機能を整合させる効果的な戦略です。
提案したCAFEを様々なデータセットで検証し,概ね最先端技術であることを示す。
論文 参考訳(メタデータ) (2022-03-03T05:58:49Z) - Dataset Condensation with Gradient Matching [36.14340188365505]
本研究では,大規模なデータセットを,深層ニューラルネットワークをスクラッチからトレーニングするための情報的合成サンプルの小さなセットに凝縮させることを学習する,データセット凝縮という,データ効率のよい学習のためのトレーニングセット合成手法を提案する。
いくつかのコンピュータビジョンベンチマークでその性能を厳格に評価し、最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-06-10T16:30:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。