論文の概要: Hierarchical Features Matter: A Deep Exploration of GAN Priors for Improved Dataset Distillation
- arxiv url: http://arxiv.org/abs/2406.05704v2
- Date: Wed, 12 Jun 2024 11:11:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-13 11:18:52.621640
- Title: Hierarchical Features Matter: A Deep Exploration of GAN Priors for Improved Dataset Distillation
- Title(参考訳): 階層的特徴: 改良されたデータセット蒸留のためのGAN事前探索
- Authors: Xinhao Zhong, Hao Fang, Bin Chen, Xulin Gu, Tao Dai, Meikang Qiu, Shu-Tao Xia,
- Abstract要約: 階層的生成潜在蒸留(H-GLaD)と呼ばれる新しいパラメータ化法を提案する。
本手法はGAN内の階層層を系統的に探索する。
さらに,合成データセット評価に伴う計算負担を軽減するために,新しいクラス関連特徴距離尺度を導入する。
- 参考スコア(独自算出の注目度): 51.44054828384487
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Dataset distillation is an emerging dataset reduction method, which condenses large-scale datasets while maintaining task accuracy. Current methods have integrated parameterization techniques to boost synthetic dataset performance by shifting the optimization space from pixel to another informative feature domain. However, they limit themselves to a fixed optimization space for distillation, neglecting the diverse guidance across different informative latent spaces. To overcome this limitation, we propose a novel parameterization method dubbed Hierarchical Generative Latent Distillation (H-GLaD), to systematically explore hierarchical layers within the generative adversarial networks (GANs). This allows us to progressively span from the initial latent space to the final pixel space. In addition, we introduce a novel class-relevant feature distance metric to alleviate the computational burden associated with synthetic dataset evaluation, bridging the gap between synthetic and original datasets. Experimental results demonstrate that the proposed H-GLaD achieves a significant improvement in both same-architecture and cross-architecture performance with equivalent time consumption.
- Abstract(参考訳): データセット蒸留は、タスク精度を維持しながら大規模データセットを凝縮する、新たなデータセット削減手法である。
現在の手法は、最適化空間をピクセルから他の情報的特徴領域にシフトさせることで、合成データセットのパフォーマンスを向上させるために、パラメータ化技術を統合している。
しかし、これらは蒸留のための固定された最適化空間に制限され、様々な情報的潜在空間にわたる多様なガイダンスを無視している。
この制限を克服するために,GAN内の階層層を体系的に探索する階層的生成遅延蒸留(H-GLaD)と呼ばれる新しいパラメータ化手法を提案する。
これにより、初期潜在空間から最終ピクセル空間へ徐々に広がることができる。
さらに,合成データセット評価に伴う計算負担を軽減し,合成データセットとオリジナルデータセットのギャップを埋めるために,新しいクラス関連特徴距離尺度を導入する。
実験結果から,提案したH-GLaDは同一アーキテクチャと相互アーキテクチャの両方の性能を同等の時間消費で向上することが示された。
関連論文リスト
- D$^4$M: Dataset Distillation via Disentangled Diffusion Model [4.568710926635445]
遠方拡散モデル(D$4$M)によるデータセット蒸留のための効率的なフレームワークを提案する。
アーキテクチャに依存した手法と比較して、D$4$Mは一貫性を保証するために遅延拡散モデルを採用し、ラベル情報をカテゴリのプロトタイプに組み込む。
D$4$Mは優れた性能とロバストな一般化を示し、多くの面においてSOTAメソッドを上回っている。
論文 参考訳(メタデータ) (2024-07-21T12:16:20Z) - Importance-Aware Adaptive Dataset Distillation [53.79746115426363]
ディープラーニングモデルの開発は、大規模データセットの可用性によって実現されている。
データセットの蒸留は、大きな元のデータセットから必須情報を保持するコンパクトなデータセットを合成することを目的としている。
本稿では, 蒸留性能を向上する重要適応型データセット蒸留(IADD)法を提案する。
論文 参考訳(メタデータ) (2024-01-29T03:29:39Z) - Sequential Subset Matching for Dataset Distillation [44.322842898670565]
我々はSeqMatch(Sequential Subset Matching)と呼ばれる新しいデータセット蒸留戦略を提案する。
解析の結果,SeqMatchは合成インスタンスを逐次生成することで,結合問題に効果的に対処できることが示唆された。
私たちのコードはhttps://github.com/shqii1j/seqmatch.comから入手可能です。
論文 参考訳(メタデータ) (2023-11-02T19:49:11Z) - Improved Distribution Matching for Dataset Condensation [91.55972945798531]
本稿では,分布マッチングに基づく新しいデータセット凝縮法を提案する。
提案手法は,計算資源の少ない従来の最適化指向手法よりも優れている。
論文 参考訳(メタデータ) (2023-07-19T04:07:33Z) - Generalizing Dataset Distillation via Deep Generative Prior [75.9031209877651]
本稿では,データセット全体の知識をいくつかの合成画像に抽出することを提案する。
このアイデアは、学習アルゴリズムにトレーニングデータとして与えられる少数の合成データポイントを合成し、結果として元のデータに基づいてトレーニングされたデータを近似するモデルを構築する。
生成モデルの潜在空間における複数の中間特徴ベクトルに多数の画像を蒸留する新しい最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-05-02T17:59:31Z) - Minimizing the Accumulated Trajectory Error to Improve Dataset
Distillation [151.70234052015948]
本稿では,フラットな軌道を求める最適化アルゴリズムを提案する。
合成データに基づいてトレーニングされた重みは、平坦な軌道への正規化を伴う累積誤差摂動に対して頑健であることを示す。
本手法はFTD (Flat Trajectory Distillation) と呼ばれ, 勾配整合法の性能を最大4.7%向上させる。
論文 参考訳(メタデータ) (2022-11-20T15:49:11Z) - Dataset Distillation via Factorization [58.8114016318593]
既存のデータセット蒸留(DD)ベースラインに移植可能なプラグ・アンド・プレイ戦略であるEmphHaBaと呼ばれるEmphdataset Factorizationアプローチを導入する。
emphHaBaは、データセットをデータemphHallucinationネットワークとemphBaseの2つのコンポーネントに分解する方法を探っている。
提案手法は, 圧縮パラメータの総数を最大65%削減しつつ, 下流の分類タスクを従来に比べて大幅に改善することができる。
論文 参考訳(メタデータ) (2022-10-30T08:36:19Z) - Dataset Condensation via Efficient Synthetic-Data Parameterization [40.56817483607132]
大量のデータを持つ機械学習は、膨大な計算コストと、トレーニングとチューニングのためのストレージの価格が伴う。
データセットの凝縮に関する最近の研究は、コンパクトなトレーニングデータセットを合成することで、そのような大量のデータへの依存を減らそうとしている。
本稿では,データ規則性を考慮した効率的なパラメータ化により,ストレージ予算に制限のある複数の合成データを生成する,新しい凝縮フレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-30T09:55:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。