論文の概要: Towards Principled Dataset Distillation: A Spectral Distribution Perspective
- arxiv url: http://arxiv.org/abs/2603.01698v1
- Date: Mon, 02 Mar 2026 10:26:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.815137
- Title: Towards Principled Dataset Distillation: A Spectral Distribution Perspective
- Title(参考訳): 原理的データセット蒸留に向けて:スペクトル分布の観点から
- Authors: Ruixi Wu, Shaobo Wang, Jiahuan Chen, Zhiyuan Liu, Yicun Yang, Zhaorun Chen, Zekai Li, Kaixin Li, Xinming Wang, Hongzhu Yi, Kai Wang, Linfeng Zhang,
- Abstract要約: 本稿では,カーネル関数のスペクトルを用いて分布アライメントを再構成する,MCSD(Class-Aware Spectral Distribution Matching)を提案する。
CIFAR-10-LTでは、クラス毎に10のイメージを持つCSDMは、最先端DD法よりも14.0%改善され、テールクラスの画像数が減少すると5.7%のパフォーマンス低下しか得られない。
- 参考スコア(独自算出の注目度): 29.986767000752753
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Dataset distillation (DD) aims to compress large-scale datasets into compact synthetic counterparts for efficient model training. However, existing DD methods exhibit substantial performance degradation on long-tailed datasets. We identify two fundamental challenges: heuristic design choices for distribution discrepancy measure and uniform treatment of imbalanced classes. To address these limitations, we propose Class-Aware Spectral Distribution Matching (CSDM), which reformulates distribution alignment via the spectrum of a well-behaved kernel function. This technique maps the original samples into frequency space, resulting in the Spectral Distribution Distance (SDD). To mitigate class imbalance, we exploit the unified form of SDD to perform amplitude-phase decomposition, which adaptively prioritizes the realism in tail classes. On CIFAR-10-LT, with 10 images per class, CSDM achieves a 14.0% improvement over state-of-the-art DD methods, with only a 5.7% performance drop when the number of images in tail classes decreases from 500 to 25, demonstrating strong stability on long-tailed data.
- Abstract(参考訳): データセット蒸留(DD)は、大規模なデータセットをコンパクトな合成データセットに圧縮し、効率的なモデルトレーニングを実現することを目的としている。
しかし、既存のDD法は、長い尾のデータセットでかなりの性能劣化を示す。
分布不一致尺度に対するヒューリスティックな設計選択と、不均衡なクラスに対する一様処理の2つの基本的な課題を同定する。
これらの制約に対処するため,よく知られたカーネル関数のスペクトルを用いて分布アライメントを再構成するCSDM(Class-Aware Spectral Distribution Matching)を提案する。
この技術は、元のサンプルを周波数空間にマッピングし、スペクトル分布距離(SDD)を導出する。
クラス不均衡を軽減するために、SDDの統一形式を利用して振幅位相分解を行い、テールクラスのリアリズムを適応的に優先順位付けする。
CIFAR-10-LTでは、クラス毎に10のイメージを持つCSDMは、最先端DD法よりも14.0%改善され、尾クラスの画像数が500から25に減少するとパフォーマンスが5.7%低下した。
関連論文リスト
- CoDA: From Text-to-Image Diffusion Models to Training-Free Dataset Distillation [71.52209438343928]
コア分散アライメント(Core Distribution Alignment, CoDA)は、市販のテキスト・ツー・イメージモデルのみを使用して効果的な蒸留(DD)を可能にするフレームワークである。
私たちのキーとなるアイデアは、まず、ロバストな密度ベースの発見メカニズムを使用して、ターゲットデータセットの"固有のコア分布"を識別することです。
そうすることで、CoDAは汎用的な生成先行とターゲットセマンティクスのギャップを効果的に埋める。
論文 参考訳(メタデータ) (2025-12-03T14:45:57Z) - TGDD: Trajectory Guided Dataset Distillation with Balanced Distribution [22.720901808326122]
動的アライメントプロセスとして分布マッチングを再構成するトラジェクトリガイド付きデータセット蒸留(TGDD)を提案する。
各トレーニング段階では、TGDDは、合成データセットと元のデータセットの間の特徴分布を調整することによって、進化的なセマンティクスをキャプチャする。
10つのデータセットの実験では、TGDDは最先端のパフォーマンスを達成しており、特に高解像度のベンチマークでは5.0%の精度が向上している。
論文 参考訳(メタデータ) (2025-12-02T07:00:07Z) - Rethinking Long-tailed Dataset Distillation: A Uni-Level Framework with Unbiased Recovery and Relabeling [105.8570596633629]
トラジェクトリに基づく手法の限界を再考することにより,長い尾のデータセット蒸留を再考する。
統計的アライメントの観点からバイアスをモデル化し、公正な監督を復元する。
提案手法は,CIFAR-100-LTで15.6%,Tiny-ImageNet-LTで11.8%向上する。
論文 参考訳(メタデータ) (2025-11-24T07:57:01Z) - Rectifying Soft-Label Entangled Bias in Long-Tailed Dataset Distillation [39.47633542394261]
長期データセット蒸留におけるソフトラベルの重要性を強調した。
蒸留データセットで学習したモデルに対して,不均衡を考慮した一般化を導出する。
次に, 蒸留モデルと蒸留画像から得られた2つのソフトラベルバイアス源を同定した。
本稿では,Adaptive Soft-label Alignmentモジュールとして,絡み合ったバイアスを校正するADSAを提案する。
論文 参考訳(メタデータ) (2025-11-22T04:37:27Z) - Hyperbolic Dataset Distillation [44.63243875072762]
本稿では,新しいハイパーボリックデータセット蒸留法を提案する。
ハイパーボリック空間におけるプルーニングは, モデル性能を維持するため, 蒸留コアセットの20%しか必要としないことがわかった。
これは、双曲空間をデータセット蒸留プロセスに組み込む最初の研究である。
論文 参考訳(メタデータ) (2025-05-30T14:14:00Z) - Dataset Distillation as Pushforward Optimal Quantization [2.5892916589735457]
そこで本研究では,実データ上での学習に類似した性能を,桁違いに少ない計算量で実現した合成トレーニングセットを提案する。
特に、既存の非絡み合ったデータセット蒸留法を古典的最適量子化とワッサーシュタインのバリセンタ問題にリンクする。
我々は,ImageNet-1Kデータセットの性能向上とモデル間一般化を,より簡単な追加計算で実現し,より高階のイメージ・パー・クラス・セッティングにおけるSOTA性能を向上する。
論文 参考訳(メタデータ) (2025-01-13T20:41:52Z) - Class-Balancing Diffusion Models [57.38599989220613]
クラスバランシング拡散モデル(CBDM)は、分散調整正規化器をソリューションとして訓練する。
提案手法は,CIFAR100/CIFAR100LTデータセットで生成結果をベンチマークし,下流認識タスクにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2023-04-30T20:00:14Z) - Improving GANs for Long-Tailed Data through Group Spectral
Regularization [51.58250647277375]
本稿では, スペクトル爆発によるモード崩壊を防止する新しいグループスペクトル正規化器 (gSR) を提案する。
我々は,gSRが既存の拡張および正規化技術と効果的に組み合わせることで,長期化データ上での最先端の画像生成性能が向上することを発見した。
論文 参考訳(メタデータ) (2022-08-21T17:51:05Z) - Scale-Equivalent Distillation for Semi-Supervised Object Detection [57.59525453301374]
近年のSemi-Supervised Object Detection (SS-OD) 法は主に自己学習に基づいており、教師モデルにより、ラベルなしデータを監視信号としてハードな擬似ラベルを生成する。
実験結果から,これらの手法が直面する課題を分析した。
本稿では,大規模オブジェクトサイズの分散とクラス不均衡に頑健な簡易かつ効果的なエンド・ツー・エンド知識蒸留フレームワークであるSED(Scale-Equivalent Distillation)を提案する。
論文 参考訳(メタデータ) (2022-03-23T07:33:37Z) - Fine-grained Data Distribution Alignment for Post-Training Quantization [100.82928284439271]
学習後量子化の性能を高めるために,データ分散アライメント(FDDA)法を提案する。
提案手法は,特に第1層と第2層が低ビットに量子化されている場合,ImageNet上での最先端性能を示す。
論文 参考訳(メタデータ) (2021-09-09T11:45:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。