論文の概要: Rectified Decoupled Dataset Distillation: A Closer Look for Fair and Comprehensive Evaluation
- arxiv url: http://arxiv.org/abs/2509.19743v1
- Date: Wed, 24 Sep 2025 03:47:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-25 20:53:19.682611
- Title: Rectified Decoupled Dataset Distillation: A Closer Look for Fair and Comprehensive Evaluation
- Title(参考訳): 改質脱カップリング型データセット蒸留 : 公正かつ包括的評価の概観
- Authors: Xinhao Zhong, Shuoyang Sun, Xulin Gu, Chenyang Zhu, Bin Chen, Yaowei Wang,
- Abstract要約: 本稿では,コンパクトな合成データセットを生成するために,Rectified Decoupled dataset Distillation (RD$3$)を提案する。
RD$3$は、将来のデータセット蒸留研究における公正かつ再現可能な比較の基礎を提供する。
- 参考スコア(独自算出の注目度): 36.444254126901065
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Dataset distillation aims to generate compact synthetic datasets that enable models trained on them to achieve performance comparable to those trained on full real datasets, while substantially reducing storage and computational costs. Early bi-level optimization methods (e.g., MTT) have shown promising results on small-scale datasets, but their scalability is limited by high computational overhead. To address this limitation, recent decoupled dataset distillation methods (e.g., SRe$^2$L) separate the teacher model pre-training from the synthetic data generation process. These methods also introduce random data augmentation and epoch-wise soft labels during the post-evaluation phase to improve performance and generalization. However, existing decoupled distillation methods suffer from inconsistent post-evaluation protocols, which hinders progress in the field. In this work, we propose Rectified Decoupled Dataset Distillation (RD$^3$), and systematically investigate how different post-evaluation settings affect test accuracy. We further examine whether the reported performance differences across existing methods reflect true methodological advances or stem from discrepancies in evaluation procedures. Our analysis reveals that much of the performance variation can be attributed to inconsistent evaluation rather than differences in the intrinsic quality of the synthetic data. In addition, we identify general strategies that improve the effectiveness of distilled datasets across settings. By establishing a standardized benchmark and rigorous evaluation protocol, RD$^3$ provides a foundation for fair and reproducible comparisons in future dataset distillation research.
- Abstract(参考訳): データセット蒸留は、トレーニングされたモデルが、フルリアルデータセットでトレーニングされたモデルに匹敵するパフォーマンスを達成し、ストレージと計算コストを大幅に削減する、コンパクトな合成データセットを生成することを目的としている。
初期の二段階最適化手法(例えば、MTT)は、小規模データセットに対して有望な結果を示しているが、そのスケーラビリティは高い計算オーバーヘッドによって制限されている。
この制限に対処するため、最近の分離データセット蒸留法(例えば、SRe$^2$L)は、教師モデルと合成データ生成プロセスとの事前学習を分離している。
これらの手法はまた、性能と一般化を改善するために、評価後の段階で、ランダムなデータ拡張とエポックなソフトラベルを導入している。
しかし, 既存の脱カップリング蒸留法は, 現場の進展を妨げる不整合後評価プロトコルに悩まされている。
本研究では,Rectified Decoupled Dataset Distillation (RD$^3$)を提案する。
さらに,既存の手法間で報告された性能差が,真の方法論的進歩を反映しているか,評価手順の相違から生じるのかについても検討する。
分析の結果,合成データの本質的品質の違いよりも,性能のばらつきが不整合性評価に起因していることが判明した。
さらに, 蒸留データセットの有効性を高めるための一般的な戦略を, 設定毎に同定する。
RD$^3$は、標準化されたベンチマークと厳密な評価プロトコルを確立することにより、将来のデータセット蒸留研究における公正かつ再現可能な比較の基礎を提供する。
関連論文リスト
- DD-Ranking: Rethinking the Evaluation of Dataset Distillation [314.9621366437238]
本稿では,統合評価フレームワークであるDD-Rankingと,異なる手法によって達成された真の性能改善を明らかにするための新しい総合評価指標を提案する。
DD-Rankingは、蒸留データセットの実際の情報強化に再焦点をあてることで、将来の研究の進展に対してより包括的で公正な評価基準を提供する。
論文 参考訳(メタデータ) (2025-05-19T16:19:50Z) - Dataset Distillation via Committee Voting [21.018818924580877]
我々は$bf C$ommittee $bf V$oting for $bf D$ataset $bf D$istillation (CV-DD)を紹介する。
CV-DDは、複数のモデルや専門家の集合知を利用して高品質な蒸留データセットを作成する新しいアプローチである。
論文 参考訳(メタデータ) (2025-01-13T18:59:48Z) - Generative Dataset Distillation Based on Self-knowledge Distillation [49.20086587208214]
本稿では,予測ロジットの整列精度を向上させる新しい生成データセット蒸留法を提案する。
本手法は, 合成データと原データとのより正確な分布マッチングを実現するために, 自己知識蒸留を統合したものである。
提案手法は, 既存の最先端手法より優れており, 蒸留性能が良好である。
論文 参考訳(メタデータ) (2025-01-08T00:43:31Z) - Importance-Aware Adaptive Dataset Distillation [53.79746115426363]
ディープラーニングモデルの開発は、大規模データセットの可用性によって実現されている。
データセットの蒸留は、大きな元のデータセットから必須情報を保持するコンパクトなデータセットを合成することを目的としている。
本稿では, 蒸留性能を向上する重要適応型データセット蒸留(IADD)法を提案する。
論文 参考訳(メタデータ) (2024-01-29T03:29:39Z) - AST: Effective Dataset Distillation through Alignment with Smooth and
High-Quality Expert Trajectories [18.266786462036553]
我々は,Smoothと高品質なエキスパートトラジェクトリによるアライメントのための効果的なDDフレームワークASTを提案する。
さまざまなスケール、サイズ、解像度のデータセットに対して、広範な実験を行います。
論文 参考訳(メタデータ) (2023-10-16T16:13:53Z) - Minimizing the Accumulated Trajectory Error to Improve Dataset
Distillation [151.70234052015948]
本稿では,フラットな軌道を求める最適化アルゴリズムを提案する。
合成データに基づいてトレーニングされた重みは、平坦な軌道への正規化を伴う累積誤差摂動に対して頑健であることを示す。
本手法はFTD (Flat Trajectory Distillation) と呼ばれ, 勾配整合法の性能を最大4.7%向上させる。
論文 参考訳(メタデータ) (2022-11-20T15:49:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。