論文の概要: Utility Boundary of Dataset Distillation: Scaling and Configuration-Coverage Laws
- arxiv url: http://arxiv.org/abs/2512.05817v1
- Date: Fri, 05 Dec 2025 15:37:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-13 22:40:57.085207
- Title: Utility Boundary of Dataset Distillation: Scaling and Configuration-Coverage Laws
- Title(参考訳): データセット蒸留の実用性境界:スケーリングと構成管理法
- Authors: Zhengquan Luo, Zhiqiang Xu,
- Abstract要約: トレーニング設定を変更すると、どのような条件で蒸留データが完全なデータセットの有効性を維持することができるのかは不明だ。
本稿では,共通一般化・エラーの観点から主要なDDアプローチを再構成する,構成-構成-エラー解析と呼ばれる統一的理論フレームワークを提案する。
解析により, 種々のマッチング手法が交換可能なサロゲートであり, 同じ一般化誤差を低減し, なぜこれらがすべてデータセット蒸留を達成できるかを明らかにした。
- 参考スコア(独自算出の注目度): 6.172966466468818
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Dataset distillation (DD) aims to construct compact synthetic datasets that allow models to achieve comparable performance to full-data training while substantially reducing storage and computation. Despite rapid empirical progress, its theoretical foundations remain limited: existing methods (gradient, distribution, trajectory matching) are built on heterogeneous surrogate objectives and optimization assumptions, which makes it difficult to analyze their common principles or provide general guarantees. Moreover, it is still unclear under what conditions distilled data can retain the effectiveness of full datasets when the training configuration, such as optimizer, architecture, or augmentation, changes. To answer these questions, we propose a unified theoretical framework, termed configuration--dynamics--error analysis, which reformulates major DD approaches under a common generalization-error perspective and provides two main results: (i) a scaling law that provides a single-configuration upper bound, characterizing how the error decreases as the distilled sample size increases and explaining the commonly observed performance saturation effect; and (ii) a coverage law showing that the required distilled sample size scales linearly with configuration diversity, with provably matching upper and lower bounds. In addition, our unified analysis reveals that various matching methods are interchangeable surrogates, reducing the same generalization error, clarifying why they can all achieve dataset distillation and providing guidance on how surrogate choices affect sample efficiency and robustness. Experiments across diverse methods and configurations empirically confirm the derived laws, advancing a theoretical foundation for DD and enabling theory-driven design of compact, configuration-robust dataset distillation.
- Abstract(参考訳): データセット蒸留(DD)は、モデルが完全データトレーニングに匹敵するパフォーマンスを達成し、ストレージと計算を大幅に削減できるような、コンパクトな合成データセットを構築することを目的としている。
既存の方法(漸進的、分布的、軌道整合性)は、不均一なサロゲートの目的と最適化の仮定に基づいて構築されており、共通原理の分析や一般的な保証の提供が困難である。
さらに、オプティマイザやアーキテクチャ、拡張といったトレーニング設定が変更された場合、どのような条件で蒸留データが完全なデータセットの有効性を維持することができるのかは、いまだ不明である。
これらの疑問に答えるために、我々は、共通一般化・エラーの観点から主要なDDアプローチを再構成し、次の2つの主要な結果をもたらす、構成-力学-エラー分析と呼ばれる統一された理論的枠組みを提案する。
一 単一の構成上限を提供するスケーリング法であって、蒸留した試料の大きさが大きくなるにつれてエラーが減少し、よく観察される性能飽和効果を説明すること。
(II) 必要な蒸留試料サイズは, 構成の多様性とともに線形にスケールし, 上境界と下限が一致していることを示すカバレッジ法。
さらに, 種々のマッチング手法が交換可能なサロゲートであり, 同じ一般化誤差を低減し, それぞれがデータセット蒸留を達成できる理由を明らかにし, サロゲート選択がサンプル効率とロバスト性に与える影響についてガイダンスを提供する。
様々な方法や構成に関する実験は、導出法則を実証的に検証し、DDの理論基盤を前進させ、コンパクトでロバストなデータセット蒸留の理論駆動設計を可能にした。
関連論文リスト
- Nonparametric Data Attribution for Diffusion Models [57.820618036556084]
生成モデルのデータ属性は、個々のトレーニング例がモデル出力に与える影響を定量化する。
生成画像とトレーニング画像のパッチレベルの類似性によって影響を測定する非パラメトリック属性法を提案する。
論文 参考訳(メタデータ) (2025-10-16T03:37:16Z) - Diffusion Bridge or Flow Matching? A Unifying Framework and Comparative Analysis [57.614436689939986]
拡散ブリッジとフローマッチングは、任意の分布間の変換において魅力的な経験的性能を示した。
我々は,これらのフレームワークを最適制御のレンズを通して再キャストし,拡散橋のコスト関数が低いことを証明した。
これらの理論的主張を裏付けるために,潜伏変圧器上に構築された拡散橋の新しい強力なアーキテクチャを提案する。
論文 参考訳(メタデータ) (2025-09-29T09:45:22Z) - Rectified Decoupled Dataset Distillation: A Closer Look for Fair and Comprehensive Evaluation [36.444254126901065]
本稿では,コンパクトな合成データセットを生成するために,Rectified Decoupled dataset Distillation (RD$3$)を提案する。
RD$3$は、将来のデータセット蒸留研究における公正かつ再現可能な比較の基礎を提供する。
論文 参考訳(メタデータ) (2025-09-24T03:47:04Z) - Partial Transportability for Domain Generalization [56.37032680901525]
本稿では, 部分的同定と輸送可能性の理論に基づいて, 対象分布の関数値の有界化に関する新たな結果を紹介する。
我々の貢献は、輸送可能性問題に対する最初の一般的な評価手法を提供することである。
本稿では,スケーラブルな推論を実現するための勾配に基づく最適化手法を提案する。
論文 参考訳(メタデータ) (2025-03-30T22:06:37Z) - Dataset Distillation as Pushforward Optimal Quantization [2.5892916589735457]
そこで本研究では,実データ上での学習に類似した性能を,桁違いに少ない計算量で実現した合成トレーニングセットを提案する。
特に、既存の非絡み合ったデータセット蒸留法を古典的最適量子化とワッサーシュタインのバリセンタ問題にリンクする。
我々は,ImageNet-1Kデータセットの性能向上とモデル間一般化を,より簡単な追加計算で実現し,より高階のイメージ・パー・クラス・セッティングにおけるSOTA性能を向上する。
論文 参考訳(メタデータ) (2025-01-13T20:41:52Z) - Not All Samples Should Be Utilized Equally: Towards Understanding and Improving Dataset Distillation [57.6797306341115]
我々は,サンプル難易度の観点から,マッチングに基づくDD手法の理解に向けて最初の一歩を踏み出した。
次に、データプルーニングのニューラルネットワークスケーリング法則をDDに拡張し、これらのマッチングベースの手法を理論的に説明する。
SDC(Sampple Difficulty Correction)アプローチを導入し、より簡単なサンプルを生成して、より高いデータセット品質を実現する。
論文 参考訳(メタデータ) (2024-08-22T15:20:32Z) - Physics-Informed Diffusion Models [0.0]
生成モデルと偏微分方程式の充足を統一する枠組みを提案する。
本手法は,流体流動ケーススタディにおける従来の研究と比較して,残差を最大2桁まで低減する。
論文 参考訳(メタデータ) (2024-03-21T13:52:55Z) - CAFE: Learning to Condense Dataset by Aligning Features [72.99394941348757]
本稿ではCAFE(Aligning features)によるCondenseデータセットの新しいスキームを提案する。
このアプローチの核心は、さまざまなスケールにわたる実データと合成データから機能を整合させる効果的な戦略です。
提案したCAFEを様々なデータセットで検証し,概ね最先端技術であることを示す。
論文 参考訳(メタデータ) (2022-03-03T05:58:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。