論文の概要: From Fewer Samples to Fewer Bits: Reframing Dataset Distillation as Joint Optimization of Precision and Compactness
- arxiv url: http://arxiv.org/abs/2603.02411v1
- Date: Mon, 02 Mar 2026 21:46:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-04 21:38:10.551106
- Title: From Fewer Samples to Fewer Bits: Reframing Dataset Distillation as Joint Optimization of Precision and Compactness
- Title(参考訳): 低試料から低ビットへ:精度とコンパクト性の併用最適化としてのリフレーミングデータセット蒸留
- Authors: My H. Dinh, Aditya Sant, Akshay Malhotra, Keya Patani, Shahab Hamidi-Rad,
- Abstract要約: 固定ビット予算下でデータセットのコンパクト性と精度を協調的に最適化する統合フレームワークを提案する。
QuADDは蒸留ループ内に微分可能な量子化モジュールを統合し、合成試料と量子化パラメータのエンドツーエンドの共最適化を可能にする。
本フレームワークは、データから量子化レベルを学習し、情報密度領域をより良く表現する、均一かつ適応的な非一様量子化をサポートする。
- 参考スコア(独自算出の注目度): 6.073185086959359
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Dataset Distillation (DD) compresses large datasets into compact synthetic ones that maintain training performance. However, current methods mainly target sample reduction, with limited consideration of data precision and its impact on efficiency. We propose Quantization-aware Dataset Distillation (QuADD), a unified framework that jointly optimizes dataset compactness and precision under fixed bit budgets. QuADD integrates a differentiable quantization module within the distillation loop, enabling end-to-end co-optimization of synthetic samples and quantization parameters. Guided by the rate-distortion perspective, we empirically analyze how bit allocation between sample count and precision influences learning performance. Our framework supports both uniform and adaptive non-uniform quantization, where the latter learns quantization levels from data to represent information-dense regions better. Experiments on image classification and 3GPP beam management tasks show that QuADD surpasses existing DD and post-quantized baselines in accuracy per bit, establishing a new standard for information-efficient dataset distillation.
- Abstract(参考訳): Dataset Distillation (DD)は、大規模なデータセットをコンパクトな合成データセットに圧縮し、トレーニング性能を維持する。
しかし,現在の手法は,データ精度と効率への影響を限定的に考慮して,主にサンプル削減を目標としている。
固定ビット予算下でデータセットのコンパクト性と精度を協調的に最適化する統合フレームワークQuADDを提案する。
QuADDは蒸留ループ内に微分可能な量子化モジュールを統合し、合成試料と量子化パラメータのエンドツーエンドの共最適化を可能にする。
レート歪みの観点から,サンプル数と精度のビット割り当てが学習性能に与える影響を実証的に分析した。
本フレームワークは、データから量子化レベルを学習し、情報密度領域をより良く表現する、均一かつ適応的な非一様量子化をサポートする。
画像分類と3GPPビーム管理タスクの実験により、QuADDは既存のDDおよび後量子化ベースラインを1ビットあたりの精度で超越し、情報効率の良いデータセット蒸留の新しい標準を確立した。
関連論文リスト
- Utility Boundary of Dataset Distillation: Scaling and Configuration-Coverage Laws [6.172966466468818]
トレーニング設定を変更すると、どのような条件で蒸留データが完全なデータセットの有効性を維持することができるのかは不明だ。
本稿では,共通一般化・エラーの観点から主要なDDアプローチを再構成する,構成-構成-エラー解析と呼ばれる統一的理論フレームワークを提案する。
解析により, 種々のマッチング手法が交換可能なサロゲートであり, 同じ一般化誤差を低減し, なぜこれらがすべてデータセット蒸留を達成できるかを明らかにした。
論文 参考訳(メタデータ) (2025-12-05T15:37:38Z) - Optimizing Distributional Geometry Alignment with Optimal Transport for Generative Dataset Distillation [109.13471554184554]
最適輸送(OT)距離最小化問題としてデータセット蒸留を再構成する。
OTは分布マッチングのための幾何学的に忠実なフレームワークを提供する。
提案手法は, 常に最先端の手法を効率よく上回っている。
論文 参考訳(メタデータ) (2025-11-29T04:04:05Z) - Rectified Decoupled Dataset Distillation: A Closer Look for Fair and Comprehensive Evaluation [36.444254126901065]
本稿では,コンパクトな合成データセットを生成するために,Rectified Decoupled dataset Distillation (RD$3$)を提案する。
RD$3$は、将来のデータセット蒸留研究における公正かつ再現可能な比較の基礎を提供する。
論文 参考訳(メタデータ) (2025-09-24T03:47:04Z) - Dataset Distillation as Data Compression: A Rate-Utility Perspective [31.050187201929557]
そこで本研究では,データセット蒸留における共同レート・ユーティリティ最適化手法を提案する。
超軽量ネットワークでデコードされた最適潜在符号として合成サンプルをパラメータ化する。
我々は、量子化潜水剤のシャノンエントロピーをレート尺度として推定し、既存の蒸留損失を実用指標としてプラグし、ラグランジュ乗算器で引き離す。
論文 参考訳(メタデータ) (2025-07-23T05:40:52Z) - DD-Ranking: Rethinking the Evaluation of Dataset Distillation [314.9621366437238]
本稿では,統合評価フレームワークであるDD-Rankingと,異なる手法によって達成された真の性能改善を明らかにするための新しい総合評価指標を提案する。
DD-Rankingは、蒸留データセットの実際の情報強化に再焦点をあてることで、将来の研究の進展に対してより包括的で公正な評価基準を提供する。
論文 参考訳(メタデータ) (2025-05-19T16:19:50Z) - Dataset Distillation as Pushforward Optimal Quantization [2.5892916589735457]
そこで本研究では,実データ上での学習に類似した性能を,桁違いに少ない計算量で実現した合成トレーニングセットを提案する。
特に、既存の非絡み合ったデータセット蒸留法を古典的最適量子化とワッサーシュタインのバリセンタ問題にリンクする。
我々は,ImageNet-1Kデータセットの性能向上とモデル間一般化を,より簡単な追加計算で実現し,より高階のイメージ・パー・クラス・セッティングにおけるSOTA性能を向上する。
論文 参考訳(メタデータ) (2025-01-13T20:41:52Z) - Generative Dataset Distillation Based on Self-knowledge Distillation [49.20086587208214]
本稿では,予測ロジットの整列精度を向上させる新しい生成データセット蒸留法を提案する。
本手法は, 合成データと原データとのより正確な分布マッチングを実現するために, 自己知識蒸留を統合したものである。
提案手法は, 既存の最先端手法より優れており, 蒸留性能が良好である。
論文 参考訳(メタデータ) (2025-01-08T00:43:31Z) - Adaptive Dataset Quantization [2.0105434963031463]
適応データセット量子化(ADQ)という,データセット圧縮のための汎用フレームワークを導入する。
本稿では,生成したビンの代表性スコア,多様性スコア,重要度スコアの評価を通じて,新しい適応型サンプリング戦略を提案する。
提案手法は, 異なるアーキテクチャにまたがる優れた一般化能力を示すだけでなく, 各種データセットにおいてDQを平均3%越えて, 最先端の結果が得られる。
論文 参考訳(メタデータ) (2024-12-22T07:08:29Z) - Not All Samples Should Be Utilized Equally: Towards Understanding and Improving Dataset Distillation [57.6797306341115]
我々は,サンプル難易度の観点から,マッチングに基づくDD手法の理解に向けて最初の一歩を踏み出した。
次に、データプルーニングのニューラルネットワークスケーリング法則をDDに拡張し、これらのマッチングベースの手法を理論的に説明する。
SDC(Sampple Difficulty Correction)アプローチを導入し、より簡単なサンプルを生成して、より高いデータセット品質を実現する。
論文 参考訳(メタデータ) (2024-08-22T15:20:32Z) - Importance-Aware Adaptive Dataset Distillation [53.79746115426363]
ディープラーニングモデルの開発は、大規模データセットの可用性によって実現されている。
データセットの蒸留は、大きな元のデータセットから必須情報を保持するコンパクトなデータセットを合成することを目的としている。
本稿では, 蒸留性能を向上する重要適応型データセット蒸留(IADD)法を提案する。
論文 参考訳(メタデータ) (2024-01-29T03:29:39Z) - CAFE: Learning to Condense Dataset by Aligning Features [72.99394941348757]
本稿ではCAFE(Aligning features)によるCondenseデータセットの新しいスキームを提案する。
このアプローチの核心は、さまざまなスケールにわたる実データと合成データから機能を整合させる効果的な戦略です。
提案したCAFEを様々なデータセットで検証し,概ね最先端技術であることを示す。
論文 参考訳(メタデータ) (2022-03-03T05:58:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。