論文の概要: Dataset Distillation as Data Compression: A Rate-Utility Perspective
- arxiv url: http://arxiv.org/abs/2507.17221v1
- Date: Wed, 23 Jul 2025 05:40:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-24 22:33:14.870063
- Title: Dataset Distillation as Data Compression: A Rate-Utility Perspective
- Title(参考訳): データ圧縮としてのデータセット蒸留 : 利率と実用性の観点から
- Authors: Youneng Bao, Yiping Liu, Zhuo Chen, Yongsheng Liang, Mu Li, Kede Ma,
- Abstract要約: そこで本研究では,データセット蒸留における共同レート・ユーティリティ最適化手法を提案する。
超軽量ネットワークでデコードされた最適潜在符号として合成サンプルをパラメータ化する。
我々は、量子化潜水剤のシャノンエントロピーをレート尺度として推定し、既存の蒸留損失を実用指標としてプラグし、ラグランジュ乗算器で引き離す。
- 参考スコア(独自算出の注目度): 31.050187201929557
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Driven by the ``scale-is-everything'' paradigm, modern machine learning increasingly demands ever-larger datasets and models, yielding prohibitive computational and storage requirements. Dataset distillation mitigates this by compressing an original dataset into a small set of synthetic samples, while preserving its full utility. Yet, existing methods either maximize performance under fixed storage budgets or pursue suitable synthetic data representations for redundancy removal, without jointly optimizing both objectives. In this work, we propose a joint rate-utility optimization method for dataset distillation. We parameterize synthetic samples as optimizable latent codes decoded by extremely lightweight networks. We estimate the Shannon entropy of quantized latents as the rate measure and plug any existing distillation loss as the utility measure, trading them off via a Lagrange multiplier. To enable fair, cross-method comparisons, we introduce bits per class (bpc), a precise storage metric that accounts for sample, label, and decoder parameter costs. On CIFAR-10, CIFAR-100, and ImageNet-128, our method achieves up to $170\times$ greater compression than standard distillation at comparable accuracy. Across diverse bpc budgets, distillation losses, and backbone architectures, our approach consistently establishes better rate-utility trade-offs.
- Abstract(参考訳): ‘scale-is-everything’パラダイムによって、現代の機械学習はますます大規模なデータセットとモデルを要求し、計算とストレージの禁断な要件を生み出している。
データセットの蒸留は、元のデータセットを小さな合成サンプルに圧縮し、完全なユーティリティを保ちながら、これを緩和する。
しかし、既存の手法は、固定ストレージ予算下での性能を最大化するか、両方の目的を共同で最適化することなく、冗長性除去に適した合成データ表現を追求する。
そこで本研究では,データセット蒸留における共同レート・ユーティリティ最適化手法を提案する。
超軽量ネットワークでデコードされた最適潜在符号として合成サンプルをパラメータ化する。
我々は、量子化潜水剤のシャノンエントロピーをレート尺度として推定し、既存の蒸留損失を実用指標としてプラグし、ラグランジュ乗算器で引き離す。
クラス毎ビット(bpc)は,サンプル,ラベル,デコーダパラメータのコストを考慮した正確な記憶量である。
CIFAR-10, CIFAR-100, ImageNet-128では, 同等の精度で標準蒸留よりも最大170\times$の圧縮を実現している。
多様なbpc予算、蒸留損失、バックボーンアーキテクチャなど、当社のアプローチは一貫して、より優れた利活用トレードオフを確立しています。
関連論文リスト
- Efficient Token Compression for Vision Transformer with Spatial Information Preserved [59.79302182800274]
トーケン圧縮は、トランスモデルの計算およびメモリ要求の低減に不可欠である。
本稿では,Prune と Merge という,効率的なハードウェア互換のトークン圧縮手法を提案する。
論文 参考訳(メタデータ) (2025-03-30T14:23:18Z) - Dataset Distillation with Neural Characteristic Function: A Minmax Perspective [39.77640775591437]
minmax最適化問題としてデータセット蒸留を再構成し、ニューラル特徴関数離散性(NCFD)を導入する。
NCFDは分布差を測定するための包括的で理論的に基礎付けられた計量である。
提案手法は,低解像度および高解像度のデータセット上での最先端手法よりも高い性能向上を実現する。
論文 参考訳(メタデータ) (2025-02-28T02:14:55Z) - Dataset Distillation as Pushforward Optimal Quantization [1.039189397779466]
そこで本稿では,ImageNet-1Kデータセットの性能向上を目的とした,最先端データ蒸留法D4Mの簡易拡張を提案する。
エンコーダ・デコーダ構造を組み込んだ場合、実験的に成功した不整合法を最適な量子化問題として再定義できることを実証する。
特に, 既存の不整合データセット蒸留法を古典的最適量子化法とワッサーシュタインバリセンタ問題にリンクし, 拡散型生成前処理のための蒸留データセットの整合性を示す。
論文 参考訳(メタデータ) (2025-01-13T20:41:52Z) - Generative Dataset Distillation Based on Self-knowledge Distillation [49.20086587208214]
本稿では,予測ロジットの整列精度を向上させる新しい生成データセット蒸留法を提案する。
本手法は, 合成データと原データとのより正確な分布マッチングを実現するために, 自己知識蒸留を統合したものである。
提案手法は, 既存の最先端手法より優れており, 蒸留性能が良好である。
論文 参考訳(メタデータ) (2025-01-08T00:43:31Z) - Hierarchical Features Matter: A Deep Exploration of Progressive Parameterization Method for Dataset Distillation [44.03611131165989]
階層型生成蒸留(H-PD)と呼ばれる新しい生成パラメータ化法を提案する。
提案したH-PDは、等価な時間消費で様々な設定で大幅な性能向上を実現している。
IPC=1, IPC=10の超過圧縮比下での拡散モデルを用いて, 現在の再生蒸留を超越している。
論文 参考訳(メタデータ) (2024-06-09T09:15:54Z) - Dataset Distillation via Adversarial Prediction Matching [24.487950991247764]
本稿では,データセットの蒸留問題を効率的に解くための逆フレームワークを提案する。
提案手法は,オリジナルデータセットの10%程度の大きさの合成データセットを生成できるが,全オリジナルデータセットでトレーニングしたモデルのテスト精度の94%を平均で達成できる。
論文 参考訳(メタデータ) (2023-12-14T13:19:33Z) - Learning Accurate Performance Predictors for Ultrafast Automated Model
Compression [86.22294249097203]
フレキシブルネットワーク展開のための超高速自動モデル圧縮フレームワークSeerNetを提案する。
本手法は,探索コストを大幅に削減した競合精度・複雑度トレードオフを実現する。
論文 参考訳(メタデータ) (2023-04-13T10:52:49Z) - Minimizing the Accumulated Trajectory Error to Improve Dataset
Distillation [151.70234052015948]
本稿では,フラットな軌道を求める最適化アルゴリズムを提案する。
合成データに基づいてトレーニングされた重みは、平坦な軌道への正規化を伴う累積誤差摂動に対して頑健であることを示す。
本手法はFTD (Flat Trajectory Distillation) と呼ばれ, 勾配整合法の性能を最大4.7%向上させる。
論文 参考訳(メタデータ) (2022-11-20T15:49:11Z) - Dataset Condensation via Efficient Synthetic-Data Parameterization [40.56817483607132]
大量のデータを持つ機械学習は、膨大な計算コストと、トレーニングとチューニングのためのストレージの価格が伴う。
データセットの凝縮に関する最近の研究は、コンパクトなトレーニングデータセットを合成することで、そのような大量のデータへの依存を減らそうとしている。
本稿では,データ規則性を考慮した効率的なパラメータ化により,ストレージ予算に制限のある複数の合成データを生成する,新しい凝縮フレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-30T09:55:31Z) - CAFE: Learning to Condense Dataset by Aligning Features [72.99394941348757]
本稿ではCAFE(Aligning features)によるCondenseデータセットの新しいスキームを提案する。
このアプローチの核心は、さまざまなスケールにわたる実データと合成データから機能を整合させる効果的な戦略です。
提案したCAFEを様々なデータセットで検証し,概ね最先端技術であることを示す。
論文 参考訳(メタデータ) (2022-03-03T05:58:49Z) - Optimizing Vessel Trajectory Compression [71.42030830910227]
前回の研究では,AISの位置情報をオンラインで消費することで,血管軌跡の要約表現を提供するトラジェクトリ検出モジュールを導入しました。
この手法は、生データの少なくとも70%を冗長として廃棄することにより、元のコースからほとんど逸脱しない信頼性の高い軌道合成を提供することができる。
しかし、そのような軌道圧縮はパラメトリゼーションに非常に敏感である。
各容器のタイプを考慮し, 軌道のシナプスを改良する適切な構成を提供する。
論文 参考訳(メタデータ) (2020-05-11T20:38:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。