論文の概要: Grounding and Enhancing Informativeness and Utility in Dataset Distillation
- arxiv url: http://arxiv.org/abs/2601.21296v1
- Date: Thu, 29 Jan 2026 05:49:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:49.604157
- Title: Grounding and Enhancing Informativeness and Utility in Dataset Distillation
- Title(参考訳): データセット蒸留におけるインフォーマルネスとユーティリティの接地と向上
- Authors: Shaobo Wang, Yantai Yang, Guo Chen, Peiru Li, Kaixin Li, Yufa Zhou, Zhaorun Chen, Linfeng Zhang,
- Abstract要約: 本稿では, 知識蒸留に基づくデータセット蒸留について, 理論的枠組みの中で再考する。
InformativenessとUtilityの概念を導入し、サンプル内で重要な情報をキャプチャします。
次に、蒸留データセットにおける情報性と有用性を合成するフレームワークInfoUtilを紹介する。
- 参考スコア(独自算出の注目度): 16.992910621801496
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Dataset Distillation (DD) seeks to create a compact dataset from a large, real-world dataset. While recent methods often rely on heuristic approaches to balance efficiency and quality, the fundamental relationship between original and synthetic data remains underexplored. This paper revisits knowledge distillation-based dataset distillation within a solid theoretical framework. We introduce the concepts of Informativeness and Utility, capturing crucial information within a sample and essential samples in the training set, respectively. Building on these principles, we define optimal dataset distillation mathematically. We then present InfoUtil, a framework that balances informativeness and utility in synthesizing the distilled dataset. InfoUtil incorporates two key components: (1) game-theoretic informativeness maximization using Shapley Value attribution to extract key information from samples, and (2) principled utility maximization by selecting globally influential samples based on Gradient Norm. These components ensure that the distilled dataset is both informative and utility-optimized. Experiments demonstrate that our method achieves a 6.1\% performance improvement over the previous state-of-the-art approach on ImageNet-1K dataset using ResNet-18.
- Abstract(参考訳): Dataset Distillation (DD)は、大規模な実世界のデータセットからコンパクトなデータセットを作成しようとしている。
近年の手法は効率と品質のバランスをとるためのヒューリスティックなアプローチに頼っていることが多いが、オリジナルのデータと合成データの基本的な関係は未解明のままである。
本稿では, 知識蒸留に基づくデータセット蒸留について, 理論的枠組みの中で再考する。
Informativeness と Utility の概念を導入し,サンプル内の重要な情報と,トレーニングセット内の必須サンプルをそれぞれ取得する。
これらの原理に基づいて最適なデータセット蒸留を数学的に定義する。
次に、蒸留したデータセットを合成する際の情報性と有用性のバランスをとるフレームワークInfoUtilを紹介する。
InfoUtilは,(1)共有値属性を用いたゲーム理論的情報量最大化により,サンプルから鍵情報を抽出し,(2)グラディエントノルムに基づく世界的影響力のあるサンプルを選択することで,実用性最大化を行う。
これらのコンポーネントは、蒸留されたデータセットが情報的かつ実用的に最適化されていることを保証します。
実験により,ResNet-18を用いたImageNet-1Kデータセットに対する従来手法よりも6.1倍の性能向上が得られた。
関連論文リスト
- Generative Dataset Distillation Based on Self-knowledge Distillation [49.20086587208214]
本稿では,予測ロジットの整列精度を向上させる新しい生成データセット蒸留法を提案する。
本手法は, 合成データと原データとのより正確な分布マッチングを実現するために, 自己知識蒸留を統合したものである。
提案手法は, 既存の最先端手法より優れており, 蒸留性能が良好である。
論文 参考訳(メタデータ) (2025-01-08T00:43:31Z) - Prioritize Alignment in Dataset Distillation [27.71563788300818]
既存の方法はエージェントモデルを使用して、ターゲットデータセットから情報を抽出し、蒸留データセットに埋め込む。
既存の手法では,情報抽出と埋め込みの両方の段階において,不整合情報を導入している。
本稿では、以下の2つの視点から情報を整列するデータセット蒸留(PAD)における優先順位付けアライメントを提案する。
論文 参考訳(メタデータ) (2024-08-06T17:07:28Z) - What is Dataset Distillation Learning? [32.99890244958794]
本研究では, 蒸留データの挙動, 代表性, ポイントワイド情報量について検討する。
蒸留したデータは、トレーニング中に実際のデータに代わるものとしては役に立たない。
蒸留データを解釈し、個別の蒸留データポイントが意味のある意味情報を含んでいることを示す枠組みを提供する。
論文 参考訳(メタデータ) (2024-06-06T17:28:56Z) - Importance-Aware Adaptive Dataset Distillation [53.79746115426363]
ディープラーニングモデルの開発は、大規模データセットの可用性によって実現されている。
データセットの蒸留は、大きな元のデータセットから必須情報を保持するコンパクトなデータセットを合成することを目的としている。
本稿では, 蒸留性能を向上する重要適応型データセット蒸留(IADD)法を提案する。
論文 参考訳(メタデータ) (2024-01-29T03:29:39Z) - Distill Gold from Massive Ores: Bi-level Data Pruning towards Efficient Dataset Distillation [96.92250565207017]
本研究では,データセット蒸留作業におけるデータ効率と選択について検討する。
蒸留の力学を再現することにより、実際のデータセットに固有の冗長性についての洞察を提供する。
蒸留における因果関係から最も寄与した試料を見出した。
論文 参考訳(メタデータ) (2023-05-28T06:53:41Z) - Dataset Distillation by Matching Training Trajectories [75.9031209877651]
そこで本研究では,実データと同じような状態にネットワークを誘導するために,蒸留データを最適化する新しい定式化を提案する。
ネットワークが与えられたら、蒸留データを何回か繰り返して訓練し、合成訓練されたパラメータと実データで訓練されたパラメータとの距離に関して蒸留データを最適化する。
本手法は既存の手法よりも優れており,高解像度の視覚データを蒸留することができる。
論文 参考訳(メタデータ) (2022-03-22T17:58:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。