論文の概要: What is Dataset Distillation Learning?
- arxiv url: http://arxiv.org/abs/2406.04284v2
- Date: Mon, 22 Jul 2024 09:11:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-24 01:11:44.584296
- Title: What is Dataset Distillation Learning?
- Title(参考訳): データセット蒸留学習とは何か?
- Authors: William Yang, Ye Zhu, Zhiwei Deng, Olga Russakovsky,
- Abstract要約: 本研究では, 蒸留データの挙動, 代表性, ポイントワイド情報量について検討する。
蒸留したデータは、トレーニング中に実際のデータに代わるものとしては役に立たない。
蒸留データを解釈し、個別の蒸留データポイントが意味のある意味情報を含んでいることを示す枠組みを提供する。
- 参考スコア(独自算出の注目度): 32.99890244958794
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Dataset distillation has emerged as a strategy to overcome the hurdles associated with large datasets by learning a compact set of synthetic data that retains essential information from the original dataset. While distilled data can be used to train high performing models, little is understood about how the information is stored. In this study, we posit and answer three questions about the behavior, representativeness, and point-wise information content of distilled data. We reveal distilled data cannot serve as a substitute for real data during training outside the standard evaluation setting for dataset distillation. Additionally, the distillation process retains high task performance by compressing information related to the early training dynamics of real models. Finally, we provide an framework for interpreting distilled data and reveal that individual distilled data points contain meaningful semantic information. This investigation sheds light on the intricate nature of distilled data, providing a better understanding on how they can be effectively utilized.
- Abstract(参考訳): データセットの蒸留は、元のデータセットから必須情報を保持するコンパクトな合成データの集合を学習することで、大規模なデータセットに関連するハードルを克服する戦略として登場した。
蒸留したデータはハイパフォーマンスモデルのトレーニングに使用することができるが、情報の保存方法についてはほとんど理解されていない。
本研究では, 蒸留データの挙動, 代表性, ポイントワイド情報の内容に関する3つの質問に回答する。
本研究では, データセット蒸留の標準評価設定外のトレーニングにおいて, 実データの代用として利用できない蒸留データを明らかにした。
さらに, 蒸留プロセスは, 実モデルの早期訓練力学に関する情報を圧縮することにより, 高い作業性能を維持する。
最後に, 蒸留データを解釈する枠組みを提供し, 個々の蒸留データポイントが意味のある意味情報を含んでいることを明らかにした。
この調査は、蒸留されたデータの複雑な性質に光を当て、どのように効果的に利用できるかをよりよく理解する。
関連論文リスト
- Behaviour Distillation [10.437472004180883]
我々は、専門家ポリシーのトレーニングに必要な情報を合成データセットに発見・凝縮することを目的とした行動蒸留を定式化する。
次に,Halucinating datasets with Evolution Strategies (HaDES)を紹介した。
これらのデータセットは分散から多種多様なアーキテクチャでトレーニングポリシーへと一般化されていることを示す。
また、下流タスク、すなわちゼロショット方式でマルチタスクエージェントを訓練するアプリケーションの実演を行う。
論文 参考訳(メタデータ) (2024-06-21T10:45:43Z) - Generative Dataset Distillation: Balancing Global Structure and Local Details [49.20086587208214]
グローバルな構造と局所的な詳細のバランスを考慮に入れた新しいデータセット蒸留法を提案する。
本手法では, 条件付き生成逆数ネットワークを用いて蒸留したデータセットを生成する。
論文 参考訳(メタデータ) (2024-04-26T23:46:10Z) - Exploring the potential of prototype-based soft-labels data distillation for imbalanced data classification [0.0]
主な目的は、分類精度の観点からプロトタイプベースの軟質ラベル蒸留の性能を高めることである。
実験的研究は、この方法でデータを蒸留する能力だけでなく、増量法として機能する機会も追求している。
論文 参考訳(メタデータ) (2024-03-25T19:15:19Z) - Importance-Aware Adaptive Dataset Distillation [53.79746115426363]
ディープラーニングモデルの開発は、大規模データセットの可用性によって実現されている。
データセットの蒸留は、大きな元のデータセットから必須情報を保持するコンパクトなデータセットを合成することを目的としている。
本稿では, 蒸留性能を向上する重要適応型データセット蒸留(IADD)法を提案する。
論文 参考訳(メタデータ) (2024-01-29T03:29:39Z) - Distill Gold from Massive Ores: Bi-level Data Pruning towards Efficient Dataset Distillation [96.92250565207017]
本研究では,データセット蒸留作業におけるデータ効率と選択について検討する。
蒸留の力学を再現することにより、実際のデータセットに固有の冗長性についての洞察を提供する。
蒸留における因果関係から最も寄与した試料を見出した。
論文 参考訳(メタデータ) (2023-05-28T06:53:41Z) - A Comprehensive Survey of Dataset Distillation [73.15482472726555]
限られた計算能力で無制限に成長するデータを扱うことは困難になっている。
ディープラーニング技術はこの10年で前例のない発展を遂げた。
本稿では,多面的なデータセット蒸留の総合的な理解を提供する。
論文 参考訳(メタデータ) (2023-01-13T15:11:38Z) - Dataset Distillation by Matching Training Trajectories [75.9031209877651]
そこで本研究では,実データと同じような状態にネットワークを誘導するために,蒸留データを最適化する新しい定式化を提案する。
ネットワークが与えられたら、蒸留データを何回か繰り返して訓練し、合成訓練されたパラメータと実データで訓練されたパラメータとの距離に関して蒸留データを最適化する。
本手法は既存の手法よりも優れており,高解像度の視覚データを蒸留することができる。
論文 参考訳(メタデータ) (2022-03-22T17:58:59Z) - New Properties of the Data Distillation Method When Working With Tabular
Data [77.34726150561087]
データ蒸留は、必要な情報のみを保持しながら、トレーニングデータの量を減らす問題である。
蒸留した試料でトレーニングしたモデルは、元のデータセットでトレーニングしたモデルより優れていることを示す。
論文 参考訳(メタデータ) (2020-10-19T20:27:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。