論文の概要: A Comprehensive Survey of Dataset Distillation
- arxiv url: http://arxiv.org/abs/2301.05603v4
- Date: Sun, 24 Dec 2023 14:45:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-27 23:19:21.169067
- Title: A Comprehensive Survey of Dataset Distillation
- Title(参考訳): データセット蒸留に関する総合調査
- Authors: Shiye Lei and Dacheng Tao
- Abstract要約: 限られた計算能力で無制限に成長するデータを扱うことは困難になっている。
ディープラーニング技術はこの10年で前例のない発展を遂げた。
本稿では,多面的なデータセット蒸留の総合的な理解を提供する。
- 参考スコア(独自算出の注目度): 73.15482472726555
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep learning technology has developed unprecedentedly in the last decade and
has become the primary choice in many application domains. This progress is
mainly attributed to a systematic collaboration in which rapidly growing
computing resources encourage advanced algorithms to deal with massive data.
However, it has gradually become challenging to handle the unlimited growth of
data with limited computing power. To this end, diverse approaches are proposed
to improve data processing efficiency. Dataset distillation, a dataset
reduction method, addresses this problem by synthesizing a small typical
dataset from substantial data and has attracted much attention from the deep
learning community. Existing dataset distillation methods can be taxonomized
into meta-learning and data matching frameworks according to whether they
explicitly mimic the performance of target data. Although dataset distillation
has shown surprising performance in compressing datasets, there are still
several limitations such as distilling high-resolution data or data with
complex label spaces. This paper provides a holistic understanding of dataset
distillation from multiple aspects, including distillation frameworks and
algorithms, factorized dataset distillation, performance comparison, and
applications. Finally, we discuss challenges and promising directions to
further promote future studies on dataset distillation.
- Abstract(参考訳): ディープラーニング技術は過去10年間に前例のない発展を遂げ、多くのアプリケーションドメインで主要な選択肢となっている。
この進歩は主に、急速に成長するコンピューティング資源が高度なアルゴリズムに大量のデータを扱うことを奨励する体系的なコラボレーションによるものである。
しかし、計算能力に制限のあるデータの無制限な成長を扱うことは徐々に困難になっている。
この目的のために、データ処理効率を改善するために様々なアプローチが提案されている。
データセット削減法であるデータセット蒸留は、重要なデータから小さな典型的なデータセットを合成することでこの問題に対処し、ディープラーニングコミュニティから多くの注目を集めている。
既存のデータセット蒸留法は、ターゲットデータのパフォーマンスを明示的に模倣するかどうかに応じて、メタラーニングとデータマッチングフレームワークに分類することができる。
データセットの蒸留は、データセットの圧縮において驚くべき性能を示したが、高解像度のデータや複雑なラベル空間を持つデータの蒸留など、いくつかの制限がある。
本稿では, 蒸留フレームワークとアルゴリズム, 因子化データセット蒸留, 性能比較, 応用など, 様々な側面からデータセット蒸留を総合的に理解する。
最後に,今後のデータセット蒸留研究の推進に向けた課題と今後の方向性について述べる。
関連論文リスト
- What is Dataset Distillation Learning? [32.99890244958794]
本研究では, 蒸留データの挙動, 代表性, ポイントワイド情報量について検討する。
蒸留したデータは、トレーニング中に実際のデータに代わるものとしては役に立たない。
蒸留データを解釈し、個別の蒸留データポイントが意味のある意味情報を含んでいることを示す枠組みを提供する。
論文 参考訳(メタデータ) (2024-06-06T17:28:56Z) - Importance-Aware Adaptive Dataset Distillation [53.79746115426363]
ディープラーニングモデルの開発は、大規模データセットの可用性によって実現されている。
データセットの蒸留は、大きな元のデータセットから必須情報を保持するコンパクトなデータセットを合成することを目的としている。
本稿では, 蒸留性能を向上する重要適応型データセット蒸留(IADD)法を提案する。
論文 参考訳(メタデータ) (2024-01-29T03:29:39Z) - Distill Gold from Massive Ores: Bi-level Data Pruning towards Efficient Dataset Distillation [96.92250565207017]
本研究では,データセット蒸留作業におけるデータ効率と選択について検討する。
蒸留の力学を再現することにより、実際のデータセットに固有の冗長性についての洞察を提供する。
蒸留における因果関係から最も寄与した試料を見出した。
論文 参考訳(メタデータ) (2023-05-28T06:53:41Z) - Generalizing Dataset Distillation via Deep Generative Prior [75.9031209877651]
本稿では,データセット全体の知識をいくつかの合成画像に抽出することを提案する。
このアイデアは、学習アルゴリズムにトレーニングデータとして与えられる少数の合成データポイントを合成し、結果として元のデータに基づいてトレーニングされたデータを近似するモデルを構築する。
生成モデルの潜在空間における複数の中間特徴ベクトルに多数の画像を蒸留する新しい最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-05-02T17:59:31Z) - Dataset Distillation: A Comprehensive Review [76.26276286545284]
データセット蒸留(DD)は、トレーニングされたモデルが元のデータセットでトレーニングされたデータセットに匹敵するパフォーマンスを得るために、合成サンプルを含むはるかに小さなデータセットを導出することを目的としている。
本稿ではDDの最近の進歩とその応用について概説する。
論文 参考訳(メタデータ) (2023-01-17T17:03:28Z) - Data Distillation: A Survey [32.718297871027865]
ディープラーニングは、膨大な数の大規模および多言語データセットのキュレーションにつながった。
個々のタスクで人間に近いパフォーマンスを持つにもかかわらず、大規模なデータセットでパラメータハングリーモデルをトレーニングすることは、多面的な問題を引き起こす。
データ蒸留アプローチは、元のデータセットの効果的なドロップイン置換として機能する、簡潔なデータ要約を合成することを目的としている。
論文 参考訳(メタデータ) (2023-01-11T02:25:10Z) - DC-BENCH: Dataset Condensation Benchmark [79.18718490863908]
この研究は、データセットの凝縮に関する最初の大規模標準ベンチマークを提供する。
それは、凝縮法の生成可能性と有効性を包括的に反映する一連の評価から成り立っている。
ベンチマークライブラリは、将来の研究とアプリケーションを容易にするためにオープンソース化されている。
論文 参考訳(メタデータ) (2022-07-20T03:54:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。