論文の概要: A Comprehensive Survey to Dataset Distillation
- arxiv url: http://arxiv.org/abs/2301.05603v1
- Date: Fri, 13 Jan 2023 15:11:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-16 15:02:23.659971
- Title: A Comprehensive Survey to Dataset Distillation
- Title(参考訳): データセット蒸留に関する総合調査
- Authors: Shiye Lei and Dacheng Tao
- Abstract要約: 限られた計算能力で無制限に成長するデータに対処することは困難になっている。
ディープラーニング技術はこの10年で前例のない発展を遂げた。
本稿では,多面的なデータセット蒸留の総合的な理解を提供する。
- 参考スコア(独自算出の注目度): 91.3755431537592
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep learning technology has unprecedentedly developed in the last decade and
has become the primary choice in many application domains. This progress is
mainly attributed to a systematic collaboration that rapidly growing computing
resources encourage advanced algorithms to deal with massive data. However, it
gradually becomes challenging to cope with the unlimited growth of data with
limited computing power. To this end, diverse approaches are proposed to
improve data processing efficiency. Dataset distillation, one of the dataset
reduction methods, tackles the problem via synthesising a small typical dataset
from giant data and has attracted a lot of attention from the deep learning
community. Existing dataset distillation methods can be taxonomised into
meta-learning and data match framework according to whether explicitly mimic
target data. Albeit dataset distillation has shown a surprising performance in
compressing datasets, it still possesses several limitations such as distilling
high-resolution data. This paper provides a holistic understanding of dataset
distillation from multiple aspects, including distillation frameworks and
algorithms, disentangled dataset distillation, performance comparison, and
applications. Finally, we discuss challenges and promising directions to
further promote future studies about dataset distillation.
- Abstract(参考訳): ディープラーニング技術は過去10年間に前例のない発展を遂げ、多くのアプリケーションドメインで主要な選択肢となっている。
この進歩は主に、急速に成長するコンピューティング資源が高度なアルゴリズムに大量のデータを扱うことを奨励する体系的なコラボレーションによるものである。
しかし、限られた計算能力で無制限に成長するデータに対処することは次第に困難になっている。
この目的のために、データ処理効率を改善するために様々なアプローチが提案されている。
データセットの削減方法のひとつであるデータセット蒸留は、巨大なデータから小さな典型的なデータセットを合成することでこの問題に取り組み、ディープラーニングコミュニティから多くの注目を集めている。
既存のデータセット蒸留法は、ターゲットデータを明確に模倣するかどうかに応じて、メタラーニングとデータマッチングフレームワークに分類することができる。
データセット蒸留はデータセットの圧縮において驚くべき性能を示しているが、高分解能データの蒸留のようないくつかの制限がある。
本稿では, 蒸留フレームワークとアルゴリズム, 分離したデータセット蒸留, 性能比較, 応用など, 様々な側面からデータセット蒸留を総合的に理解する。
最後に,データセット蒸留に関する今後の研究を進めるための課題と今後の方向性について述べる。
関連論文リスト
- What is Dataset Distillation Learning? [32.99890244958794]
本研究では, 蒸留データの挙動, 代表性, ポイントワイド情報量について検討する。
蒸留したデータは、トレーニング中に実際のデータに代わるものとしては役に立たない。
蒸留データを解釈し、個別の蒸留データポイントが意味のある意味情報を含んでいることを示す枠組みを提供する。
論文 参考訳(メタデータ) (2024-06-06T17:28:56Z) - Importance-Aware Adaptive Dataset Distillation [53.79746115426363]
ディープラーニングモデルの開発は、大規模データセットの可用性によって実現されている。
データセットの蒸留は、大きな元のデータセットから必須情報を保持するコンパクトなデータセットを合成することを目的としている。
本稿では, 蒸留性能を向上する重要適応型データセット蒸留(IADD)法を提案する。
論文 参考訳(メタデータ) (2024-01-29T03:29:39Z) - Distill Gold from Massive Ores: Bi-level Data Pruning towards Efficient Dataset Distillation [96.92250565207017]
本研究では,データセット蒸留作業におけるデータ効率と選択について検討する。
蒸留の力学を再現することにより、実際のデータセットに固有の冗長性についての洞察を提供する。
蒸留における因果関係から最も寄与した試料を見出した。
論文 参考訳(メタデータ) (2023-05-28T06:53:41Z) - Generalizing Dataset Distillation via Deep Generative Prior [75.9031209877651]
本稿では,データセット全体の知識をいくつかの合成画像に抽出することを提案する。
このアイデアは、学習アルゴリズムにトレーニングデータとして与えられる少数の合成データポイントを合成し、結果として元のデータに基づいてトレーニングされたデータを近似するモデルを構築する。
生成モデルの潜在空間における複数の中間特徴ベクトルに多数の画像を蒸留する新しい最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-05-02T17:59:31Z) - Dataset Distillation: A Comprehensive Review [76.26276286545284]
データセット蒸留(DD)は、トレーニングされたモデルが元のデータセットでトレーニングされたデータセットに匹敵するパフォーマンスを得るために、合成サンプルを含むはるかに小さなデータセットを導出することを目的としている。
本稿ではDDの最近の進歩とその応用について概説する。
論文 参考訳(メタデータ) (2023-01-17T17:03:28Z) - Data Distillation: A Survey [32.718297871027865]
ディープラーニングは、膨大な数の大規模および多言語データセットのキュレーションにつながった。
個々のタスクで人間に近いパフォーマンスを持つにもかかわらず、大規模なデータセットでパラメータハングリーモデルをトレーニングすることは、多面的な問題を引き起こす。
データ蒸留アプローチは、元のデータセットの効果的なドロップイン置換として機能する、簡潔なデータ要約を合成することを目的としている。
論文 参考訳(メタデータ) (2023-01-11T02:25:10Z) - DC-BENCH: Dataset Condensation Benchmark [79.18718490863908]
この研究は、データセットの凝縮に関する最初の大規模標準ベンチマークを提供する。
それは、凝縮法の生成可能性と有効性を包括的に反映する一連の評価から成り立っている。
ベンチマークライブラリは、将来の研究とアプリケーションを容易にするためにオープンソース化されている。
論文 参考訳(メタデータ) (2022-07-20T03:54:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。