論文の概要: Dataset Distillation: A Comprehensive Review
- arxiv url: http://arxiv.org/abs/2301.07014v1
- Date: Tue, 17 Jan 2023 17:03:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-18 13:33:52.056005
- Title: Dataset Distillation: A Comprehensive Review
- Title(参考訳): Dataset Distillation: 総合的なレビュー
- Authors: Ruonan Yu, Songhua Liu, Xinchao Wang
- Abstract要約: データセット蒸留(DD)は、いくつかの合成サンプルを含むはるかに小さなデータセットを目標としている。
本稿では,最近のDDの進歩と応用について概説する。
- 参考スコア(独自算出の注目度): 54.349100591487634
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent success of deep learning can be largely attributed to the huge amount
of data used for training deep neural networks. However, the sheer amount of
data significantly increase the burden on storage and transmission. It would
also consume considerable time and computational resources to train models on
such large datasets. Moreover, directly publishing raw data inevitably raise
concerns on privacy and copyright. Focusing on these inconveniences, dataset
distillation (DD), also known as dataset condensation (DC), has become a
popular research topic in recent years. Given an original large dataset, DD
aims at a much smaller dataset containing several synthetic samples, such that
models trained on the synthetic dataset can have comparable performance with
those trained on the original real one. This paper presents a comprehensive
review and summary for recent advances in DD and its application. We first
introduce the task in formal and propose an overall algorithmic framework
followed by all existing DD methods. Then, we provide a systematic taxonomy of
current methodologies in this area. Their theoretical relationship will also be
discussed. We also point out current challenges in DD through extensive
experiments and envision possible directions for future works.
- Abstract(参考訳): 最近のディープラーニングの成功は、ディープニューラルネットワークのトレーニングに使用される膨大なデータに起因する可能性がある。
しかし、膨大なデータ量がストレージと送信の負担を大幅に増加させる。
また、そのような大規模なデータセット上でモデルをトレーニングするために、かなりの時間と計算資源を消費する。
さらに、生データを直接公開することは、必然的にプライバシーと著作権に関する懸念を引き起こす。
これらの不便さに焦点をあてて、データセット蒸留(DD)、またはデータセット凝縮(DC)は近年、人気のある研究トピックとなっている。
オリジナルの大規模なデータセットを考えると、ddは、合成データセットでトレーニングされたモデルが元の実際のデータセットでトレーニングされたモデルと同等の性能を持つように、いくつかの合成サンプルを含む、はるかに小さなデータセットを目指している。
本稿では,最近のDDの進歩と応用について概説する。
まず,そのタスクを形式的に紹介し,既存のDDメソッドに続き,全体的なアルゴリズムフレームワークを提案する。
そこで本研究では,現在の方法論を体系的に分類する。
理論上の関係も議論される。
DDにおける現在の課題についても,広範な実験を通じて指摘し,今後の研究の方向性を示唆している。
関連論文リスト
- Dataset Distillation via Knowledge Distillation: Towards Efficient Self-Supervised Pre-Training of Deep Networks [10.932880269282014]
SSL事前トレーニングのための最初の有効なDD法を提案する。
具体的には、SSLでトレーニングされたより大きな教師モデルの表現に合わせるために、小さな学生モデルを訓練する。
KDの目的はSSLよりもかなり分散度が低いため、我々の手法は、高品質エンコーダの事前訓練に成功できる合成データセットを生成することができる。
論文 参考訳(メタデータ) (2024-10-03T00:39:25Z) - Dataset Distillation from First Principles: Integrating Core Information Extraction and Purposeful Learning [10.116674195405126]
我々は、基礎となる最適化問題の正確な特徴付けは、関心の応用に関連する推論タスクを指定しなければならないと論じる。
我々の形式化は、様々なモデリング環境にまたがるDDの新たな応用を明らかにします。
現代の環境において重要な2つのケーススタディについて数値的な結果を示す。
論文 参考訳(メタデータ) (2024-09-02T18:11:15Z) - Not All Samples Should Be Utilized Equally: Towards Understanding and Improving Dataset Distillation [57.6797306341115]
我々は,サンプル難易度の観点から,マッチングに基づくDD手法の理解に向けて最初の一歩を踏み出した。
次に、データプルーニングのニューラルネットワークスケーリング法則をDDに拡張し、これらのマッチングベースの手法を理論的に説明する。
SDC(Sampple Difficulty Correction)アプローチを導入し、より簡単なサンプルを生成して、より高いデータセット品質を実現する。
論文 参考訳(メタデータ) (2024-08-22T15:20:32Z) - Behaviour Distillation [10.437472004180883]
我々は、専門家ポリシーのトレーニングに必要な情報を合成データセットに発見・凝縮することを目的とした行動蒸留を定式化する。
次に,Halucinating datasets with Evolution Strategies (HaDES)を紹介した。
これらのデータセットは分散から多種多様なアーキテクチャでトレーニングポリシーへと一般化されていることを示す。
また、下流タスク、すなわちゼロショット方式でマルチタスクエージェントを訓練するアプリケーションの実演を行う。
論文 参考訳(メタデータ) (2024-06-21T10:45:43Z) - Group Distributionally Robust Dataset Distillation with Risk
Minimization [18.07189444450016]
本稿では,クラスタリングとリスク尺度の最小化を組み合わせ,DDを遂行する損失を最小化するアルゴリズムを提案する。
数値実験により,その有効一般化と部分群間のロバスト性を示す。
論文 参考訳(メタデータ) (2024-02-07T09:03:04Z) - Importance-Aware Adaptive Dataset Distillation [53.79746115426363]
ディープラーニングモデルの開発は、大規模データセットの可用性によって実現されている。
データセットの蒸留は、大きな元のデータセットから必須情報を保持するコンパクトなデータセットを合成することを目的としている。
本稿では, 蒸留性能を向上する重要適応型データセット蒸留(IADD)法を提案する。
論文 参考訳(メタデータ) (2024-01-29T03:29:39Z) - Can pre-trained models assist in dataset distillation? [21.613468512330442]
事前訓練されたモデル(PTM)は知識リポジトリとして機能し、元のデータセットからの広範な情報を含んでいる。
PTMは、知識を合成データセットに効果的に転送し、DDを正確に導くことができますか?
我々は,初期化パラメータ,モデルアーキテクチャ,エポックトレーニング,ドメイン知識など,PTMのさまざまな選択肢を体系的に研究する。
論文 参考訳(メタデータ) (2023-10-05T03:51:21Z) - A Comprehensive Survey of Dataset Distillation [73.15482472726555]
限られた計算能力で無制限に成長するデータを扱うことは困難になっている。
ディープラーニング技術はこの10年で前例のない発展を遂げた。
本稿では,多面的なデータセット蒸留の総合的な理解を提供する。
論文 参考訳(メタデータ) (2023-01-13T15:11:38Z) - Learning to Generate Synthetic Training Data using Gradient Matching and
Implicit Differentiation [77.34726150561087]
本稿では,深層ネットワークの訓練に要するデータ量を削減できる各種データ蒸留技術について検討する。
近年の考え方に触発されて, 生成的学習ネットワーク, 勾配マッチング, インプリシット関数理論に基づく新しいデータ蒸留手法を提案する。
論文 参考訳(メタデータ) (2022-03-16T11:45:32Z) - Learning to Count in the Crowd from Limited Labeled Data [109.2954525909007]
我々は,限られた数のラベル付きサンプルから参加者を数えることを学ぶことで,アノテーションの努力を減らすことに重点を置いている。
具体的には,未ラベルデータに対する擬似地下真理推定を含むガウス過程に基づく反復学習機構を提案する。
論文 参考訳(メタデータ) (2020-07-07T04:17:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。