論文の概要: Dataset Distillation: A Comprehensive Review
- arxiv url: http://arxiv.org/abs/2301.07014v3
- Date: Sat, 7 Oct 2023 12:16:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-13 15:18:08.289255
- Title: Dataset Distillation: A Comprehensive Review
- Title(参考訳): Dataset Distillation: 総合的なレビュー
- Authors: Ruonan Yu, Songhua Liu, Xinchao Wang
- Abstract要約: データセット蒸留(DD)は、トレーニングされたモデルが元のデータセットでトレーニングされたデータセットに匹敵するパフォーマンスを得るために、合成サンプルを含むはるかに小さなデータセットを導出することを目的としている。
本稿ではDDの最近の進歩とその応用について概説する。
- 参考スコア(独自算出の注目度): 76.26276286545284
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent success of deep learning is largely attributed to the sheer amount of
data used for training deep neural networks.Despite the unprecedented success,
the massive data, unfortunately, significantly increases the burden on storage
and transmission and further gives rise to a cumbersome model training process.
Besides, relying on the raw data for training \emph{per se} yields concerns
about privacy and copyright. To alleviate these shortcomings, dataset
distillation~(DD), also known as dataset condensation (DC), was introduced and
has recently attracted much research attention in the community. Given an
original dataset, DD aims to derive a much smaller dataset containing synthetic
samples, based on which the trained models yield performance comparable with
those trained on the original dataset. In this paper, we give a comprehensive
review and summary of recent advances in DD and its application. We first
introduce the task formally and propose an overall algorithmic framework
followed by all existing DD methods. Next, we provide a systematic taxonomy of
current methodologies in this area, and discuss their theoretical
interconnections. We also present current challenges in DD through extensive
experiments and envision possible directions for future works.
- Abstract(参考訳): 最近のディープラーニングの成功は、ディープニューラルネットワークのトレーニングに使用される膨大な量のデータに起因するが、前例のない成功にもかかわらず、巨大なデータは残念ながら、ストレージと送信の負担を大幅に増加させ、さらに厄介なモデルトレーニングプロセスを生み出している。
さらに、トレーニングのための生データに依存することは、プライバシーと著作権に関する懸念をもたらす。
これらの欠点を軽減するため、データセット蒸留~(DD)と呼ばれるデータセット凝縮(DC)が導入され、最近コミュニティで多くの研究が注目されている。
オリジナルのデータセットを与えられたddは、トレーニングされたモデルが元のデータセットでトレーニングされたデータセットと同等のパフォーマンスを提供する、合成サンプルを含むはるかに小さなデータセットを導出することを目指している。
本稿ではDDの最近の進歩とその応用について概説する。
まず,このタスクを形式的に紹介し,既存のdd法に追従するアルゴリズムフレームワークを提案する。
次に、この領域における現在の方法論の体系的分類法を提供し、それらの理論的相互関係について論じる。
また, DDにおける今後の課題として, 広範な実験と今後の研究の方向性を考察する。
関連論文リスト
- Dataset Distillation via Knowledge Distillation: Towards Efficient Self-Supervised Pre-Training of Deep Networks [10.932880269282014]
SSL事前トレーニングのための最初の有効なDD法を提案する。
具体的には、SSLでトレーニングされたより大きな教師モデルの表現に合わせるために、小さな学生モデルを訓練する。
KDの目的はSSLよりもかなり分散度が低いため、我々の手法は、高品質エンコーダの事前訓練に成功できる合成データセットを生成することができる。
論文 参考訳(メタデータ) (2024-10-03T00:39:25Z) - Dataset Distillation from First Principles: Integrating Core Information Extraction and Purposeful Learning [10.116674195405126]
我々は、基礎となる最適化問題の正確な特徴付けは、関心の応用に関連する推論タスクを指定しなければならないと論じる。
我々の形式化は、様々なモデリング環境にまたがるDDの新たな応用を明らかにします。
現代の環境において重要な2つのケーススタディについて数値的な結果を示す。
論文 参考訳(メタデータ) (2024-09-02T18:11:15Z) - Not All Samples Should Be Utilized Equally: Towards Understanding and Improving Dataset Distillation [57.6797306341115]
我々は,サンプル難易度の観点から,マッチングに基づくDD手法の理解に向けて最初の一歩を踏み出した。
次に、データプルーニングのニューラルネットワークスケーリング法則をDDに拡張し、これらのマッチングベースの手法を理論的に説明する。
SDC(Sampple Difficulty Correction)アプローチを導入し、より簡単なサンプルを生成して、より高いデータセット品質を実現する。
論文 参考訳(メタデータ) (2024-08-22T15:20:32Z) - Behaviour Distillation [10.437472004180883]
我々は、専門家ポリシーのトレーニングに必要な情報を合成データセットに発見・凝縮することを目的とした行動蒸留を定式化する。
次に,Halucinating datasets with Evolution Strategies (HaDES)を紹介した。
これらのデータセットは分散から多種多様なアーキテクチャでトレーニングポリシーへと一般化されていることを示す。
また、下流タスク、すなわちゼロショット方式でマルチタスクエージェントを訓練するアプリケーションの実演を行う。
論文 参考訳(メタデータ) (2024-06-21T10:45:43Z) - Group Distributionally Robust Dataset Distillation with Risk
Minimization [18.07189444450016]
本稿では,クラスタリングとリスク尺度の最小化を組み合わせ,DDを遂行する損失を最小化するアルゴリズムを提案する。
数値実験により,その有効一般化と部分群間のロバスト性を示す。
論文 参考訳(メタデータ) (2024-02-07T09:03:04Z) - Importance-Aware Adaptive Dataset Distillation [53.79746115426363]
ディープラーニングモデルの開発は、大規模データセットの可用性によって実現されている。
データセットの蒸留は、大きな元のデータセットから必須情報を保持するコンパクトなデータセットを合成することを目的としている。
本稿では, 蒸留性能を向上する重要適応型データセット蒸留(IADD)法を提案する。
論文 参考訳(メタデータ) (2024-01-29T03:29:39Z) - Can pre-trained models assist in dataset distillation? [21.613468512330442]
事前訓練されたモデル(PTM)は知識リポジトリとして機能し、元のデータセットからの広範な情報を含んでいる。
PTMは、知識を合成データセットに効果的に転送し、DDを正確に導くことができますか?
我々は,初期化パラメータ,モデルアーキテクチャ,エポックトレーニング,ドメイン知識など,PTMのさまざまな選択肢を体系的に研究する。
論文 参考訳(メタデータ) (2023-10-05T03:51:21Z) - A Comprehensive Survey of Dataset Distillation [73.15482472726555]
限られた計算能力で無制限に成長するデータを扱うことは困難になっている。
ディープラーニング技術はこの10年で前例のない発展を遂げた。
本稿では,多面的なデータセット蒸留の総合的な理解を提供する。
論文 参考訳(メタデータ) (2023-01-13T15:11:38Z) - Learning to Generate Synthetic Training Data using Gradient Matching and
Implicit Differentiation [77.34726150561087]
本稿では,深層ネットワークの訓練に要するデータ量を削減できる各種データ蒸留技術について検討する。
近年の考え方に触発されて, 生成的学習ネットワーク, 勾配マッチング, インプリシット関数理論に基づく新しいデータ蒸留手法を提案する。
論文 参考訳(メタデータ) (2022-03-16T11:45:32Z) - Learning to Count in the Crowd from Limited Labeled Data [109.2954525909007]
我々は,限られた数のラベル付きサンプルから参加者を数えることを学ぶことで,アノテーションの努力を減らすことに重点を置いている。
具体的には,未ラベルデータに対する擬似地下真理推定を含むガウス過程に基づく反復学習機構を提案する。
論文 参考訳(メタデータ) (2020-07-07T04:17:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。