論文の概要: Dataset Distillation via Knowledge Distillation: Towards Efficient Self-Supervised Pre-Training of Deep Networks
- arxiv url: http://arxiv.org/abs/2410.02116v1
- Date: Thu, 3 Oct 2024 00:39:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-04 08:45:48.532633
- Title: Dataset Distillation via Knowledge Distillation: Towards Efficient Self-Supervised Pre-Training of Deep Networks
- Title(参考訳): 知識蒸留によるデータセット蒸留-ディープネットワークの効率的な自己監督型事前学習を目指して-
- Authors: Siddharth Joshi, Jiayi Ni, Baharan Mirzasoleiman,
- Abstract要約: SSL事前トレーニングのための最初の有効なDD法を提案する。
具体的には、SSLでトレーニングされたより大きな教師モデルの表現に合わせるために、小さな学生モデルを訓練する。
KDの目的はSSLよりもかなり分散度が低いため、我々の手法は、高品質エンコーダの事前訓練に成功できる合成データセットを生成することができる。
- 参考スコア(独自算出の注目度): 10.932880269282014
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Dataset distillation (DD) generates small synthetic datasets that can efficiently train deep networks with a limited amount of memory and compute. Despite the success of DD methods for supervised learning, DD for self-supervised pre-training of deep models has remained unaddressed. Pre-training on unlabeled data is crucial for efficiently generalizing to downstream tasks with limited labeled data. In this work, we propose the first effective DD method for SSL pre-training. First, we show, theoretically and empirically, that naive application of supervised DD methods to SSL fails, due to the high variance of the SSL gradient. Then, we address this issue by relying on insights from knowledge distillation (KD) literature. Specifically, we train a small student model to match the representations of a larger teacher model trained with SSL. Then, we generate a small synthetic dataset by matching the training trajectories of the student models. As the KD objective has considerably lower variance than SSL, our approach can generate synthetic datasets that can successfully pre-train high-quality encoders. Through extensive experiments, we show that our distilled sets lead to up to 13% higher accuracy than prior work, on a variety of downstream tasks, in the presence of limited labeled data.
- Abstract(参考訳): データセット蒸留(DD)は、限られたメモリと計算量でディープネットワークを効率的に訓練できる小さな合成データセットを生成する。
教師付き学習のためのDD手法の成功にもかかわらず、ディープモデルの自己教師付き事前学習のためのDDは、未適応のままである。
ラベル付きデータに対する事前トレーニングは、ラベル付きデータに制限のある下流タスクに効率的に一般化するために重要である。
本研究では,SSL事前トレーニングのための最初の有効なDD法を提案する。
まず、理論上かつ実証的に、SSL勾配のばらつきが大きいため、教師付きDDメソッドのSSLへの適用は失敗することを示す。
そこで本研究では,知識蒸留(KD)文献の知見に頼ってこの問題に対処する。
具体的には、SSLでトレーニングされたより大きな教師モデルの表現に合わせるために、小さな学生モデルを訓練する。
そして,学生モデルの学習軌跡をマッチングして,小さな合成データセットを生成する。
KDの目的はSSLよりもかなり分散度が低いため、我々の手法は、高品質エンコーダの事前訓練に成功できる合成データセットを生成することができる。
広範囲な実験により, 蒸留セットは, ラベル付き限られたデータの存在下で, 様々な下流タスクにおいて, 先行作業よりも最大13%高い精度で処理できることが判明した。
関連論文リスト
- Small Scale Data-Free Knowledge Distillation [37.708282211941416]
小型データフリーな知識蒸留SSD-KDを提案する。
SSD-KDは、適切なサンプルを選択するために、合成サンプルと優先サンプリング関数のバランスをとる。
非常に少量の合成サンプルで蒸留訓練を行うことができる。
論文 参考訳(メタデータ) (2024-06-12T05:09:41Z) - On Pretraining Data Diversity for Self-Supervised Learning [57.91495006862553]
我々は、より多様なデータセットを用いたトレーニングが、固定された計算予算の下での自己教師付き学習(SSL)のパフォーマンスに与える影響について検討する。
以上の結果から,事前学習データの多様性の増大はSSL性能を向上させるが,下流データへの分布距離が最小である場合に限る。
論文 参考訳(メタデータ) (2024-03-20T17:59:58Z) - Self-supervised learning for skin cancer diagnosis with limited training data [0.196629787330046]
自己教師付き学習(SSL)は、限られたトレーニングデータを持つシナリオに対するImageNetの標準教師付き事前トレーニングの代替である。
textitfurther SSL をタスク固有のデータセットで事前トレーニングし、その実装は教師あり転送学習によって動機づけられる。
タスク固有のデータに対するより最小限のSSL事前トレーニングは、限られたラベル付きデータによる医療画像分類タスクにおいて、ImageNet上の大規模なSSL事前トレーニングと同じくらい効果的である。
論文 参考訳(メタデータ) (2024-01-01T08:11:38Z) - Dataset Distillation: A Comprehensive Review [76.26276286545284]
データセット蒸留(DD)は、トレーニングされたモデルが元のデータセットでトレーニングされたデータセットに匹敵するパフォーマンスを得るために、合成サンプルを含むはるかに小さなデータセットを導出することを目的としている。
本稿ではDDの最近の進歩とその応用について概説する。
論文 参考訳(メタデータ) (2023-01-17T17:03:28Z) - Self-omics: A Self-supervised Learning Framework for Multi-omics Cancer
Data [4.843654097048771]
SSL(Self-Supervised Learning)メソッドは、通常はラベル付きデータを扱うために使用される。
我々は、SSLコンポーネントからなる新しい事前学習パラダイムを開発する。
本手法はTGAパン癌データセットの癌型分類における最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2022-10-03T11:20:12Z) - Open-Set Semi-Supervised Learning for 3D Point Cloud Understanding [62.17020485045456]
半教師付き学習(SSL)では、ラベル付きデータと同じ分布からラベル付きデータが引き出されることが一般的である。
サンプル重み付けによりラベルなしデータを選択的に活用することを提案する。
論文 参考訳(メタデータ) (2022-05-02T16:09:17Z) - Dataset Distillation by Matching Training Trajectories [75.9031209877651]
そこで本研究では,実データと同じような状態にネットワークを誘導するために,蒸留データを最適化する新しい定式化を提案する。
ネットワークが与えられたら、蒸留データを何回か繰り返して訓練し、合成訓練されたパラメータと実データで訓練されたパラメータとの距離に関して蒸留データを最適化する。
本手法は既存の手法よりも優れており,高解像度の視覚データを蒸留することができる。
論文 参考訳(メタデータ) (2022-03-22T17:58:59Z) - Knowledge Distillation as Efficient Pre-training: Faster Convergence,
Higher Data-efficiency, and Better Transferability [53.27240222619834]
効率的な事前学習としての知識蒸留は、学習した特徴表現を学習済みモデルから将来の下流タスクのための新しい学生モデルに効率的に転送することを目的としている。
提案手法は,3つの下流タスクにおける教師付き事前学習タスクと,10倍少ないデータと5倍少ない事前学習時間を必要とする9つの下流データセットとを比較検討する。
論文 参考訳(メタデータ) (2022-03-10T06:23:41Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。