論文の概要: What Makes a Good Dataset for Knowledge Distillation?
- arxiv url: http://arxiv.org/abs/2411.12817v1
- Date: Tue, 19 Nov 2024 19:10:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-21 16:12:23.078690
- Title: What Makes a Good Dataset for Knowledge Distillation?
- Title(参考訳): 知識蒸留のための良いデータセットとは何か?
- Authors: Logan Frank, Jim Davis,
- Abstract要約: 知識蒸留(KD)は、モデル圧縮の一般的かつ効果的な方法である。
KDの重要な前提の1つは、教師のオリジナルのデータセットが学生のトレーニング時にも利用できることである。
企業なしデータセットでトレーニングされた大規模なモデルの連続学習や蒸留といった状況では、元のデータにアクセスすることは必ずしも不可能である。
- 参考スコア(独自算出の注目度): 4.604003661048267
- License:
- Abstract: Knowledge distillation (KD) has been a popular and effective method for model compression. One important assumption of KD is that the teacher's original dataset will also be available when training the student. However, in situations such as continual learning and distilling large models trained on company-withheld datasets, having access to the original data may not always be possible. This leads practitioners towards utilizing other sources of supplemental data, which could yield mixed results. One must then ask: "what makes a good dataset for transferring knowledge from teacher to student?" Many would assume that only real in-domain imagery is viable, but is that the only option? In this work, we explore multiple possible surrogate distillation datasets and demonstrate that many different datasets, even unnatural synthetic imagery, can serve as a suitable alternative in KD. From examining these alternative datasets, we identify and present various criteria describing what makes a good dataset for distillation. Source code will be available in the future.
- Abstract(参考訳): 知識蒸留(KD)は、モデル圧縮の一般的かつ効果的な方法である。
KDの重要な前提の1つは、教師のオリジナルのデータセットが学生のトレーニング時にも利用できることである。
しかし、継続学習や企業なしデータセットでトレーニングされた大規模モデルの蒸留といった状況では、元のデータにアクセスすることは必ずしも不可能である。
このことは、実践者が他の補足的データソースを利用することにつながり、結果が混在する可能性がある。
教師から生徒に知識を伝達するための良いデータセットは何なのか?
多くの人は、実際のドメイン内画像だけが実現可能であると仮定するでしょうが、それが唯一の選択肢なのでしょうか?
本研究では,複数のサロゲート蒸留データセットを探索し,不自然な合成画像であっても,多くの異なるデータセットがKDの適切な代替となることを示す。
これらの代替データセットを調べることで、蒸留に適したデータセットが何を作るのかを記述した様々な基準を特定し、提示する。
ソースコードは将来的に利用可能になる予定だ。
関連論文リスト
- What is Dataset Distillation Learning? [32.99890244958794]
本研究では, 蒸留データの挙動, 代表性, ポイントワイド情報量について検討する。
蒸留したデータは、トレーニング中に実際のデータに代わるものとしては役に立たない。
蒸留データを解釈し、個別の蒸留データポイントが意味のある意味情報を含んでいることを示す枠組みを提供する。
論文 参考訳(メタデータ) (2024-06-06T17:28:56Z) - Data-Free Knowledge Distillation Using Adversarially Perturbed OpenGL
Shader Images [5.439020425819001]
知識蒸留(KD)は、モデル圧縮の一般的かつ効果的な方法である。
データフリー」なKDは、データが提供されていない場合のKDの実行シナリオに焦点を当てた、研究トピックとして発展しつつある。
非自然な画像と大量のデータ拡張と敵攻撃を組み合わせた、データフリーなKDに対する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-10-20T19:28:50Z) - Distill Gold from Massive Ores: Bi-level Data Pruning towards Efficient Dataset Distillation [96.92250565207017]
本研究では,データセット蒸留作業におけるデータ効率と選択について検討する。
蒸留の力学を再現することにより、実際のデータセットに固有の冗長性についての洞察を提供する。
蒸留における因果関係から最も寄与した試料を見出した。
論文 参考訳(メタデータ) (2023-05-28T06:53:41Z) - Unbiased Knowledge Distillation for Recommendation [66.82575287129728]
知識蒸留(KD)は推論遅延を低減するためにレコメンダシステム(RS)に応用されている。
従来のソリューションは、まずトレーニングデータから完全な教師モデルを訓練し、その後、その知識を変換して、コンパクトな学生モデルの学習を監督する。
このような標準的な蒸留パラダイムは深刻なバイアス問題を引き起こし、蒸留後に人気アイテムがより強く推奨されることになる。
論文 参考訳(メタデータ) (2022-11-27T05:14:03Z) - Exploring Inconsistent Knowledge Distillation for Object Detection with
Data Augmentation [66.25738680429463]
物体検出のための知識蒸留(KD)は、教師モデルから知識を伝達することで、コンパクトな検出器を訓練することを目的としている。
教師モデルの反直感的知覚に固有の知識を蒸留することを目的とした,一貫性のない知識蒸留(IKD)を提案する。
本手法は, 1段, 2段, アンカーフリーの物体検出器において, 最先端のKDベースラインより優れる。
論文 参考訳(メタデータ) (2022-09-20T16:36:28Z) - Black-box Few-shot Knowledge Distillation [55.27881513982002]
知識蒸留 (KD) は、大きな「教師」ネットワークからより小さな「学生」ネットワークへ知識を伝達する効率的な手法である。
そこで本研究では,未ラベルのトレーニングサンプルとブラックボックスの教師を用いて,学生を訓練するためのブラックボックス数ショットKD手法を提案する。
我々は、画像分類タスクにおいて、最近のSOTA/ゼロショットKD法よりも大幅に優れていることを示すため、広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-07-25T12:16:53Z) - Unified and Effective Ensemble Knowledge Distillation [92.67156911466397]
知識蒸留は、複数の教師モデルから知識を抽出し、それを1人の学生モデルにエンコードする。
既存の多くの手法は、ラベル付きデータのみに基づいて学生モデルを学習し、蒸留する。
本研究では,教師モデルのアンサンブルから,ラベル付きデータとラベルなしデータの両方から単一学生モデルを蒸留する,統一的で効果的なアンサンブル知識蒸留法を提案する。
論文 参考訳(メタデータ) (2022-04-01T16:15:39Z) - Large-Scale Generative Data-Free Distillation [17.510996270055184]
本質的な正規化層の統計を利用して生成画像モデルを訓練する新しい方法を提案する。
提案手法は, CIFAR-10とCIFAR-100のデータフリー蒸留性能を95.02%, 77.02%に向上させる。
ImageNetデータセットにスケールすることができますが、私たちの知る限り、データフリー環境で生成モデルを使用することは一度もありません。
論文 参考訳(メタデータ) (2020-12-10T10:54:38Z) - Role-Wise Data Augmentation for Knowledge Distillation [48.115719640111394]
知識蒸留(KD)は、ある機械学習モデルから学んだ知識を別の機械学習モデルに転送する一般的な方法である。
我々は、知識蒸留を促進するために、異なる役割を持つデータ増強剤を設計する。
特別に調整されたデータポイントが、教師の知識をより効果的に生徒に示せることを実証的に見出した。
論文 参考訳(メタデータ) (2020-04-19T14:22:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。