論文の概要: Revisiting Knowledge Distillation: The Hidden Role of Dataset Size
- arxiv url: http://arxiv.org/abs/2510.15516v1
- Date: Fri, 17 Oct 2025 10:40:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-20 20:17:34.581203
- Title: Revisiting Knowledge Distillation: The Hidden Role of Dataset Size
- Title(参考訳): 知識蒸留を再考する:データセットサイズの隠れた役割
- Authors: Giulia Lanzillotta, Felix Sarnthein, Gil Kur, Thomas Hofmann, Bobby He,
- Abstract要約: 知識蒸留(KD)は、教師モデルから学生モデルの訓練を記述し、ディープラーニングにおいて広く採用されている技法である。
従来の研究では、蒸留の2つの中心的な側面、すなわちモデルサイズと一般化に焦点が当てられていた。
本研究では,3次元の蒸留について検討する。
我々は、さまざまなデータセット、タスク、ニューラルネットワークに関する一連の実験を行い、蒸留の効果は保存されているだけでなく、低データ体制下で増幅されていることを実証した。
- 参考スコア(独自算出の注目度): 37.68403967604424
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The concept of knowledge distillation (KD) describes the training of a student model from a teacher model and is a widely adopted technique in deep learning. However, it is still not clear how and why distillation works. Previous studies focus on two central aspects of distillation: model size, and generalisation. In this work we study distillation in a third dimension: dataset size. We present a suite of experiments across a wide range of datasets, tasks and neural architectures, demonstrating that the effect of distillation is not only preserved but amplified in low-data regimes. We call this newly discovered property the data efficiency of distillation. Equipped with this new perspective, we test the predictive power of existing theories of KD as we vary the dataset size. Our results disprove the hypothesis that distillation can be understood as label smoothing, and provide further evidence in support of the dark knowledge hypothesis. Finally, we analyse the impact of modelling factors such as the objective, scale and relative number of samples on the observed phenomenon. Ultimately, this work reveals that the dataset size may be a fundamental but overlooked variable in the mechanisms underpinning distillation.
- Abstract(参考訳): 知識蒸留(KD)の概念は、教師モデルから学生モデルの訓練を記述し、深層学習において広く採用されている技法である。
しかし、なぜ蒸留が効くのかは定かではない。
従来の研究では、蒸留の2つの中心的な側面、すなわちモデルサイズと一般化に焦点が当てられていた。
本研究では,3次元の蒸留について検討する。
我々は、さまざまなデータセット、タスク、ニューラルネットワークに関する一連の実験を行い、蒸留の効果は保存されているだけでなく、低データ体制下で増幅されていることを実証した。
我々はこの新たに発見された資産を蒸留のデータ効率と呼ぶ。
この新たな観点から、データセットのサイズが変化するにつれて、既存のKD理論の予測力をテストする。
その結果, 蒸留はラベルの平滑化と解釈できるという仮説を否定し, ダークナレッジ仮説を支持するさらなる証拠を提供することができた。
最後に, 対象, スケール, 相対数などのモデル因子が観測された現象に与える影響を解析した。
最終的に、この研究は、蒸留の基盤となるメカニズムにおいて、データセットのサイズが基本的なものの見過ごされた変数であることを明らかにする。
関連論文リスト
- Distilling Diversity and Control in Diffusion Models [27.352868008401614]
蒸留拡散モデルには限界があり、サンプルの多様性は基本モデルと比べて減少する。
この多様性の喪失にもかかわらず、蒸留されたモデルは基本モデルの基本的な概念表現を維持していることを示す。
多様性蒸留は, 基本モデルを, 効率の良い蒸留モデルに移行する前に, 第一臨界段階のみに戦略的に活用するハイブリッド推論手法である。
論文 参考訳(メタデータ) (2025-03-13T17:59:56Z) - Knowledge Distillation with Refined Logits [31.205248790623703]
本稿では,現在のロジット蒸留法の限界に対処するため,Refined Logit Distillation (RLD)を導入する。
我々のアプローチは、高性能な教師モデルでさえ誤った予測をすることができるという観察に動機づけられている。
本手法は,教師からの誤解を招く情報を,重要なクラス相関を保ちながら効果的に排除することができる。
論文 参考訳(メタデータ) (2024-08-14T17:59:32Z) - Distill Gold from Massive Ores: Bi-level Data Pruning towards Efficient Dataset Distillation [96.92250565207017]
本研究では,データセット蒸留作業におけるデータ効率と選択について検討する。
蒸留の力学を再現することにより、実際のデータセットに固有の冗長性についての洞察を提供する。
蒸留における因果関係から最も寄与した試料を見出した。
論文 参考訳(メタデータ) (2023-05-28T06:53:41Z) - A Comprehensive Study on Dataset Distillation: Performance, Privacy,
Robustness and Fairness [8.432686179800543]
我々は,現在最先端のデータセット蒸留法を評価するために,広範囲な実験を行っている。
私たちは、プライバシーリスクがまだ残っていることを示すために、メンバーシップ推論攻撃をうまく利用しています。
この研究は、データセットの蒸留評価のための大規模なベンチマークフレームワークを提供する。
論文 参考訳(メタデータ) (2023-05-05T08:19:27Z) - Unified and Effective Ensemble Knowledge Distillation [92.67156911466397]
知識蒸留は、複数の教師モデルから知識を抽出し、それを1人の学生モデルにエンコードする。
既存の多くの手法は、ラベル付きデータのみに基づいて学生モデルを学習し、蒸留する。
本研究では,教師モデルのアンサンブルから,ラベル付きデータとラベルなしデータの両方から単一学生モデルを蒸留する,統一的で効果的なアンサンブル知識蒸留法を提案する。
論文 参考訳(メタデータ) (2022-04-01T16:15:39Z) - Why distillation helps: a statistical perspective [69.90148901064747]
知識蒸留は、単純な「学生」モデルの性能を向上させる技術である。
この単純なアプローチは広く有効であることが証明されているが、基本的な問題は未解決のままである。
蒸留が既存の負の鉱業技術をどのように補完し, 極端に多層的検索を行うかを示す。
論文 参考訳(メタデータ) (2020-05-21T01:49:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。