論文の概要: Rethinking Knowledge Distillation: A Data Dependent Regulariser With a Negative Asymmetric Payoff
- arxiv url: http://arxiv.org/abs/2510.12615v1
- Date: Tue, 14 Oct 2025 15:14:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-15 19:02:32.363386
- Title: Rethinking Knowledge Distillation: A Data Dependent Regulariser With a Negative Asymmetric Payoff
- Title(参考訳): 知識蒸留を再考する - 負の非対称ペイオフを持つデータ依存正規化器
- Authors: Israel Mason-Williams, Gabryel Mason-Williams, Helen Yannakoudakis,
- Abstract要約: 我々は,知識蒸留の圧縮能力と,機能の観点から得られた知識伝達の定量化を行う。
その結果, 知識蒸留は圧縮機構として機能し, 負の非対称ペイオフを持つデータ依存正規化器として機能することが示唆された。
- 参考スコア(独自算出の注目度): 4.908739793053431
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Knowledge distillation is often considered a compression mechanism when judged on the resulting student's accuracy and loss, yet its functional impact is poorly understood. In this work, we quantify the compression capacity of knowledge distillation and the resulting knowledge transfer from a functional perspective, decoupling compression from architectural reduction, which provides an improved understanding of knowledge distillation. We employ hypothesis testing, controls, and random control distillation to understand knowledge transfer mechanisms across data modalities. To rigorously test the breadth and limits of our analyses, we explore multiple distillation variants and analyse distillation scaling laws across model sizes. Our findings demonstrate that, while there is statistically significant knowledge transfer in some modalities and architectures, the extent of this transfer is less pronounced than anticipated, even under conditions designed to maximise knowledge sharing. Notably, in cases of significant knowledge transfer, we identify a consistent and severe asymmetric transfer of negative knowledge to the student, raising safety concerns in knowledge distillation applications. Across 12 experimental setups, 9 architectures, and 7 datasets, our findings show that knowledge distillation functions less as a compression mechanism and more as a data-dependent regulariser with a negative asymmetric payoff.
- Abstract(参考訳): 知識蒸留は、結果の正確さと損失に基づいて判断された場合、しばしば圧縮機構とみなされるが、その機能的影響は理解されていない。
本研究では, 知識蒸留の圧縮能力と機能的観点からの知識伝達の定量化, アーキテクチャ的還元から圧縮を分離することにより, 知識蒸留の理解を深める。
データモダリティ間の知識伝達機構を理解するために、仮説テスト、制御、ランダム制御蒸留を用いる。
分析の幅と限界を厳密に検証するため,複数の蒸留変種を探索し,モデルサイズをまたいだ蒸留スケーリング法則を解析した。
以上の結果から,知識共有を最大化するための条件下であっても,いくつかのモダリティやアーキテクチャには統計的に有意な知識伝達が存在するが,この伝達の程度は予想よりも顕著ではないことが示唆された。
特に、重要な知識伝達の場合、負の知識の学生への一貫した厳密な非対称な伝達を特定し、知識蒸留への応用における安全性の懸念を提起する。
実験装置12件, アーキテクチャ9件, データセット7件を対象に, 知識蒸留は圧縮機構として機能し, 負の非対称ペイオフを伴うデータ依存型正規化器として機能することが示唆された。
関連論文リスト
- Exploring Feature-based Knowledge Distillation for Recommender System: A Frequency Perspective [4.1752785943044985]
周波数の観点から特徴量に基づく知識蒸留を推奨するために分析する。
我々は,知識重みを再分配することによって重要な知識を強調することを提案する。
広範囲にわたる実験により、FreqDはレコメンダシステムに対する最先端の知識蒸留法よりも一貫して、著しく優れていることが示された。
論文 参考訳(メタデータ) (2024-11-16T02:41:12Z) - The Staged Knowledge Distillation in Video Classification: Harmonizing
Student Progress by a Complementary Weakly Supervised Framework [21.494759678807686]
ビデオ分類における知識蒸留のための弱教師付き学習フレームワークを提案する。
本手法は,サブステージ学習の概念を利用して,学生のサブステージの組み合わせと,それに対応するサブステージの相関に基づく知識を抽出する。
提案手法は,ビデオデータに対するラベル効率学習の今後の研究の可能性を秘めている。
論文 参考訳(メタデータ) (2023-07-11T12:10:42Z) - Knowledge Distillation via Token-level Relationship Graph [12.356770685214498]
token-level Relation Graph (TRG) を用いた知識蒸留法を提案する。
TRGを利用することで、教師モデルから高レベルの意味情報を効果的にエミュレートすることができる。
我々は,提案手法の有効性を,いくつかの最先端手法に対して評価する実験を行った。
論文 参考訳(メタデータ) (2023-06-20T08:16:37Z) - Exploring Inconsistent Knowledge Distillation for Object Detection with
Data Augmentation [66.25738680429463]
物体検出のための知識蒸留(KD)は、教師モデルから知識を伝達することで、コンパクトな検出器を訓練することを目的としている。
教師モデルの反直感的知覚に固有の知識を蒸留することを目的とした,一貫性のない知識蒸留(IKD)を提案する。
本手法は, 1段, 2段, アンカーフリーの物体検出器において, 最先端のKDベースラインより優れる。
論文 参考訳(メタデータ) (2022-09-20T16:36:28Z) - Towards Understanding Knowledge Distillation [37.71779364624616]
知識蒸留は、分類器間の知識伝達において、経験的に非常に成功した技術である。
この現象の十分な理論的説明はない。
本稿では, 線形および深部線形分類器の特別事例を考察することにより, 蒸留の作業機構に関する最初の知見を提供する。
論文 参考訳(メタデータ) (2021-05-27T12:45:08Z) - Towards Understanding Ensemble, Knowledge Distillation and
Self-Distillation in Deep Learning [93.18238573921629]
本研究では,学習モデルのアンサンブルがテスト精度を向上させる方法と,アンサンブルの優れた性能を単一モデルに蒸留する方法について検討する。
深層学習におけるアンサンブル/知識蒸留は,従来の学習理論とは大きく異なる。
また, 自己蒸留は, アンサンブルと知識蒸留を暗黙的に組み合わせて, 試験精度を向上させることができることを示した。
論文 参考訳(メタデータ) (2020-12-17T18:34:45Z) - Computation-Efficient Knowledge Distillation via Uncertainty-Aware Mixup [91.1317510066954]
我々は, 知識蒸留効率という, ささやかだが重要な質問について研究する。
我々のゴールは、訓練中に計算コストの低い従来の知識蒸留に匹敵する性能を達成することである。
我々は,Uncertainty-aware mIXup (UNIX) がクリーンで効果的なソリューションであることを示す。
論文 参考訳(メタデータ) (2020-12-17T06:52:16Z) - Knowledge distillation via adaptive instance normalization [52.91164959767517]
本稿では,教師から生徒への特徴統計の伝達に基づく新しい知識蒸留法を提案する。
本手法は,教師に類似する生徒の平均と分散を強制する標準的な方法を超えている。
以上の結果から, 蒸留法は他の蒸留法よりも高い性能を示した。
論文 参考訳(メタデータ) (2020-03-09T17:50:12Z) - Residual Knowledge Distillation [96.18815134719975]
本研究は,アシスタント(A)を導入し,さらに知識を蒸留する残留知識蒸留(RKD)を提案する。
このように、S は T の特徴写像を模倣するように訓練され、A はそれらの間の残差を学習することでこの過程を支援する。
提案手法は,CIFAR-100 と ImageNet という,一般的な分類データセットにおいて魅力的な結果が得られることを示す。
論文 参考訳(メタデータ) (2020-02-21T07:49:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。