論文の概要: Education distillation:getting student models to learn in shcools
- arxiv url: http://arxiv.org/abs/2311.13811v2
- Date: Mon, 27 Nov 2023 02:32:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-28 11:50:17.908044
- Title: Education distillation:getting student models to learn in shcools
- Title(参考訳): 教育蒸留:学生モデルを用いてシュクールで学ぶ
- Authors: Ling Feng, Danyang Li, Tianhao Wu, Xuliang Duan
- Abstract要約: 本稿では,知識蒸留における動的漸進学習を紹介する。
完全学生モデルから分割した断片化された学生モデルを下級モデルとして扱うことが提案されている。
- 参考スコア(独自算出の注目度): 15.473668050280304
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Knowledge distillation is one of the methods for model compression, and
existing knowledge distillation techniques focus on how to improve the
distillation algorithm so as to enhance the distillation efficiency. This paper
introduces dynamic incremental learning into knowledge distillation and
proposes a distillation strategy for education distillation. Specifically, it
is proposed to take fragmented student models divided from the complete student
model as lower-grade models. As the grade level rises, fragmented student
models deepen in conjunction with designed teaching reference layers, while
learning and distilling from more teacher models. By moving from lower to
higher grades, fragmented student models were gradually integrated into a
complete target student model, and the performance of the student models
gradually improved from lower to higher grades of the stage. Education
distillation strategies combined with distillation algorithms outperform the
results of single distillation algorithms on the public dataset
CIFAR100,Caltech256, Food-101 dataset.
- Abstract(参考訳): 知識蒸留はモデル圧縮の方法の一つであり、既存の知識蒸留技術は蒸留効率を高めるために蒸留アルゴリズムを改善する方法に焦点を当てている。
本稿では,知識蒸留における動的漸進学習を導入し,教育蒸留のための蒸留戦略を提案する。
具体的には, 学生モデルの断片化を, 学生モデルから下位モデルへと分割することを提案する。
学級レベルが上がるにつれて、断片化された学生モデルはデザインされた教育基準層と共に深くなり、さらに多くの教師モデルから学び、蒸留する。
低学年から高学年への移行により、断片化された学生モデルは徐々に完全な対象の学生モデルに統合され、学生モデルの性能は段階の下位から上位へと徐々に向上した。
教育蒸留戦略と蒸留アルゴリズムの組み合わせは、公開データセットであるcifar100,caltech256,food-101データセットで単一蒸留アルゴリズムの結果を上回る。
関連論文リスト
- AMD: Automatic Multi-step Distillation of Large-scale Vision Models [39.70559487432038]
本稿では,大規模視覚モデル圧縮のための自動多段階蒸留法(AMD)を提案する。
生徒のパフォーマンスを最大化する最適な教師支援者を自動的に識別する,効率的かつ効果的な最適化フレームワークが導入された。
論文 参考訳(メタデータ) (2024-07-05T01:35:42Z) - Progressive Distillation Based on Masked Generation Feature Method for Knowledge Graph Completion [29.297959023968165]
そこで本稿では,KGCタスクのためのマスク生成機能に基づくプログレッシブ蒸留法を提案する。
具体的には、PLMの予蒸留を行い、高品質の教師モデルを取得し、PLMネットワークを圧縮し、マルチグレードの学生モデルを得る。
実験により, 予蒸留段階のモデルが, 既存の最先端手法を超越していることが実証された。
論文 参考訳(メタデータ) (2024-01-19T07:34:36Z) - Learning Lightweight Object Detectors via Multi-Teacher Progressive
Distillation [56.053397775016755]
本稿では,教師検出器の知識を学生に段階的に伝達する,知識蒸留への逐次的アプローチを提案する。
私たちの知識を最大限に活用するために、私たちはTransformerベースの教師検出器から、畳み込みベースの学生まで、初めて知識を抽出しました。
論文 参考訳(メタデータ) (2023-08-17T17:17:08Z) - The Staged Knowledge Distillation in Video Classification: Harmonizing
Student Progress by a Complementary Weakly Supervised Framework [21.494759678807686]
ビデオ分類における知識蒸留のための弱教師付き学習フレームワークを提案する。
本手法は,サブステージ学習の概念を利用して,学生のサブステージの組み合わせと,それに対応するサブステージの相関に基づく知識を抽出する。
提案手法は,ビデオデータに対するラベル効率学習の今後の研究の可能性を秘めている。
論文 参考訳(メタデータ) (2023-07-11T12:10:42Z) - BOOT: Data-free Distillation of Denoising Diffusion Models with
Bootstrapping [64.54271680071373]
拡散モデルは多様な画像を生成する優れた可能性を示している。
知識蒸留は、推論ステップの数を1つか数に減らすための治療法として最近提案されている。
本稿では,効率的なデータフリー蒸留アルゴリズムにより限界を克服するBOOTと呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-06-08T20:30:55Z) - DisWOT: Student Architecture Search for Distillation WithOut Training [0.0]
我々は,教師にとって最高の学生アーキテクチャを探すための,新しい学習自由フレームワークを探究する。
我々の研究は、バニラトレーニングにおける最適モデルが蒸留の勝者にはならないことを実証的に示している。
CIFAR, ImageNet, NAS-Bench-201 を用いた実験により, 異なる検索空間における最先端の結果が得られた。
論文 参考訳(メタデータ) (2023-03-28T01:58:45Z) - HomoDistil: Homotopic Task-Agnostic Distillation of Pre-trained
Transformers [49.79405257763856]
本稿では,タスク非依存蒸留に焦点をあてる。
これは、計算コストとメモリフットプリントを小さくして、様々なタスクで簡単に微調整できるコンパクトな事前訓練モデルを生成する。
本稿では, 反復刈り込みによる新規なタスク非依存蒸留法であるHomotopic Distillation (HomoDistil)を提案する。
論文 参考訳(メタデータ) (2023-02-19T17:37:24Z) - On the benefits of knowledge distillation for adversarial robustness [53.41196727255314]
知識蒸留は, 対向ロバスト性において, 最先端モデルの性能を高めるために直接的に利用できることを示す。
本稿では,モデルの性能向上のための新しいフレームワークであるAdversarial Knowledge Distillation (AKD)を提案する。
論文 参考訳(メタデータ) (2022-03-14T15:02:13Z) - Reinforced Multi-Teacher Selection for Knowledge Distillation [54.72886763796232]
知識蒸留はモデル圧縮の一般的な方法です。
現在の方法は、蒸留全体の教師モデルに固定重量を割り当てます。
既存のメソッドのほとんどは、すべての教師モデルに等しい重みを割り当てます。
本論文では,学習例の複雑性や生徒モデル能力の違いから,教師モデルとの違いを学習することで,生徒モデルの蒸留性能の向上が期待できることを考察する。
論文 参考訳(メタデータ) (2020-12-11T08:56:39Z) - Online Knowledge Distillation via Multi-branch Diversity Enhancement [15.523646047674717]
複数の学生モデル間の多様性を高めるため,新しい蒸留法を提案する。
ネットワークにおけるアテンション機構の性能を向上させる機能融合モジュール(FFM)を用いる。
また,学生モデルの違いを強化するために,多変量化(CD)損失関数を用いた。
論文 参考訳(メタデータ) (2020-10-02T05:52:12Z) - Autoregressive Knowledge Distillation through Imitation Learning [70.12862707908769]
我々は,知識蒸留における模倣学習の観点から駆動される自己回帰モデルに対する圧縮手法を開発した。
本手法は,シーケンスレベルの知識蒸留など,他の蒸留アルゴリズムより一貫して優れている。
また,本手法を訓練した学生は,スクラッチからトレーニングした生徒よりも1.4~4.8BLEU/ROUGEポイント高く,教師モデルと比較して推論速度を最大14倍に向上させた。
論文 参考訳(メタデータ) (2020-09-15T17:43:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。