論文の概要: Education distillation:getting student models to learn in shcools
- arxiv url: http://arxiv.org/abs/2311.13811v3
- Date: Mon, 24 Mar 2025 01:49:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 14:31:04.358606
- Title: Education distillation:getting student models to learn in shcools
- Title(参考訳): 教育蒸留:学生モデルを用いてシュクールで学ぶ
- Authors: Ling Feng, Tianhao Wu, Xiangrong Ren, Zhi Jing, Xuliang Duan,
- Abstract要約: 本稿では,教育蒸留(ED)と呼ばれる新しい知識蒸留法を紹介する。
EDは小学校、中学校、大学の教育段階を模倣し、参照ブロックをデザインする。
CIFAR100、Tiny Imagenet、Caltech、Food-101データセットの実験結果は、指導基準ブロックが忘れることの問題を効果的に回避できることを示している。
- 参考スコア(独自算出の注目度): 11.017346789801238
- License:
- Abstract: This paper introduces a new knowledge distillation method, called education distillation (ED), which is inspired by the structured and progressive nature of human learning. ED mimics the educational stages of primary school, middle school, and university and designs teaching reference blocks. The student model is split into a main body and multiple teaching reference blocks to learn from teachers step by step. This promotes efficient knowledge distillation while maintaining the architecture of the student model. Experimental results on the CIFAR100, Tiny Imagenet, Caltech and Food-101 datasets show that the teaching reference blocks can effectively avoid the problem of forgetting. Compared with conventional single-teacher and multi-teacher knowledge distillation methods, ED significantly improves the accuracy and generalization ability of the student model. These findings highlight the potential of ED to improve model performance across different architectures and datasets, indicating its value in various deep learning scenarios. Code examples can be obtained at: https://github.com/Revolutioner1/ED.git.
- Abstract(参考訳): 本稿では,人間の学習の構造的・進歩的な性質に触発された,教育蒸留(ED)と呼ばれる新しい知識蒸留手法を提案する。
EDは小学校、中学校、大学の教育段階を模倣し、参照ブロックをデザインする。
生徒モデルは、主体と複数の指導基準ブロックに分けられ、段階的に教師から学ぶ。
これは、学生モデルのアーキテクチャを維持しながら、効率的な知識蒸留を促進する。
CIFAR100、Tiny Imagenet、Caltech、Food-101データセットの実験結果は、指導基準ブロックが忘れることの問題を効果的に回避できることを示している。
従来の単教師と多教師の知識蒸留法と比較して,EDは学生モデルの精度と一般化能力を大幅に向上させる。
これらの知見は、さまざまなアーキテクチャやデータセットにわたるモデルパフォーマンスを改善するためのEDの可能性を強調し、さまざまなディープラーニングシナリオにおけるその価値を示している。
コード例は、https://github.com/Revolutioner1/ED.gitで取得できる。
関連論文リスト
- Warmup-Distill: Bridge the Distribution Mismatch between Teacher and Student before Knowledge Distillation [84.38105530043741]
本稿では, 学生の蒸留を教員の蒸留と整合させて, 蒸留に先立って行うワームアップ蒸留法を提案する。
7つのベンチマークの実験は、ウォームアップ・ディスティルが蒸留に適したウォームアップの学生を提供することを示した。
論文 参考訳(メタデータ) (2025-02-17T12:58:12Z) - Towards Training One-Step Diffusion Models Without Distillation [72.80423908458772]
この蒸留工程を使わずに, 一段階生成モデルを直接訓練できることが示される。
本稿では, スコア推定に頼ることなく, 競争力のある結果が得られる蒸留法群を提案する。
論文 参考訳(メタデータ) (2025-02-11T23:02:14Z) - AMD: Automatic Multi-step Distillation of Large-scale Vision Models [39.70559487432038]
本稿では,大規模視覚モデル圧縮のための自動多段階蒸留法(AMD)を提案する。
生徒のパフォーマンスを最大化する最適な教師支援者を自動的に識別する,効率的かつ効果的な最適化フレームワークが導入された。
論文 参考訳(メタデータ) (2024-07-05T01:35:42Z) - Progressive Distillation Based on Masked Generation Feature Method for Knowledge Graph Completion [29.297959023968165]
そこで本稿では,KGCタスクのためのマスク生成機能に基づくプログレッシブ蒸留法を提案する。
具体的には、PLMの予蒸留を行い、高品質の教師モデルを取得し、PLMネットワークを圧縮し、マルチグレードの学生モデルを得る。
実験により, 予蒸留段階のモデルが, 既存の最先端手法を超越していることが実証された。
論文 参考訳(メタデータ) (2024-01-19T07:34:36Z) - Learning Lightweight Object Detectors via Multi-Teacher Progressive
Distillation [56.053397775016755]
本稿では,教師検出器の知識を学生に段階的に伝達する,知識蒸留への逐次的アプローチを提案する。
私たちの知識を最大限に活用するために、私たちはTransformerベースの教師検出器から、畳み込みベースの学生まで、初めて知識を抽出しました。
論文 参考訳(メタデータ) (2023-08-17T17:17:08Z) - The Staged Knowledge Distillation in Video Classification: Harmonizing
Student Progress by a Complementary Weakly Supervised Framework [21.494759678807686]
ビデオ分類における知識蒸留のための弱教師付き学習フレームワークを提案する。
本手法は,サブステージ学習の概念を利用して,学生のサブステージの組み合わせと,それに対応するサブステージの相関に基づく知識を抽出する。
提案手法は,ビデオデータに対するラベル効率学習の今後の研究の可能性を秘めている。
論文 参考訳(メタデータ) (2023-07-11T12:10:42Z) - DisWOT: Student Architecture Search for Distillation WithOut Training [0.0]
我々は,教師にとって最高の学生アーキテクチャを探すための,新しい学習自由フレームワークを探究する。
我々の研究は、バニラトレーニングにおける最適モデルが蒸留の勝者にはならないことを実証的に示している。
CIFAR, ImageNet, NAS-Bench-201 を用いた実験により, 異なる検索空間における最先端の結果が得られた。
論文 参考訳(メタデータ) (2023-03-28T01:58:45Z) - HomoDistil: Homotopic Task-Agnostic Distillation of Pre-trained
Transformers [49.79405257763856]
本稿では,タスク非依存蒸留に焦点をあてる。
これは、計算コストとメモリフットプリントを小さくして、様々なタスクで簡単に微調整できるコンパクトな事前訓練モデルを生成する。
本稿では, 反復刈り込みによる新規なタスク非依存蒸留法であるHomotopic Distillation (HomoDistil)を提案する。
論文 参考訳(メタデータ) (2023-02-19T17:37:24Z) - Reinforced Multi-Teacher Selection for Knowledge Distillation [54.72886763796232]
知識蒸留はモデル圧縮の一般的な方法です。
現在の方法は、蒸留全体の教師モデルに固定重量を割り当てます。
既存のメソッドのほとんどは、すべての教師モデルに等しい重みを割り当てます。
本論文では,学習例の複雑性や生徒モデル能力の違いから,教師モデルとの違いを学習することで,生徒モデルの蒸留性能の向上が期待できることを考察する。
論文 参考訳(メタデータ) (2020-12-11T08:56:39Z) - Online Knowledge Distillation via Multi-branch Diversity Enhancement [15.523646047674717]
複数の学生モデル間の多様性を高めるため,新しい蒸留法を提案する。
ネットワークにおけるアテンション機構の性能を向上させる機能融合モジュール(FFM)を用いる。
また,学生モデルの違いを強化するために,多変量化(CD)損失関数を用いた。
論文 参考訳(メタデータ) (2020-10-02T05:52:12Z) - Autoregressive Knowledge Distillation through Imitation Learning [70.12862707908769]
我々は,知識蒸留における模倣学習の観点から駆動される自己回帰モデルに対する圧縮手法を開発した。
本手法は,シーケンスレベルの知識蒸留など,他の蒸留アルゴリズムより一貫して優れている。
また,本手法を訓練した学生は,スクラッチからトレーニングした生徒よりも1.4~4.8BLEU/ROUGEポイント高く,教師モデルと比較して推論速度を最大14倍に向上させた。
論文 参考訳(メタデータ) (2020-09-15T17:43:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。