Fugu-MT 論文翻訳(概要): Education distillation:getting student models to learn in shcools

論文の概要: Education distillation:getting student models to learn in shcools

arxiv url: http://arxiv.org/abs/2311.13811v2
Date: Mon, 27 Nov 2023 02:32:54 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-28 11:50:17.908044
Title: Education distillation:getting student models to learn in shcools
Title（参考訳）: 教育蒸留:学生モデルを用いてシュクールで学ぶ
Authors: Ling Feng, Danyang Li, Tianhao Wu, Xuliang Duan
Abstract要約: 本稿では,知識蒸留における動的漸進学習を紹介する。完全学生モデルから分割した断片化された学生モデルを下級モデルとして扱うことが提案されている。
参考スコア（独自算出の注目度）: 15.473668050280304
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Knowledge distillation is one of the methods for model compression, and existing knowledge distillation techniques focus on how to improve the distillation algorithm so as to enhance the distillation efficiency. This paper introduces dynamic incremental learning into knowledge distillation and proposes a distillation strategy for education distillation. Specifically, it is proposed to take fragmented student models divided from the complete student model as lower-grade models. As the grade level rises, fragmented student models deepen in conjunction with designed teaching reference layers, while learning and distilling from more teacher models. By moving from lower to higher grades, fragmented student models were gradually integrated into a complete target student model, and the performance of the student models gradually improved from lower to higher grades of the stage. Education distillation strategies combined with distillation algorithms outperform the results of single distillation algorithms on the public dataset CIFAR100,Caltech256, Food-101 dataset.
Abstract（参考訳）: 知識蒸留はモデル圧縮の方法の一つであり、既存の知識蒸留技術は蒸留効率を高めるために蒸留アルゴリズムを改善する方法に焦点を当てている。本稿では,知識蒸留における動的漸進学習を導入し,教育蒸留のための蒸留戦略を提案する。具体的には, 学生モデルの断片化を, 学生モデルから下位モデルへと分割することを提案する。学級レベルが上がるにつれて、断片化された学生モデルはデザインされた教育基準層と共に深くなり、さらに多くの教師モデルから学び、蒸留する。低学年から高学年への移行により、断片化された学生モデルは徐々に完全な対象の学生モデルに統合され、学生モデルの性能は段階の下位から上位へと徐々に向上した。教育蒸留戦略と蒸留アルゴリズムの組み合わせは、公開データセットであるcifar100,caltech256,food-101データセットで単一蒸留アルゴリズムの結果を上回る。

関連論文リスト

Learning from Stochastic Teacher Representations Using Student-Guided Knowledge Distillation [64.15918654558816]
教師表現のフィルタリングと重み付けのための自己蒸留(SSD)訓練戦略を導入し,タスク関連表現のみから抽出する。 UCR Archiveのウェアラブル/バイオサインデータセット、HARデータセット、画像分類データセットなどの実世界の感情コンピューティングに関する実験結果は、提案したSSD手法が最先端の手法より優れていることを示している。
論文参考訳（メタデータ） (2025-04-19T14:08:56Z)
AMD: Automatic Multi-step Distillation of Large-scale Vision Models [39.70559487432038]
本稿では,大規模視覚モデル圧縮のための自動多段階蒸留法(AMD)を提案する。生徒のパフォーマンスを最大化する最適な教師支援者を自動的に識別する,効率的かつ効果的な最適化フレームワークが導入された。
論文参考訳（メタデータ） (2024-07-05T01:35:42Z)
Progressive Distillation Based on Masked Generation Feature Method for Knowledge Graph Completion [29.297959023968165]
そこで本稿では,KGCタスクのためのマスク生成機能に基づくプログレッシブ蒸留法を提案する。具体的には、PLMの予蒸留を行い、高品質の教師モデルを取得し、PLMネットワークを圧縮し、マルチグレードの学生モデルを得る。実験により, 予蒸留段階のモデルが, 既存の最先端手法を超越していることが実証された。
論文参考訳（メタデータ） (2024-01-19T07:34:36Z)
Improving Knowledge Distillation with Teacher's Explanation [14.935696904019146]
本稿では,KED(Knowledge Explaining Distillation)フレームワークを紹介する。 KEDは、教師の予測だけでなく、教師の説明からも学べるようにしている。様々なデータセットに対する実験により,KEDの学生はKDの学生と同じような複雑さを著しく上回る結果が得られた。
論文参考訳（メタデータ） (2023-10-04T04:18:01Z)
Learning Lightweight Object Detectors via Multi-Teacher Progressive Distillation [56.053397775016755]
本稿では,教師検出器の知識を学生に段階的に伝達する,知識蒸留への逐次的アプローチを提案する。私たちの知識を最大限に活用するために、私たちはTransformerベースの教師検出器から、畳み込みベースの学生まで、初めて知識を抽出しました。
論文参考訳（メタデータ） (2023-08-17T17:17:08Z)
The Staged Knowledge Distillation in Video Classification: Harmonizing Student Progress by a Complementary Weakly Supervised Framework [21.494759678807686]
ビデオ分類における知識蒸留のための弱教師付き学習フレームワークを提案する。本手法は,サブステージ学習の概念を利用して,学生のサブステージの組み合わせと,それに対応するサブステージの相関に基づく知識を抽出する。提案手法は,ビデオデータに対するラベル効率学習の今後の研究の可能性を秘めている。
論文参考訳（メタデータ） (2023-07-11T12:10:42Z)
BOOT: Data-free Distillation of Denoising Diffusion Models with Bootstrapping [64.54271680071373]
拡散モデルは多様な画像を生成する優れた可能性を示している。知識蒸留は、推論ステップの数を1つか数に減らすための治療法として最近提案されている。本稿では,効率的なデータフリー蒸留アルゴリズムにより限界を克服するBOOTと呼ばれる新しい手法を提案する。
論文参考訳（メタデータ） (2023-06-08T20:30:55Z)
DisWOT: Student Architecture Search for Distillation WithOut Training [0.0]
我々は,教師にとって最高の学生アーキテクチャを探すための,新しい学習自由フレームワークを探究する。我々の研究は、バニラトレーニングにおける最適モデルが蒸留の勝者にはならないことを実証的に示している。 CIFAR, ImageNet, NAS-Bench-201 を用いた実験により, 異なる検索空間における最先端の結果が得られた。
論文参考訳（メタデータ） (2023-03-28T01:58:45Z)
HomoDistil: Homotopic Task-Agnostic Distillation of Pre-trained Transformers [49.79405257763856]
本稿では,タスク非依存蒸留に焦点をあてる。これは、計算コストとメモリフットプリントを小さくして、様々なタスクで簡単に微調整できるコンパクトな事前訓練モデルを生成する。本稿では, 反復刈り込みによる新規なタスク非依存蒸留法であるHomotopic Distillation (HomoDistil)を提案する。
論文参考訳（メタデータ） (2023-02-19T17:37:24Z)
EmbedDistill: A Geometric Knowledge Distillation for Information Retrieval [83.79667141681418]
大規模なニューラルモデル(トランスフォーマーなど)は、情報検索(IR)のための最先端のパフォーマンスを達成する本研究では,大規模教師モデルで学習したクエリとドキュメント間の相対的幾何を利用した新しい蒸留手法を提案する。提案手法は, 両エンコーダ (DE) とクロスエンコーダ (CE) の2種類の教師モデルから, 95～97%の教師性能を維持できる1/10の非対称な学生への蒸留に成功した。
論文参考訳（メタデータ） (2023-01-27T22:04:37Z)
On the benefits of knowledge distillation for adversarial robustness [53.41196727255314]
知識蒸留は, 対向ロバスト性において, 最先端モデルの性能を高めるために直接的に利用できることを示す。本稿では,モデルの性能向上のための新しいフレームワークであるAdversarial Knowledge Distillation (AKD)を提案する。
論文参考訳（メタデータ） (2022-03-14T15:02:13Z)
Extracting knowledge from features with multilevel abstraction [3.4443503349903124]
自己知識蒸留(SKD)は、大きな教師モデルから小さな学生モデルに知識を移すことを目的としている。本稿では,本手法と異なる方法で,新しいSKD手法を提案する。実験とアブレーション研究は、様々なタスクにおいて、その大きな効果と一般化を示している。
論文参考訳（メタデータ） (2021-12-04T02:25:46Z)
Fixing the Teacher-Student Knowledge Discrepancy in Distillation [72.4354883997316]
本稿では,教師の知識を学生とより整合させる,新たな学生依存型蒸留法である知識一貫型蒸留を提案する。この手法は非常に柔軟で,他の最先端手法と容易に組み合わせることができる。
論文参考訳（メタデータ） (2021-03-31T06:52:20Z)
Collaborative Teacher-Student Learning via Multiple Knowledge Transfer [79.45526596053728]
複数知識伝達(CTSL-MKT)による協調学習を提案する。複数の学生が協調的な方法で個々のインスタンスとインスタンスの関係の両方から知識を学ぶことができます。 4つの画像データセットの実験とアブレーション研究は、提案したCTSL-MKTが最先端のKD法よりも大幅に優れていることを示した。
論文参考訳（メタデータ） (2021-01-21T07:17:04Z)
Reinforced Multi-Teacher Selection for Knowledge Distillation [54.72886763796232]
知識蒸留はモデル圧縮の一般的な方法です。現在の方法は、蒸留全体の教師モデルに固定重量を割り当てます。既存のメソッドのほとんどは、すべての教師モデルに等しい重みを割り当てます。本論文では,学習例の複雑性や生徒モデル能力の違いから,教師モデルとの違いを学習することで,生徒モデルの蒸留性能の向上が期待できることを考察する。
論文参考訳（メタデータ） (2020-12-11T08:56:39Z)
Online Knowledge Distillation via Multi-branch Diversity Enhancement [15.523646047674717]
複数の学生モデル間の多様性を高めるため,新しい蒸留法を提案する。ネットワークにおけるアテンション機構の性能を向上させる機能融合モジュール(FFM)を用いる。また,学生モデルの違いを強化するために,多変量化(CD)損失関数を用いた。
論文参考訳（メタデータ） (2020-10-02T05:52:12Z)
Autoregressive Knowledge Distillation through Imitation Learning [70.12862707908769]
我々は,知識蒸留における模倣学習の観点から駆動される自己回帰モデルに対する圧縮手法を開発した。本手法は,シーケンスレベルの知識蒸留など,他の蒸留アルゴリズムより一貫して優れている。また,本手法を訓練した学生は,スクラッチからトレーニングした生徒よりも1.4～4.8BLEU/ROUGEポイント高く,教師モデルと比較して推論速度を最大14倍に向上させた。
論文参考訳（メタデータ） (2020-09-15T17:43:02Z)
Role-Wise Data Augmentation for Knowledge Distillation [48.115719640111394]
知識蒸留(KD)は、ある機械学習モデルから学んだ知識を別の機械学習モデルに転送する一般的な方法である。我々は、知識蒸留を促進するために、異なる役割を持つデータ増強剤を設計する。特別に調整されたデータポイントが、教師の知識をより効果的に生徒に示せることを実証的に見出した。
論文参考訳（メタデータ） (2020-04-19T14:22:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。