論文の概要: Knowledge Distillation via Weighted Ensemble of Teaching Assistants
- arxiv url: http://arxiv.org/abs/2206.12005v1
- Date: Thu, 23 Jun 2022 22:50:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-28 04:18:12.625962
- Title: Knowledge Distillation via Weighted Ensemble of Teaching Assistants
- Title(参考訳): 指導助手の重み付けアンサンブルによる知識蒸留
- Authors: Durga Prasad Ganta, Himel Das Gupta, Victor S. Sheng
- Abstract要約: 知識蒸留は、教師と呼ばれる大きなモデルから学生と呼ばれる小さなモデルに知識を移す過程である。
教師と生徒のネットワークサイズギャップが大きくなると、学生ネットワークの性能は低下する。
学生モデル(より小さいモデル)は,複数の指導支援モデルを用いてさらに改善できることが示されている。
- 参考スコア(独自算出の注目度): 18.593268785143426
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Knowledge distillation in machine learning is the process of transferring
knowledge from a large model called the teacher to a smaller model called the
student. Knowledge distillation is one of the techniques to compress the large
network (teacher) to a smaller network (student) that can be deployed in small
devices such as mobile phones. When the network size gap between the teacher
and student increases, the performance of the student network decreases. To
solve this problem, an intermediate model is employed between the teacher model
and the student model known as the teaching assistant model, which in turn
bridges the gap between the teacher and the student. In this research, we have
shown that using multiple teaching assistant models, the student model (the
smaller model) can be further improved. We combined these multiple teaching
assistant models using weighted ensemble learning where we have used a
differential evaluation optimization algorithm to generate the weight values.
- Abstract(参考訳): 機械学習における知識蒸留は、教師と呼ばれる大きなモデルから学生と呼ばれる小さなモデルに知識を伝達する過程である。
知識蒸留(英: knowledge distillation)は、大規模ネットワーク(教師)をより小さなネットワーク(学生)に圧縮し、携帯電話などの小型デバイスにデプロイする技術の一つである。
教師と生徒のネットワークサイズギャップが大きくなると、学生ネットワークの性能は低下する。
この問題を解決するために、教師モデルと教師アシスタントモデルとして知られる学生モデルとの間の中間モデルを用いて、教師と生徒のギャップを埋める。
本研究では,複数の指導支援モデルを用いて,学生モデル(より小さいモデル)をさらに改良できることを実証した。
重み付きアンサンブル学習を用いて、重み値を生成するために差分評価最適化アルゴリズムを用いて、これらの複数の指導支援モデルを組み合わせる。
関連論文リスト
- Exploring and Enhancing the Transfer of Distribution in Knowledge Distillation for Autoregressive Language Models [62.5501109475725]
知識蒸留(KD)は、より小さな学生モデルを模倣するように訓練することで、大きな教師モデルを圧縮する技術である。
本稿では、教師ネットワークが小さなオンラインモジュールを統合し、学生モデルと同時学習するオンライン知識蒸留(OKD)について紹介する。
OKDは、様々なモデルアーキテクチャやサイズにおけるリードメソッドのパフォーマンスを達成または超え、トレーニング時間を最大4倍に短縮する。
論文 参考訳(メタデータ) (2024-09-19T07:05:26Z) - Generalizing Teacher Networks for Effective Knowledge Distillation Across Student Architectures [4.960025399247103]
Generic Teacher Network (GTN) は、知識を有限のアーキテクチャプールからサンプリングされた任意の学生モデルに効果的に伝達できる汎用的な教師を作成するための、一発のKD-awareトレーニングである。
本手法は, 総合的なKD効果の向上と, プール内の生徒間での総合教師のトレーニングコストの最小化を両立させる。
論文 参考訳(メタデータ) (2024-07-22T20:34:00Z) - EmbedDistill: A Geometric Knowledge Distillation for Information
Retrieval [83.79667141681418]
大規模なニューラルモデル(トランスフォーマーなど)は、情報検索(IR)のための最先端のパフォーマンスを達成する
本研究では,大規模教師モデルで学習したクエリとドキュメント間の相対的幾何を利用した新しい蒸留手法を提案する。
提案手法は, 両エンコーダ (DE) とクロスエンコーダ (CE) の2種類の教師モデルから, 95~97%の教師性能を維持できる1/10の非対称な学生への蒸留に成功した。
論文 参考訳(メタデータ) (2023-01-27T22:04:37Z) - Collaborative Multi-Teacher Knowledge Distillation for Learning Low
Bit-width Deep Neural Networks [28.215073725175728]
マルチ教師による知識蒸留とネットワーク量子化を併用した,低ビット幅DNN学習のための新しいフレームワークを提案する。
CIFAR100 と ImageNet のデータセットを用いた実験結果から,本手法で訓練した小型量子化学生モデルによる競争結果が得られた。
論文 参考訳(メタデータ) (2022-10-27T01:03:39Z) - Iterative Teacher-Aware Learning [136.05341445369265]
人間の教育において、教師と学生はコミュニケーション効率を最大化するために適応的に交流することができる。
本稿では,教師の協調意図を可能性関数に組み込むことができる,勾配最適化に基づく教師認識学習者を提案する。
論文 参考訳(メタデータ) (2021-10-01T00:27:47Z) - Learning Student-Friendly Teacher Networks for Knowledge Distillation [50.11640959363315]
本研究では,教師から学生への暗黒知識の伝達を容易にする新しい知識蒸留手法を提案する。
事前教育を受けた教師に与えた学習モデルの効果的な学習方法のほとんどとは対照的に,学生に親しみやすい教師モデルを学ぶことを目的とする。
論文 参考訳(メタデータ) (2021-02-12T07:00:17Z) - Reinforced Multi-Teacher Selection for Knowledge Distillation [54.72886763796232]
知識蒸留はモデル圧縮の一般的な方法です。
現在の方法は、蒸留全体の教師モデルに固定重量を割り当てます。
既存のメソッドのほとんどは、すべての教師モデルに等しい重みを割り当てます。
本論文では,学習例の複雑性や生徒モデル能力の違いから,教師モデルとの違いを学習することで,生徒モデルの蒸留性能の向上が期待できることを考察する。
論文 参考訳(メタデータ) (2020-12-11T08:56:39Z) - Densely Guided Knowledge Distillation using Multiple Teacher Assistants [5.169724825219126]
モデルサイズを徐々に小さくする複数の教師アシスタントを用いた知識蒸留法を提案する。
また,ミニバッチ毎に,教師や教師のアシスタントがランダムにドロップされるような授業も設計する。
これは、学生ネットワークの教育効率を向上させるために、レギュラーライザとして機能する。
論文 参考訳(メタデータ) (2020-09-18T13:12:52Z) - Learning to Reweight with Deep Interactions [104.68509759134878]
本稿では,教師モデルに内部状態を提供する改良型データ再重み付けアルゴリズムを提案する。
クリーン/ノイズラベルとニューラルマシン翻訳を用いた画像分類実験は、我々のアルゴリズムが従来の手法よりも大幅に改善されていることを実証的に実証した。
論文 参考訳(メタデータ) (2020-07-09T09:06:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。