論文の概要: Oracle Teacher: Towards Better Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2111.03664v1
- Date: Fri, 5 Nov 2021 14:14:05 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-11 07:57:09.351292
- Title: Oracle Teacher: Towards Better Knowledge Distillation
- Title(参考訳): Oracleの教師: より良い知識蒸留を目指して
- Authors: Ji Won Yoon, Hyung Yong Kim, Hyeonseung Lee, Sunghwan Ahn, and Nam Soo
Kim
- Abstract要約: 我々は、知識蒸留のための新しいタイプの教師モデル、すなわち、Oracle Teacherを紹介します。
提案モデルでは,トランスフォーマーネットワークのエンコーダ・デコーダのアテンション構造に従えば,出力ラベルから関連する情報に対応することができる。
音声認識、シーンテキスト認識、機械翻訳の3つの異なるシーケンス学習タスクで実験を行う。
- 参考スコア(独自算出の注目度): 15.753309284651788
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Knowledge distillation (KD), best known as an effective method for model
compression, aims at transferring the knowledge of a bigger network (teacher)
to a much smaller network (student). Conventional KD methods usually employ the
teacher model trained in a supervised manner, where output labels are treated
only as targets. Extending this supervised scheme further, we introduce a new
type of teacher model for KD, namely Oracle Teacher, that utilizes the
embeddings of both the source inputs and the output labels to extract a more
accurate knowledge to be transferred to the student. The proposed model follows
the encoder-decoder attention structure of the Transformer network, which
allows the model to attend to related information from the output labels.
Extensive experiments are conducted on three different sequence learning tasks:
speech recognition, scene text recognition, and machine translation. From the
experimental results, we empirically show that the proposed model improves the
students across these tasks while achieving a considerable speed-up in the
teacher model's training time.
- Abstract(参考訳): モデル圧縮の効果的な方法として知られる知識蒸留(KD)は、より大きなネットワーク(教師)の知識をはるかに小さなネットワーク(学生)に転送することを目的としている。
従来のKD手法では、通常は教師モデルを用いて、出力ラベルはターゲットとしてのみ扱われる。
本手法をさらに拡張し,学生に伝達されるより正確な知識を抽出するために,ソース入力と出力ラベルの両方の埋め込みを利用する,KDの新しいタイプの教師モデル,すなわちOracle Teacherを導入する。
提案モデルは、トランスフォーマネットワークのエンコーダ・デコーダの注意構造に従い、モデルが出力ラベルからの関連情報に対応することができる。
大規模な実験は,音声認識,シーンテキスト認識,機械翻訳の3つの異なるシーケンス学習タスクで実施される。
実験結果から,教師モデルの学習時間を大幅に短縮しながら,提案モデルが各課題の生徒を改善できることを実証的に示した。
関連論文リスト
- Faithful Label-free Knowledge Distillation [8.572967695281054]
本稿では,中期教師(TinTeM)と呼ばれるラベルフリーな知識蒸留手法を提案する。
より忠実な学生を生み出し、教師ネットワークの振る舞いをよりよく再現し、モデルの堅牢性、一般化可能性、アウト・オブ・ディストリビューション検出などをテストする。
論文 参考訳(メタデータ) (2024-11-22T01:48:44Z) - Speculative Knowledge Distillation: Bridging the Teacher-Student Gap Through Interleaved Sampling [81.00825302340984]
本研究では,高品質なトレーニングデータを生成するために,投機的知識蒸留(SKD)を導入する。
SKDでは、学生はトークンを提案し、教師はそれ自身の分布に基づいて低いランクのトークンを置き換える。
翻訳,要約,数学,指示文など,各種テキスト生成タスクにおけるSKDの評価を行った。
論文 参考訳(メタデータ) (2024-10-15T06:51:25Z) - Exploring and Enhancing the Transfer of Distribution in Knowledge Distillation for Autoregressive Language Models [62.5501109475725]
知識蒸留(KD)は、より小さな学生モデルを模倣するように訓練することで、大きな教師モデルを圧縮する技術である。
本稿では、教師ネットワークが小さなオンラインモジュールを統合し、学生モデルと同時学習するオンライン知識蒸留(OKD)について紹介する。
OKDは、様々なモデルアーキテクチャやサイズにおけるリードメソッドのパフォーマンスを達成または超え、トレーニング時間を最大4倍に短縮する。
論文 参考訳(メタデータ) (2024-09-19T07:05:26Z) - Lightweight Self-Knowledge Distillation with Multi-source Information
Fusion [3.107478665474057]
知識蒸留(KD)は、ニューラルネットワークモデル間で知識を伝達する強力な技術である。
マルチソース情報を利用してより情報のある教師を構築する軽量なSKDフレームワークを提案する。
提案するDRG, DSR, およびそれらの組み合わせの性能を, 各種データセットおよびモデルに関する総合的な実験により検証する。
論文 参考訳(メタデータ) (2023-05-16T05:46:31Z) - EmbedDistill: A Geometric Knowledge Distillation for Information
Retrieval [83.79667141681418]
大規模なニューラルモデル(トランスフォーマーなど)は、情報検索(IR)のための最先端のパフォーマンスを達成する
本研究では,大規模教師モデルで学習したクエリとドキュメント間の相対的幾何を利用した新しい蒸留手法を提案する。
提案手法は, 両エンコーダ (DE) とクロスエンコーダ (CE) の2種類の教師モデルから, 95~97%の教師性能を維持できる1/10の非対称な学生への蒸留に成功した。
論文 参考訳(メタデータ) (2023-01-27T22:04:37Z) - Knowledge Distillation with Representative Teacher Keys Based on
Attention Mechanism for Image Classification Model Compression [1.503974529275767]
知識蒸留(KD)はモデルパラメータを減らすためのモデル圧縮の効果的な方法の1つとして認識されている。
注意機構にヒントを得て,代表教師キー(RTK)と呼ばれる新しいKD手法を提案する。
提案するRTKは,最先端の注意に基づくKD手法の分類精度を効果的に向上させることができる。
論文 参考訳(メタデータ) (2022-06-26T05:08:50Z) - Better Teacher Better Student: Dynamic Prior Knowledge for Knowledge
Distillation [70.92135839545314]
本研究では,教師の持つ特徴の一部を,特徴蒸留前の先行知識として統合した動的事前知識(DPK)を提案する。
DPKは,教員モデルと生徒モデルのパフォーマンスを正に相関させ,より大きな教員を適用することで生徒の精度をさらに高めることができる。
論文 参考訳(メタデータ) (2022-06-13T11:52:13Z) - ALM-KD: Knowledge Distillation with noisy labels via adaptive loss
mixing [25.49637460661711]
知識蒸留は、教師付き環境で学生モデルを訓練するために、事前訓練されたモデルの出力を使用する技術である。
KD中の適応損失混合方式を用いてこの問題に対処する。
提案手法は, 標準KD設定, マルチ教師, 自己蒸留設定において, 提案手法を用いて得られた性能向上を示す。
論文 参考訳(メタデータ) (2022-02-07T14:53:22Z) - Distilling EEG Representations via Capsules for Affective Computing [14.67085109524245]
カプセル型アーキテクチャを用いて脳波表現を蒸留する新しい知識蒸留パイプラインを提案する。
本フレームワークは,教師から効果的に学習できる圧縮率の異なる学生ネットワークを実現する。
この手法は2つのデータセットのうちの1つで最先端の結果を得る。
論文 参考訳(メタデータ) (2021-04-30T22:04:35Z) - Heterogeneous Knowledge Distillation using Information Flow Modeling [82.83891707250926]
教師モデルの様々な層を流れる情報の流れをモデル化して機能する新しいKD手法を提案する。
提案手法は, トレーニング過程の異なる段階において, 適切な監督手法を用いて, 上記の制限を克服することができる。
論文 参考訳(メタデータ) (2020-05-02T06:56:56Z) - Distilling Knowledge from Graph Convolutional Networks [146.71503336770886]
既存の知識蒸留法は畳み込みニューラルネットワーク(CNN)に焦点を当てている
本稿では,事前学習したグラフ畳み込みネットワーク(GCN)モデルから知識を抽出する手法を提案する。
提案手法は,GCNモデルに対する最先端の知識蒸留性能を実現する。
論文 参考訳(メタデータ) (2020-03-23T18:23:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。