論文の概要: Embedding Compression for Teacher-to-Student Knowledge Transfer
- arxiv url: http://arxiv.org/abs/2402.06761v1
- Date: Fri, 9 Feb 2024 19:47:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-13 19:35:43.646844
- Title: Embedding Compression for Teacher-to-Student Knowledge Transfer
- Title(参考訳): 教師と学生の知識伝達のための埋め込み圧縮
- Authors: Yiwei Ding and Alexander Lerch
- Abstract要約: 本稿では,学習可能な教師変換を備えた埋め込み圧縮モジュールを用いて,コンパクトな教師埋め込みを実現することを提案する。
その結果,埋め込み圧縮モジュールの追加により分類性能が向上した。
埋め込み指導で訓練された学生モデルは、より強い一般化可能性を示す。
- 参考スコア(独自算出の注目度): 58.01044612920816
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Common knowledge distillation methods require the teacher model and the
student model to be trained on the same task. However, the usage of embeddings
as teachers has also been proposed for different source tasks and target tasks.
Prior work that uses embeddings as teachers ignores the fact that the teacher
embeddings are likely to contain irrelevant knowledge for the target task. To
address this problem, we propose to use an embedding compression module with a
trainable teacher transformation to obtain a compact teacher embedding. Results
show that adding the embedding compression module improves the classification
performance, especially for unsupervised teacher embeddings. Moreover, student
models trained with the guidance of embeddings show stronger generalizability.
- Abstract(参考訳): 共通知識蒸留法では,教師モデルと学生モデルを同一のタスクで訓練する必要がある。
しかし、異なるソースタスクやターゲットタスクに対して、教師としての埋め込みの利用も提案されている。
教師として組込みを使用する先行作業は、教師組込みが対象タスクに無関係な知識を含む可能性が高いという事実を無視している。
この問題に対処するために,教師変換を訓練可能な組込み圧縮モジュールを用いて,コンパクトな教師組込みを実現することを提案する。
その結果,組込み圧縮モジュールの追加により分類性能が向上し,教師の教師組込みが向上した。
さらに,埋め込み指導で訓練した学生モデルは,より高度な一般化可能性を示す。
関連論文リスト
- Better Teacher Better Student: Dynamic Prior Knowledge for Knowledge
Distillation [70.92135839545314]
本研究では,教師の持つ特徴の一部を,特徴蒸留前の先行知識として統合した動的事前知識(DPK)を提案する。
DPKは,教員モデルと生徒モデルのパフォーマンスを正に相関させ,より大きな教員を適用することで生徒の精度をさらに高めることができる。
論文 参考訳(メタデータ) (2022-06-13T11:52:13Z) - Generalized Knowledge Distillation via Relationship Matching [53.69235109551099]
よく訓練されたディープニューラルネットワーク(いわゆる「教師」)の知識は、同様のタスクを学ぶのに有用である。
知識蒸留は教師から知識を抽出し、対象モデルと統合する。
教師に学生と同じ仕事をさせる代わりに、一般のラベル空間から訓練を受けた教師の知識を借りる。
論文 参考訳(メタデータ) (2022-05-04T06:49:47Z) - Faculty Distillation with Optimal Transport [53.69235109551099]
本稿では,教師の課題と生徒の課題を最適な輸送手段で結びつけることを提案する。
ラベル空間間の意味的関係に基づき、出力分布間の支持ギャップを埋めることができる。
各種条件下での実験は,提案手法の簡潔さと汎用性を示すものである。
論文 参考訳(メタデータ) (2022-04-25T09:34:37Z) - Knowledge Distillation with the Reused Teacher Classifier [31.22117343316628]
簡単な知識蒸留技術では,教師と学生のパフォーマンスギャップを大幅に狭めるのに十分であることを示す。
提案手法は, プロジェクタの追加による圧縮率の最小コストで, 最先端の結果を得る。
論文 参考訳(メタデータ) (2022-03-26T06:28:46Z) - Representation Consolidation for Training Expert Students [54.90754502493968]
マルチヘッド多タスク蒸留法は,タスク固有の教師の表現を集約し,下流のパフォーマンスを向上させるのに十分であることを示す。
また,本手法では,複数のドメインで訓練された複数の教師の表現的知識を1つのモデルに組み合わせることができる。
論文 参考訳(メタデータ) (2021-07-16T17:58:18Z) - Fixing the Teacher-Student Knowledge Discrepancy in Distillation [72.4354883997316]
本稿では,教師の知識を学生とより整合させる,新たな学生依存型蒸留法である知識一貫型蒸留を提案する。
この手法は非常に柔軟で,他の最先端手法と容易に組み合わせることができる。
論文 参考訳(メタデータ) (2021-03-31T06:52:20Z) - Distilling Knowledge via Intermediate Classifier Heads [0.5584060970507505]
知識蒸留は、事前訓練されたより大きな教師モデルのガイドを用いて、リソース限定の学生モデルを訓練するためのトランスファーラーニングアプローチである。
キャパシティギャップの影響を軽減するため,中間頭部による知識蒸留を導入する。
種々の教師と学生のペアとデータセットに関する実験により,提案手法が標準知識蒸留法よりも優れていることを示した。
論文 参考訳(メタデータ) (2021-02-28T12:52:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。