論文の概要: Learning to Teach with Student Feedback
- arxiv url: http://arxiv.org/abs/2109.04641v1
- Date: Fri, 10 Sep 2021 03:01:01 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-13 13:24:32.937903
- Title: Learning to Teach with Student Feedback
- Title(参考訳): 学生のフィードバックで教えることを学ぶ
- Authors: Yitao Liu, Tianxiang Sun, Xipeng Qiu, Xuanjing Huang
- Abstract要約: 対話的知識蒸留 (Interactive Knowledge Distillation, IKD) は、教師が生徒のフィードバックから教えることを学ぶことを可能にする。
IKDは教師モデルを訓練し、特定の学生のトレーニングステップごとに特定のソフトターゲットを生成する。
教師と生徒の協調的な最適化は2つの反復的なステップによって達成される。
- 参考スコア(独自算出の注目度): 67.41261090761834
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Knowledge distillation (KD) has gained much attention due to its
effectiveness in compressing large-scale pre-trained models. In typical KD
methods, the small student model is trained to match the soft targets generated
by the big teacher model. However, the interaction between student and teacher
is one-way. The teacher is usually fixed once trained, resulting in static soft
targets to be distilled. This one-way interaction leads to the teacher's
inability to perceive the characteristics of the student and its training
progress. To address this issue, we propose Interactive Knowledge Distillation
(IKD), which also allows the teacher to learn to teach from the feedback of the
student. In particular, IKD trains the teacher model to generate specific soft
target at each training step for a certain student. Joint optimization for both
teacher and student is achieved by two iterative steps: a course step to
optimize student with the soft target of teacher, and an exam step to optimize
teacher with the feedback of student. IKD is a general framework that is
orthogonal to most existing knowledge distillation methods. Experimental
results show that IKD outperforms traditional KD methods on various NLP tasks.
- Abstract(参考訳): 知識蒸留(KD)は、大規模事前学習モデルの圧縮の有効性から注目されている。
典型的なKD手法では、大きな教師モデルによって生成されたソフトターゲットに合わせるために、小学生モデルを訓練する。
しかし、生徒と教師の交流は一方向である。
教師は通常、訓練された後に固定され、静的なソフトターゲットを蒸留する。
この一方的な相互作用は、教師が生徒の特徴と訓練の進捗を知覚できないことにつながる。
この問題に対処するために,教師が生徒のフィードバックから教わることのできる対話的知識蒸留(Interactive Knowledge Distillation, IKD)を提案する。
特に、IKDは教師モデルを訓練し、特定の学生のトレーニングステップごとに特定のソフトターゲットを生成する。
教師と生徒の協調的最適化は,教師のソフトターゲットで生徒を最適化するコースステップと,生徒のフィードバックで教師を最適化する試験ステップという2つの反復ステップによって達成される。
IKDは、既存のほとんどの知識蒸留法と直交する一般的なフレームワークである。
実験結果から、IKDは様々なNLPタスクにおいて従来のKD法よりも優れていた。
関連論文リスト
- Speculative Knowledge Distillation: Bridging the Teacher-Student Gap Through Interleaved Sampling [81.00825302340984]
本研究では,高品質なトレーニングデータを生成するために,投機的知識蒸留(SKD)を導入する。
SKDでは、学生はトークンを提案し、教師はそれ自身の分布に基づいて低いランクのトークンを置き換える。
翻訳,要約,数学,指示文など,各種テキスト生成タスクにおけるSKDの評価を行った。
論文 参考訳(メタデータ) (2024-10-15T06:51:25Z) - Revisiting Knowledge Distillation for Autoregressive Language Models [88.80146574509195]
知識蒸留(KD)を改善するための簡易かつ効果的な適応型教育法(ATKD)を提案する。
ATKDの中核は、ロート学習を減らし、教育をより多様で柔軟なものにすることだ。
8つのLMタスクの実験は、ATKDの助けを借りて、様々なベースラインのKD手法が一貫した、重要なパフォーマンス向上を達成することを示した。
論文 参考訳(メタデータ) (2024-02-19T07:01:10Z) - Gradient Knowledge Distillation for Pre-trained Language Models [21.686694954239865]
蒸留プロセスに勾配配向目的を組み込むため, グラディエント知識蒸留(GKD)を提案する。
実験結果から,GKDは従来のKD法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2022-11-02T12:07:16Z) - Better Teacher Better Student: Dynamic Prior Knowledge for Knowledge
Distillation [70.92135839545314]
本研究では,教師の持つ特徴の一部を,特徴蒸留前の先行知識として統合した動的事前知識(DPK)を提案する。
DPKは,教員モデルと生徒モデルのパフォーマンスを正に相関させ,より大きな教員を適用することで生徒の精度をさらに高めることができる。
論文 参考訳(メタデータ) (2022-06-13T11:52:13Z) - Faculty Distillation with Optimal Transport [53.69235109551099]
本稿では,教師の課題と生徒の課題を最適な輸送手段で結びつけることを提案する。
ラベル空間間の意味的関係に基づき、出力分布間の支持ギャップを埋めることができる。
各種条件下での実験は,提案手法の簡潔さと汎用性を示すものである。
論文 参考訳(メタデータ) (2022-04-25T09:34:37Z) - Undistillable: Making A Nasty Teacher That CANNOT teach students [84.6111281091602]
本論文では,ナスティ・ティーチング(Nasty Teacher)という,通常の教師とほぼ同じパフォーマンスを得られる特別に訓練されたティーチング・ネットワークについて紹介し,研究する。
本稿では, 自負知識蒸留法という, シンプルで効果的な教師構築アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-05-16T08:41:30Z) - Learning from a Lightweight Teacher for Efficient Knowledge Distillation [14.865673786025525]
本稿では,軽量な知識蒸留のためのLW-KDを提案する。
まず、合成された単純なデータセット上に軽量な教師ネットワークをトレーニングし、ターゲットデータセットのそれと同等の調整可能なクラス番号を付ける。
そして、教師はソフトターゲットを生成し、強化されたKD損失は、教師の出力と区別不能にするためのKD損失と敵対的損失の組合せである、学生の学習を誘導する。
論文 参考訳(メタデータ) (2020-05-19T01:54:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。