Fugu-MT 論文翻訳(概要): Gradient Knowledge Distillation for Pre-trained Language Models

論文の概要: Gradient Knowledge Distillation for Pre-trained Language Models

arxiv url: http://arxiv.org/abs/2211.01071v1
Date: Wed, 2 Nov 2022 12:07:16 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-03 12:16:18.617357
Title: Gradient Knowledge Distillation for Pre-trained Language Models
Title（参考訳）: 事前学習言語モデルのためのグラディエント知識蒸留
Authors: Lean Wang, Lei Li, Xu Sun
Abstract要約: 蒸留プロセスに勾配配向目的を組み込むため, グラディエント知識蒸留(GKD)を提案する。実験結果から,GKDは従来のKD法よりも優れた性能を示した。
参考スコア（独自算出の注目度）: 21.686694954239865
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Knowledge distillation (KD) is an effective framework to transfer knowledge from a large-scale teacher to a compact yet well-performing student. Previous KD practices for pre-trained language models mainly transfer knowledge by aligning instance-wise outputs between the teacher and student, while neglecting an important knowledge source, i.e., the gradient of the teacher. The gradient characterizes how the teacher responds to changes in inputs, which we assume is beneficial for the student to better approximate the underlying mapping function of the teacher. Therefore, we propose Gradient Knowledge Distillation (GKD) to incorporate the gradient alignment objective into the distillation process. Experimental results show that GKD outperforms previous KD methods regarding student performance. Further analysis shows that incorporating gradient knowledge makes the student behave more consistently with the teacher, improving the interpretability greatly.
Abstract（参考訳）: 知識蒸留(KD)は、大規模教師からコンパクトで優れた生徒に知識を伝達する効果的な枠組みである。事前学習された言語モデルに対する以前のkd実践は、主に教師と生徒のインスタンス毎の出力を調整することによって知識を伝達するが、教師の勾配といった重要な知識源を無視する。グラデーションは、教師が入力の変化にどう反応するかを特徴付けるもので、これは教師の基盤となるマッピング関数をよりよく近似することが、生徒にとって有益であると仮定する。そこで我々は, 勾配配向目標を蒸留プロセスに組み込むため, グラディエント知識蒸留(GKD)を提案する。実験結果から,GKDは従来のKD法よりも優れた性能を示した。さらに, グラデーション知識を取り入れることで, 生徒は教師とより一貫して振る舞うことができ, 解釈性が大幅に向上することを示した。

関連論文リスト

Dual-Forward Path Teacher Knowledge Distillation: Bridging the Capacity Gap Between Teacher and Student [10.640836487708647]
容量ギャップ問題に対処するため,Dual-Forward Path Teacher Knowledge Distillation (DFPT-KD)を提案する。 DFPT-KDは、学生の学習を監督する新しいデュアルフォワードパスの教師に、事前訓練された教師を置き換える。実験により、DFPT-KDがバニラKDよりも優れたパフォーマンスを示すことが示されている。
論文参考訳（メタデータ） (2025-06-23T02:22:53Z)
Speculative Knowledge Distillation: Bridging the Teacher-Student Gap Through Interleaved Sampling [81.00825302340984]
本研究では,高品質なトレーニングデータを生成するために,投機的知識蒸留(SKD)を導入する。 SKDでは、学生はトークンを提案し、教師はそれ自身の分布に基づいて低いランクのトークンを置き換える。翻訳,要約,数学,指示文など,各種テキスト生成タスクにおけるSKDの評価を行った。
論文参考訳（メタデータ） (2024-10-15T06:51:25Z)
Adaptive Explicit Knowledge Transfer for Knowledge Distillation [17.739979156009696]
教師モデルから,非目標クラスの確率分布を効果的に提供することにより,ロジットに基づく知識蒸留の性能を向上させることができることを示す。本研究では,学習者が暗黙的な知識を適応的に学習できる新たな損失を提案する。実験結果から, 適応的明示的知識伝達法(AEKT)は, 最先端KD法と比較して性能が向上することが示された。
論文参考訳（メタデータ） (2024-09-03T07:42:59Z)
Good Teachers Explain: Explanation-Enhanced Knowledge Distillation [52.498055901649025]
知識蒸留(KD)は、大規模な教師モデルをより小さな学生モデルに圧縮するのに有効であることが証明されている。本研究は,古典的KD損失を最適化するだけでなく,教師と生徒が生み出す説明の類似性についても検討する。シンプルで直感的なアイデアであるにもかかわらず、提案した「説明強調」KDは、精度と生徒と教師の合意の点で、一貫して大きな利益をもたらしている。
論文参考訳（メタデータ） (2024-02-05T15:47:54Z)
Comparative Knowledge Distillation [102.35425896967791]
伝統的な知識蒸留(KD)は、頻繁な推論のために教師モデルに容易にアクセスできることを前提としている。本稿では,教師モデルにおけるサンプルの解釈の微妙な違いを学生モデルに理解させるための比較知識蒸留(CKD)を提案する。 CKDは、アートデータ拡張とKDテクニックの状態を一貫して上回る。
論文参考訳（メタデータ） (2023-11-03T21:55:33Z)
Tailoring Instructions to Student's Learning Levels Boosts Knowledge Distillation [52.53446712834569]
LGTM(Learning Good Teacher Matters)は,教師の学習プロセスに蒸留の影響を組み込むための効果的な訓練手法である。我々のLGTMはGLUEベンチマークで6つのテキスト分類タスクに基づいて10の共通知識蒸留基準を上回ります。
論文参考訳（メタデータ） (2023-05-16T17:50:09Z)
Better Teacher Better Student: Dynamic Prior Knowledge for Knowledge Distillation [70.92135839545314]
本研究では,教師の持つ特徴の一部を,特徴蒸留前の先行知識として統合した動的事前知識(DPK)を提案する。 DPKは,教員モデルと生徒モデルのパフォーマンスを正に相関させ,より大きな教員を適用することで生徒の精度をさらに高めることができる。
論文参考訳（メタデータ） (2022-06-13T11:52:13Z)
Knowledge Distillation with Deep Supervision [6.8080936803807734]
本研究では,教師モデルのクラス予測と特徴マップをフル活用し,浅層学習モデルの指導を監督する深層学習知識蒸留(DSKD)を提案する。 DSKDでは、各浅い層の学習過程を適応的にバランスさせ、学生のパフォーマンスをさらに向上するため、損失に基づく重み付け戦略が開発されている。
論文参考訳（メタデータ） (2022-02-16T03:58:21Z)
Learning to Teach with Student Feedback [67.41261090761834]
対話的知識蒸留 (Interactive Knowledge Distillation, IKD) は、教師が生徒のフィードバックから教えることを学ぶことを可能にする。 IKDは教師モデルを訓練し、特定の学生のトレーニングステップごとに特定のソフトターゲットを生成する。教師と生徒の協調的な最適化は2つの反復的なステップによって達成される。
論文参考訳（メタデータ） (2021-09-10T03:01:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。