論文の概要: Dual-Forward Path Teacher Knowledge Distillation: Bridging the Capacity Gap Between Teacher and Student
- arxiv url: http://arxiv.org/abs/2506.18244v1
- Date: Mon, 23 Jun 2025 02:22:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:36.821503
- Title: Dual-Forward Path Teacher Knowledge Distillation: Bridging the Capacity Gap Between Teacher and Student
- Title(参考訳): 2方向教師の知識蒸留--教師と生徒の能力ギャップを埋める
- Authors: Tong Li, Long Liu, Yihang Hu, Hu Chen, Shifeng Chen,
- Abstract要約: 容量ギャップ問題に対処するため,Dual-Forward Path Teacher Knowledge Distillation (DFPT-KD)を提案する。
DFPT-KDは、学生の学習を監督する新しいデュアルフォワードパスの教師に、事前訓練された教師を置き換える。
実験により、DFPT-KDがバニラKDよりも優れたパフォーマンスを示すことが示されている。
- 参考スコア(独自算出の注目度): 10.640836487708647
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Knowledge distillation (KD) provides an effective way to improve the performance of a student network under the guidance of pre-trained teachers. However, this approach usually brings in a large capacity gap between teacher and student networks, limiting the distillation gains. Previous methods addressing this problem either discard accurate knowledge representation or fail to dynamically adjust the transferred knowledge, which is less effective in addressing the capacity gap problem and hinders students from achieving comparable performance with the pre-trained teacher. In this work, we extend the ideology of prompt-based learning to address the capacity gap problem, and propose Dual-Forward Path Teacher Knowledge Distillation (DFPT-KD), which replaces the pre-trained teacher with a novel dual-forward path teacher to supervise the learning of student. The key to DFPT-KD is prompt-based tuning, i.e., establishing an additional prompt-based forward path within the pre-trained teacher and optimizing it with the pre-trained teacher frozen to make the transferred knowledge compatible with the representation ability of the student. Extensive experiments demonstrate that DFPT-KD leads to trained students performing better than the vanilla KD. To make the transferred knowledge better compatible with the representation abilities of the student, we further fine-tune the whole prompt-based forward path, yielding a novel distillation approach dubbed DFPT-KD+. By extensive experiments, it is shown that DFPT-KD+ improves upon DFPT-KD and achieves state-of-the-art accuracy performance.
- Abstract(参考訳): 知識蒸留(KD)は,教員の指導のもと,学生ネットワークの性能を向上させる効果的な方法である。
しかし、このアプローチは通常、教師と学生のネットワークの間に大きな容量ギャップをもたらし、蒸留の利得を制限する。
この問題に対処する従来の方法は、正確な知識表現を捨てるか、伝達された知識を動的に調整できないかのいずれかであり、これは能力ギャップ問題に対処する上で効果が低く、事前訓練された教師と同等のパフォーマンスを達成するのを妨げている。
本研究では,能力ギャップ問題に対処するために,プロンプトベースの学習のイデオロギーを拡張し,事前学習した教師を新しいデュアルフォワードパス教師に置き換えて,生徒の学習を指導するDual-Forward Path Teacher Knowledge Distillation (DFPT-KD)を提案する。
DFPT-KDの鍵となるのは、即時ベースのチューニング、すなわち、事前訓練された教師の中に、追加のプロンプトベースのフォワードパスを確立し、それを凍結した教師に最適化することで、学生の表現能力と互換性を持たせることである。
実験の結果,DFPT-KDはバニラKDよりも優れた成績を示した。
伝達知識を学生の表現能力に適合させるため,我々はさらにプロンプトベースの前進経路を微調整し,DFPT-KD+と呼ばれる新しい蒸留手法を考案した。
実験により,DFPT-KD+はDFPT-KDの精度が向上し,最先端の精度が向上することを示した。
関連論文リスト
- Speculative Knowledge Distillation: Bridging the Teacher-Student Gap Through Interleaved Sampling [81.00825302340984]
本研究では,高品質なトレーニングデータを生成するために,投機的知識蒸留(SKD)を導入する。
SKDでは、学生はトークンを提案し、教師はそれ自身の分布に基づいて低いランクのトークンを置き換える。
翻訳,要約,数学,指示文など,各種テキスト生成タスクにおけるSKDの評価を行った。
論文 参考訳(メタデータ) (2024-10-15T06:51:25Z) - Gradient Knowledge Distillation for Pre-trained Language Models [21.686694954239865]
蒸留プロセスに勾配配向目的を組み込むため, グラディエント知識蒸留(GKD)を提案する。
実験結果から,GKDは従来のKD法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2022-11-02T12:07:16Z) - Better Teacher Better Student: Dynamic Prior Knowledge for Knowledge
Distillation [70.92135839545314]
本研究では,教師の持つ特徴の一部を,特徴蒸留前の先行知識として統合した動的事前知識(DPK)を提案する。
DPKは,教員モデルと生徒モデルのパフォーマンスを正に相関させ,より大きな教員を適用することで生徒の精度をさらに高めることができる。
論文 参考訳(メタデータ) (2022-06-13T11:52:13Z) - Knowledge Distillation with Deep Supervision [6.8080936803807734]
本研究では,教師モデルのクラス予測と特徴マップをフル活用し,浅層学習モデルの指導を監督する深層学習知識蒸留(DSKD)を提案する。
DSKDでは、各浅い層の学習過程を適応的にバランスさせ、学生のパフォーマンスをさらに向上するため、損失に基づく重み付け戦略が開発されている。
論文 参考訳(メタデータ) (2022-02-16T03:58:21Z) - Learning to Teach with Student Feedback [67.41261090761834]
対話的知識蒸留 (Interactive Knowledge Distillation, IKD) は、教師が生徒のフィードバックから教えることを学ぶことを可能にする。
IKDは教師モデルを訓練し、特定の学生のトレーニングステップごとに特定のソフトターゲットを生成する。
教師と生徒の協調的な最適化は2つの反復的なステップによって達成される。
論文 参考訳(メタデータ) (2021-09-10T03:01:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。