論文の概要: SWITCH: Studying with Teacher for Knowledge Distillation of Large Language Models
- arxiv url: http://arxiv.org/abs/2410.19503v1
- Date: Fri, 25 Oct 2024 12:10:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-28 13:36:56.024845
- Title: SWITCH: Studying with Teacher for Knowledge Distillation of Large Language Models
- Title(参考訳): SWITCH:大規模言語モデルの知識蒸留について教師に学ぶ
- Authors: Jahyun Koo, Yerin Hwang, Yongil Kim, Taegwan Kang, Hyunkyung Bae, Kyomin Jung,
- Abstract要約: SWITCH (Studying WIth TeaCHer for Knowledge Distillation) は、学生のシーケンス生成中に教師モデルを戦略的に組み込む新しいアプローチである。
本稿では,SWITCHが従来の知識蒸留法よりも優れていることを示す。
- 参考スコア(独自算出の注目度): 16.060402139507644
- License:
- Abstract: Despite the success of Large Language Models (LLMs), they still face challenges related to high inference costs and memory requirements. To address these issues, Knowledge Distillation (KD) has emerged as a popular method for model compression, with student-generated outputs (SGOs) being particularly notable for reducing the mismatch between training and inference. However, SGOs often produce noisy and biased sequences, which can lead to misguidance from the teacher model, especially in long sequences. To mitigate these challenges, we propose SWITCH (Studying WIth TeaCHer for Knowledge Distillation), a novel approach that strategically incorporates the teacher model during the student's sequence generation. SWITCH identifies discrepancies between the token probabilities of the teacher and student models, allowing the teacher to intervene selectively, particularly in long sequences that are more prone to teacher misguidance. Extensive experimental results across three model families and five instruction-following datasets show that SWITCH surpasses traditional KD methods, particularly excelling in the generation of long sequential data.
- Abstract(参考訳): LLM(Large Language Models)の成功にもかかわらず、高い推論コストとメモリ要件に関連する課題に直面している。
これらの問題に対処するために、知識蒸留(KD)がモデル圧縮の一般的な方法として登場し、学生が生成する出力(SGO)は、トレーニングと推論のミスマッチを減らすために特に顕著である。
しかしながら、SGOは、しばしばノイズやバイアスのあるシーケンスを生成し、特に長いシーケンスにおいて、教師モデルから誤解を招く可能性がある。
これらの課題を緩和するために, SWITCH (Studying WIth TeaCHer for Knowledge Distillation) を提案する。
SWITCHは、教師と学生モデルのトークン確率の相違を認識し、教師が選択的に介入することを可能にする。
3つのモデルファミリと5つの命令追従データセットにわたる大規模な実験結果から、SWITCHは従来のKD手法を超え、特に長いシーケンシャルデータの生成に優れていた。
関連論文リスト
- CFTS-GAN: Continual Few-Shot Teacher Student for Generative Adversarial Networks [0.5024983453990064]
GANでは、過度なフィットと破滅的な忘れ込みという、2つのよく知られた課題に直面しています。
本稿では,2つの課題を同時に考えるCFTS-GANのための連続的Few-shot Teacher-Student手法を提案する。
論文 参考訳(メタデータ) (2024-10-17T20:49:08Z) - Speculative Knowledge Distillation: Bridging the Teacher-Student Gap Through Interleaved Sampling [81.00825302340984]
本研究では,高品質なトレーニングデータを生成するために,投機的知識蒸留(SKD)を導入する。
SKDでは、学生はトークンを提案し、教師はそれ自身の分布に基づいて低いランクのトークンを置き換える。
翻訳,要約,数学,指示文など,各種テキスト生成タスクにおけるSKDの評価を行った。
論文 参考訳(メタデータ) (2024-10-15T06:51:25Z) - Exploring and Enhancing the Transfer of Distribution in Knowledge Distillation for Autoregressive Language Models [62.5501109475725]
知識蒸留(KD)は、より小さな学生モデルを模倣するように訓練することで、大きな教師モデルを圧縮する技術である。
本稿では、教師ネットワークが小さなオンラインモジュールを統合し、学生モデルと同時学習するオンライン知識蒸留(OKD)について紹介する。
OKDは、様々なモデルアーキテクチャやサイズにおけるリードメソッドのパフォーマンスを達成または超え、トレーニング時間を最大4倍に短縮する。
論文 参考訳(メタデータ) (2024-09-19T07:05:26Z) - On the Resurgence of Recurrent Models for Long Sequences -- Survey and
Research Opportunities in the Transformer Era [59.279784235147254]
この調査は、Recurrenceの統一の傘の下に構築されたこれらのトレンドの概要を提供することを目的としている。
長いシーケンスを処理するという考え方を捨てる際に顕著になる新しい研究機会を強調している。
論文 参考訳(メタデータ) (2024-02-12T23:55:55Z) - Multistage Collaborative Knowledge Distillation from a Large Language Model for Semi-Supervised Sequence Generation [60.657065293413716]
本研究は半教師付きシーケンス生成タスクについて検討し,いくつかのラベル付き例ではモデルを微調整するには不十分である。
数発の試薬で抽出した学生モデルは、教師よりも一般的に一般化できるという発見を提示する。
論文 参考訳(メタデータ) (2023-11-15T01:28:28Z) - Comparative Knowledge Distillation [102.35425896967791]
伝統的な知識蒸留(KD)は、頻繁な推論のために教師モデルに容易にアクセスできることを前提としている。
本稿では,教師モデルにおけるサンプルの解釈の微妙な違いを学生モデルに理解させるための比較知識蒸留(CKD)を提案する。
CKDは、アートデータ拡張とKDテクニックの状態を一貫して上回る。
論文 参考訳(メタデータ) (2023-11-03T21:55:33Z) - No Length Left Behind: Enhancing Knowledge Tracing for Modeling
Sequences of Excessive or Insufficient Lengths [3.2687390531088414]
知識追跡は,過去の質問応答行動に基づいて,学生の実践に対する反応を予測することを目的としている。
シーケンスが長くなると、計算コストは指数関数的に増加する。
シーケンス・フレキシブル・ナレッジ・トラクション(SFKT)と呼ばれるモデルを提案する。
論文 参考訳(メタデータ) (2023-08-07T11:30:58Z) - On-Policy Distillation of Language Models: Learning from Self-Generated
Mistakes [44.97759066341107]
一般知識蒸留(GKD)は、教師からのフィードバックを活用して、学生を自己生成出力シーケンスで訓練する。
本稿では,自動回帰言語モデルの要約,翻訳,算術的推論におけるGKDの有効性を示す。
論文 参考訳(メタデータ) (2023-06-23T17:56:26Z) - Learning to Teach with Student Feedback [67.41261090761834]
対話的知識蒸留 (Interactive Knowledge Distillation, IKD) は、教師が生徒のフィードバックから教えることを学ぶことを可能にする。
IKDは教師モデルを訓練し、特定の学生のトレーニングステップごとに特定のソフトターゲットを生成する。
教師と生徒の協調的な最適化は2つの反復的なステップによって達成される。
論文 参考訳(メタデータ) (2021-09-10T03:01:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。