Fugu-MT 論文翻訳(概要): A Study on Knowledge Distillation from Weak Teacher for Scaling Up Pre-trained Language Models

論文の概要: A Study on Knowledge Distillation from Weak Teacher for Scaling Up Pre-trained Language Models

arxiv url: http://arxiv.org/abs/2305.18239v1
Date: Fri, 26 May 2023 13:24:49 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-30 14:03:31.538377
Title: A Study on Knowledge Distillation from Weak Teacher for Scaling Up Pre-trained Language Models
Title（参考訳）: 訓練済み言語モデルのスケールアップのための弱教師の知識蒸留に関する研究
Authors: Hayeon Lee, Rui Hou, Jongpil Kim, Davis Liang, Sung Ju Hwang, Alexander Min
Abstract要約: 弱教師 (DWT) による蒸留は、より小さく弱い教師モデルからより大きな学生モデルへ知識を伝達し、その性能を向上させる方法である。本研究では,視覚領域や伝統的な知識蒸留と異なり,DWTを最適化するための3つの重要な要因について検討した。
参考スコア（独自算出の注目度）: 104.64899255277443
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Distillation from Weak Teacher (DWT) is a method of transferring knowledge from a smaller, weaker teacher model to a larger student model to improve its performance. Previous studies have shown that DWT can be effective in the vision domain and natural language processing (NLP) pre-training stage. Specifically, DWT shows promise in practical scenarios, such as enhancing new generation or larger models using pre-trained yet older or smaller models and lacking a resource budget. However, the optimal conditions for using DWT have yet to be fully investigated in NLP pre-training. Therefore, this study examines three key factors to optimize DWT, distinct from those used in the vision domain or traditional knowledge distillation. These factors are: (i) the impact of teacher model quality on DWT effectiveness, (ii) guidelines for adjusting the weighting value for DWT loss, and (iii) the impact of parameter remapping as a student model initialization technique for DWT.
Abstract（参考訳）: 弱教師 (DWT) による蒸留は、より小さく弱い教師モデルからより大きな学生モデルへ知識を伝達し、その性能を向上させる方法である。従来の研究では、DWTは視覚領域と自然言語処理(NLP)の事前学習段階で有効であることが示されている。具体的には、DWTは、事前訓練された古いモデルまたはより小さなモデルを使用した新しい世代またはより大きなモデルの拡張や、リソース予算の欠如など、現実的なシナリオにおける約束を示す。しかし、DWTの最適条件は、NLP事前学習では十分に研究されていない。そこで本研究では,視覚領域や伝統的な知識蒸留と異なり,DWTを最適化するための3つの重要な要因について検討した。これらの要因は (i)教師モデル品質がDWTの有効性に及ぼす影響 2DWT損失の重み付け値を調整するためのガイドライン及び 3DWTにおける学生モデル初期化手法としてのパラメータ再マッピングの効果

関連論文リスト

CustomKD: Customizing Large Vision Foundation for Edge Model Improvement via Knowledge Distillation [57.91828170220308]
本稿では,大規模視覚基盤モデル(LVFM)を効果的に活用し,エッジモデルの性能を向上させる知識蒸留手法であるCustomKDを提案する。我々のシンプルで効果的なCustomKDは、LVFMに固有のよく一般化された特徴を、モデルの違いを減らすために、与えられた学生モデルにカスタマイズする。
論文参考訳（メタデータ） (2025-03-23T23:53:08Z)
Feature Alignment-Based Knowledge Distillation for Efficient Compression of Large Language Models [4.737806982257592]
本研究では,大規模言語モデルと特徴アライメントに基づく知識蒸留アルゴリズムを提案する。提案モデルは, パープレキシティ, BLEU, ROUGE, CER などの評価指標を用いて, 最先端の GPT-4 モデルに非常に近い性能を示す。
論文参考訳（メタデータ） (2024-12-27T04:37:06Z)
Enhancing Training Data Attribution for Large Language Models with Fitting Error Consideration [74.09687562334682]
Debias and Denoise Attribution (DDA) と呼ばれる新しいトレーニングデータ属性法を導入する。提案手法は既存のアプローチよりも優れており,平均91.64%のAUCを実現している。 DDAは、様々なソースとLLaMA2、QWEN2、Mistralのような異なるスケールのモデルに対して、強力な汎用性とスケーラビリティを示す。
論文参考訳（メタデータ） (2024-10-02T07:14:26Z)
Exploring and Enhancing the Transfer of Distribution in Knowledge Distillation for Autoregressive Language Models [62.5501109475725]
知識蒸留(KD)は、より小さな学生モデルを模倣するように訓練することで、大きな教師モデルを圧縮する技術である。本稿では、教師ネットワークが小さなオンラインモジュールを統合し、学生モデルと同時学習するオンライン知識蒸留(OKD)について紹介する。 OKDは、様々なモデルアーキテクチャやサイズにおけるリードメソッドのパフォーマンスを達成または超え、トレーニング時間を最大4倍に短縮する。
論文参考訳（メタデータ） (2024-09-19T07:05:26Z)
Improve Knowledge Distillation via Label Revision and Data Selection [37.74822443555646]
本稿では,教師の不正確な予測を基礎的真理を用いて修正することを提案する。後者では,教師が指導する適切なトレーニングサンプルを選択するためのデータ選択手法を提案する。実験の結果,提案手法の有効性を実証し,他の蒸留法と組み合わせることができることを示した。
論文参考訳（メタデータ） (2024-04-03T02:41:16Z)
Progressive Distillation Based on Masked Generation Feature Method for Knowledge Graph Completion [29.297959023968165]
そこで本稿では,KGCタスクのためのマスク生成機能に基づくプログレッシブ蒸留法を提案する。具体的には、PLMの予蒸留を行い、高品質の教師モデルを取得し、PLMネットワークを圧縮し、マルチグレードの学生モデルを得る。実験により, 予蒸留段階のモデルが, 既存の最先端手法を超越していることが実証された。
論文参考訳（メタデータ） (2024-01-19T07:34:36Z)
Teacher Guided Training: An Efficient Framework for Knowledge Transfer [86.6784627427194]
高品質なコンパクトモデルを訓練するための教師誘導訓練(TGT)フレームワークを提案する。 TGTは、教師が基礎となるデータドメインの優れた表現を取得したという事実を利用する。 TGTは複数の画像分類ベンチマークやテキスト分類や検索タスクの精度を向上させることができる。
論文参考訳（メタデータ） (2022-08-14T10:33:58Z)
DSEE: Dually Sparsity-embedded Efficient Tuning of Pre-trained Language Models [152.29364079385635]
事前訓練されたモデルが大きくなればなるほど、微調整のプロセスは時間がかかり、計算コストがかかる可能性がある。本稿では,重み更新と最終モデルの重み付けに先立って,疎度を活用することで,資源・パラメータ効率の微調整を行うフレームワークを提案する。提案するフレームワークは,Dually Sparsity-Embeded Efficient Tuning (DSEE)と呼ばれ,パラメータ効率のよい微調整とリソース効率の推論という2つの重要な目標を達成することを目的としている。
論文参考訳（メタデータ） (2021-10-30T03:29:47Z)
ERNIE-Tiny : A Progressive Distillation Framework for Pretrained Transformer Compression [20.23732233214849]
プレトレーニング言語モデル(PLM)を圧縮するための4段階進行蒸留フレームワークERNIE-Tinyを提案する。実験によると、4層のERNIE-TinyはGLUEベンチマークで12層のBERTベースの98.0%のパフォーマンスを維持している。 ERNIE-Tinyは、中国の5つのNLPタスクに対する新しい圧縮SOTAを達成し、BERTベースの精度を0.4%上回り、パラメータは7.5倍、推論速度は9.4倍向上した。
論文参考訳（メタデータ） (2021-06-04T04:00:16Z)
Self-Feature Regularization: Self-Feature Distillation Without Teacher Models [0.0]
浅層層における機能学習を監督するために深層の特徴を用いるセルフフィーチャー正規化(sfr)を提案する。まず,局所的な特徴にマッチする一般化l2損失と,チャネル次元においてより集中的に蒸留する多対一の手法を用いる。
論文参考訳（メタデータ） (2021-03-12T15:29:00Z)
Reinforced Multi-Teacher Selection for Knowledge Distillation [54.72886763796232]
知識蒸留はモデル圧縮の一般的な方法です。現在の方法は、蒸留全体の教師モデルに固定重量を割り当てます。既存のメソッドのほとんどは、すべての教師モデルに等しい重みを割り当てます。本論文では,学習例の複雑性や生徒モデル能力の違いから,教師モデルとの違いを学習することで,生徒モデルの蒸留性能の向上が期待できることを考察する。
論文参考訳（メタデータ） (2020-12-11T08:56:39Z)
Collective Wisdom: Improving Low-resource Neural Machine Translation using Adaptive Knowledge Distillation [42.38435539241788]
並列文ペアの空白は、バイリンガルで低リソースのシナリオで高品質なニューラルネットワーク翻訳(NMT)モデルをトレーニングする上で、大きなハードルとなる。そこで本研究では, 蒸留過程における教師モデルの貢献度を動的に調整する適応的知識蒸留手法を提案する。 IWSLTからTED Talksから低リソースの5つの言語ペアへ6つの言語ペアのコレクションを転送する実験は、我々のアプローチの有効性を実証している。
論文参考訳（メタデータ） (2020-10-12T04:26:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。