論文の概要: Dynamic Self-Distillation via Previous Mini-batches for Fine-tuning Small Language Models
- arxiv url: http://arxiv.org/abs/2411.16991v1
- Date: Mon, 25 Nov 2024 23:37:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-27 13:36:08.288218
- Title: Dynamic Self-Distillation via Previous Mini-batches for Fine-tuning Small Language Models
- Title(参考訳): 微調整小言語モデルのための前兆ミニバッチによる動的自己蒸留
- Authors: Yao Fu, Yin Yu, Xiaotian Han, Runchao Li, Xianxuan Long, Haotian Yu, Pan Li,
- Abstract要約: 自己蒸留(SelfD)は、教師の指導なしに生徒モデルが学習できるように、推奨可能な代替手段として現れる。
我々は、前回のミニバッチ(DynSDPB)からDynamic SelfDというモデル非依存およびタスク非依存の手法を導入する。
エンコーダのみのLMとデコーダのみのLMにおいてDynSDPBの優れた性能を示す。
- 参考スコア(独自算出の注目度): 26.52225051132963
- License:
- Abstract: Knowledge distillation (KD) has become a widely adopted approach for compressing large language models (LLMs) to reduce computational costs and memory footprints. However, the availability of complex teacher models is a prerequisite for running most KD pipelines. Thus, the traditional KD procedure can be unachievable or budget-unfriendly, particularly when relying on commercial LLMs like GPT4. In this regard, Self-distillation (SelfD) emerges as an advisable alternative, enabling student models to learn without teachers' guidance. Nonetheless, existing SelfD approaches for LMs often involve architectural modifications, assuming the models are open-source, which may not always be practical. In this work, we introduce a model-agnostic and task-agnostic method named dynamic SelfD from the previous minibatch (DynSDPB), which realizes current iterations' distillation from the last ones' generated logits. Additionally, to address prediction inaccuracies during the early iterations, we dynamically adjust the distillation influence and temperature values to enhance the adaptability of fine-tuning. Furthermore, DynSDPB is a novel fine-tuning policy that facilitates the seamless integration of existing self-correction and self-training techniques for small language models (SLMs) because they all require updating SLMs' parameters. We demonstrate the superior performance of DynSDPB on both encoder-only LMs (e.g., BERT model families) and decoder-only LMs (e.g., LLaMA model families), validating its effectiveness across natural language understanding (NLU) and natural language generation (NLG) benchmarks.
- Abstract(参考訳): 知識蒸留(KD)は,計算コストとメモリフットプリントを削減するため,大規模言語モデル(LLM)を圧縮する手法として広く採用されている。
しかし、複雑な教師モデルの可用性は、ほとんどのKDパイプラインを実行するための前提条件である。
したがって、従来のKDプロシージャは、特にGPT4のような商用LLMに依存している場合、達成できないか、予算的に不都合である。
この点において、自己蒸留(SelfD)は、教師の指導なしに生徒モデルが学習できるように、望ましい代替手段として現れる。
それでも、LMのための既存のセルフDアプローチは、モデルがオープンソースであると仮定して、しばしばアーキテクチャの変更を伴う。
本研究では,前回のミニバッチ(DynSDPB)から動的自己認識(Dynamic SelfD)と呼ばれるモデル非依存・タスク非依存の手法を導入する。
さらに, 早期反復における予測不正確性に対処するため, 蒸留の影響と温度値を動的に調整し, 微調整の適応性を高める。
さらに、DynSDPBは、SLMのパラメータを更新する必要があるため、SLM(Small Language Model)のための既存の自己補正と自己学習のシームレスな統合を容易にする、新しい微調整ポリシーである。
我々は,エンコーダのみのLM(例えばBERTモデルファミリ)とデコーダのみのLM(例えばLLaMAモデルファミリ)において,DynSDPBの優れた性能を示し,自然言語理解(NLU)と自然言語生成(NLG)ベンチマークでの有効性を検証した。
関連論文リスト
- Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。
In-Context Learning (ICL) など。
効率的なファインチューニング(PEFT)は、現在2つの主要な拡張方法である。
下流タスクへのLLM。
我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文 参考訳(メタデータ) (2024-09-30T10:48:20Z) - Exploring and Enhancing the Transfer of Distribution in Knowledge Distillation for Autoregressive Language Models [62.5501109475725]
知識蒸留(KD)は、より小さな学生モデルを模倣するように訓練することで、大きな教師モデルを圧縮する技術である。
本稿では、教師ネットワークが小さなオンラインモジュールを統合し、学生モデルと同時学習するオンライン知識蒸留(OKD)について紹介する。
OKDは、様々なモデルアーキテクチャやサイズにおけるリードメソッドのパフォーマンスを達成または超え、トレーニング時間を最大4倍に短縮する。
論文 参考訳(メタデータ) (2024-09-19T07:05:26Z) - Boosting Continual Learning of Vision-Language Models via Mixture-of-Experts Adapters [65.15700861265432]
本稿では,視覚言語モデルを用いた漸進的学習における長期的忘れを緩和するパラメータ効率の連続学習フレームワークを提案する。
提案手法では,Mixture-of-Experts (MoE)アダプタの統合により,事前学習したCLIPモデルの動的拡張を行う。
視覚言語モデルのゼロショット認識能力を維持するために,分布判別オートセレクタを提案する。
論文 参考訳(メタデータ) (2024-03-18T08:00:23Z) - AXOLOTL: Fairness through Assisted Self-Debiasing of Large Language
Model Outputs [20.772266479533776]
AXOLOTLはタスクやモデル間で不可知的に動作する新しい後処理フレームワークである。
バイアスを識別し、解像度を提案し、モデルにアウトプットを自己バイアスさせる。
このアプローチは計算コストを最小化し、モデル性能を保存する。
論文 参考訳(メタデータ) (2024-03-01T00:02:37Z) - DistiLLM: Towards Streamlined Distillation for Large Language Models [53.46759297929675]
DistiLLMは自動回帰言語モデルのためのより効率的で効率的なKDフレームワークである。
DisiLLMは,(1)新しいスキューKulback-Leibler分散損失,(2)学生生成出力の効率向上を目的とした適応型オフ政治アプローチの2つのコンポーネントから構成される。
論文 参考訳(メタデータ) (2024-02-06T11:10:35Z) - MiniLLM: Knowledge Distillation of Large Language Models [112.93051247165089]
知識蒸留(KD)は,大規模言語モデル(LLM)の高い計算要求を低減させる,有望な手法である。
より小さな言語モデルにLPMを蒸留するKD手法を提案する。
提案手法は,120Mから13Bのパラメータを持つ異なるモデルファミリに対してスケーラブルである。
論文 参考訳(メタデータ) (2023-06-14T14:44:03Z) - Self-Feature Regularization: Self-Feature Distillation Without Teacher
Models [0.0]
浅層層における機能学習を監督するために深層の特徴を用いるセルフフィーチャー正規化(sfr)を提案する。
まず,局所的な特徴にマッチする一般化l2損失と,チャネル次元においてより集中的に蒸留する多対一の手法を用いる。
論文 参考訳(メタデータ) (2021-03-12T15:29:00Z) - MiniLM: Deep Self-Attention Distillation for Task-Agnostic Compression
of Pre-Trained Transformers [117.67424061746247]
本稿では,大規模トランスフォーマーをベースとした事前学習モデルの簡易かつ効率的な圧縮手法を提案する。
本稿では,教師の最後のトランスフォーマー層の自己保持モジュールを蒸留することを提案する。
実験結果から, 単言語モデルでは, 学生モデルのパラメータサイズの違いにより, 最先端のベースラインよりも優れた結果が得られた。
論文 参考訳(メタデータ) (2020-02-25T15:21:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。