論文の概要: Towards Cross-Tokenizer Distillation: the Universal Logit Distillation
Loss for LLMs
- arxiv url: http://arxiv.org/abs/2402.12030v1
- Date: Mon, 19 Feb 2024 10:37:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-20 17:03:34.474344
- Title: Towards Cross-Tokenizer Distillation: the Universal Logit Distillation
Loss for LLMs
- Title(参考訳): クロストケナイザー蒸留に向けて:LLMのユニバーサルロジット蒸留損失
- Authors: Nicolas Boizard, Kevin El-Haddad, C\'eline Hudelot, Pierre Colombo
- Abstract要約: 知識蒸留は、資源集約型の大規模モデルからより小さなモデルへの知識を圧縮することで解を提供する。
我々は,この制限に対処するため,最適輸送を前提としたユニバーサルロジット蒸留(ULD)損失を導入する。
- 参考スコア(独自算出の注目度): 12.412075695071529
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deploying large language models (LLMs) of several billion parameters can be
impractical in most industrial use cases due to constraints such as cost,
latency limitations, and hardware accessibility. Knowledge distillation (KD)
offers a solution by compressing knowledge from resource-intensive large models
to smaller ones. Various strategies exist, some relying on the text generated
by the teacher model and optionally utilizing his logits to enhance learning.
However, these methods based on logits often require both teacher and student
models to share the same tokenizer, limiting their applicability across
different LLM families. In this paper, we introduce Universal Logit
Distillation (ULD) loss, grounded in optimal transport, to address this
limitation. Our experimental results demonstrate the effectiveness of ULD loss
in enabling distillation across models with different architectures and
tokenizers, paving the way to a more widespread use of distillation techniques.
- Abstract(参考訳): 数十億のパラメータを持つ大規模言語モデル(llm)のデプロイは、コストやレイテンシの制限、ハードウェアアクセシビリティといった制約のため、ほとんどの産業用途において実用的ではない。
知識蒸留(KD)は、資源集約型大規模モデルからより小さなモデルへの知識の圧縮による解を提供する。
様々な戦略が存在しており、教師モデルが生成したテキストに依存し、任意に彼のロジットを利用して学習を強化する。
しかしながら、ロジットに基づくこれらの手法は、教師と学生の両方が同じトークン化子を共有することを必要とし、異なるLLMファミリーに適用性を制限する。
本稿では,この制限に対処するため,最適輸送を前提としたユニバーサルロジット蒸留(ULD)損失について述べる。
実験の結果, 異なるアーキテクチャとトークン化器を有するモデル間での蒸留が可能となり, 蒸留技術のより広範な利用への道が開けた。
関連論文リスト
- ELAD: Explanation-Guided Large Language Models Active Distillation [16.243249111524403]
LLM(Large Language Models)のデプロイメントと適用は、そのメモリ非効率性、計算要求、API推論の高コストによって妨げられている。
LLMの能力をより小さなモデルに伝達する伝統的な蒸留法は、知識が十分に伝達されているかどうかを判断できないことが多い。
本稿では,アノテーションコストとモデル性能のバランスを最適化するために,アクティブラーニング戦略を用いた説明誘導型ELAD(Explaination-Guided LLMs Active Distillation)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-20T15:47:59Z) - DistiLLM: Towards Streamlined Distillation for Large Language Models [58.40950424419147]
DistiLLMは自動回帰言語モデルのためのより効率的で効率的なKDフレームワークである。
DisiLLMは,(1)新しいスキューKulback-Leibler分散損失,(2)学生生成出力の効率向上を目的とした適応型オフ政治アプローチの2つのコンポーネントから構成される。
論文 参考訳(メタデータ) (2024-02-06T11:10:35Z) - One-Shot Sensitivity-Aware Mixed Sparsity Pruning for Large Language Models [42.95555008229016]
そこで本研究では, ヘッセン感度を意識した混合疎水性プルーニング法を, 再トレーニングを必要とせず, 最低50%の疎水性まで適用する方法を提案する。
提案手法の利点は, 空間が極めて高い場合にさらに顕著である。
論文 参考訳(メタデータ) (2023-10-14T05:43:09Z) - ECoFLaP: Efficient Coarse-to-Fine Layer-Wise Pruning for Vision-Language
Models [70.45441031021291]
LVLM(Large Vision-Language Models)は、様々なモダリティから豊富な情報を統合することで、世界を包括的に理解することができる。
LVLMは計算/エネルギーの膨大なコストと炭素消費のためにしばしば問題となる。
本稿では,LVLMの2段間粗大な重み付け法であるECoFLaP(Efficient Coarse-to-Fine LayerWise Pruning)を提案する。
論文 参考訳(メタデータ) (2023-10-04T17:34:00Z) - MinT: Boosting Generalization in Mathematical Reasoning via Multi-View
Fine-Tuning [53.90744622542961]
数学領域における推論は、小言語モデル(LM)にとって重要な課題である。
多様なアノテーションスタイルで既存の数学的問題データセットを利用する新しい手法を提案する。
実験結果から,LLaMA-7Bモデルが先行手法より優れていることが示された。
論文 参考訳(メタデータ) (2023-07-16T05:41:53Z) - GKD: A General Knowledge Distillation Framework for Large-scale
Pre-trained Language Model [26.141575725773016]
本稿では,大規模PLMの蒸留を支援する一般知識蒸留フレームワークであるGKDを提案する。
GKDは8 NVIDIA A100 (40GB) 上で少なくとも100BスケールのPLMと25の主流メソッドの蒸留をサポート可能であることを示す。
その結果,GKDは8 NVIDIA A100 (40GB) 上で少なくとも100BスケールのPLMと25の主流法を蒸留できることがわかった。
論文 参考訳(メタデータ) (2023-06-11T09:17:21Z) - BOOT: Data-free Distillation of Denoising Diffusion Models with
Bootstrapping [64.54271680071373]
拡散モデルは多様な画像を生成する優れた可能性を示している。
知識蒸留は、推論ステップの数を1つか数に減らすための治療法として最近提案されている。
本稿では,効率的なデータフリー蒸留アルゴリズムにより限界を克服するBOOTと呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-06-08T20:30:55Z) - Multi-teacher knowledge distillation as an effective method for
compressing ensembles of neural networks [0.0]
大規模深層モデルは非常に成功したが、膨大な計算複雑性と巨大なストレージ要件により、リアルタイムアプリケーションでは実装が困難である。
単一モデルの重み空間に全アンサンブルモデルを圧縮できる改良された知識蒸留フレームワークを提案する。
知識蒸留は,1つの学生モデルで複数の教師の知識を集約し,同じ計算量で,標準手法で訓練したモデルと比較して,優れた性能のモデルが得られることを示す。
論文 参考訳(メタデータ) (2023-02-14T17:40:36Z) - Unifying Synergies between Self-supervised Learning and Dynamic
Computation [53.66628188936682]
SSLとDCのパラダイム間の相互作用に関する新しい視点を提示する。
SSL設定において、スクラッチから高密度かつゲートされたサブネットワークを同時に学習することは可能であることを示す。
密集エンコーダとゲートエンコーダの事前学習における共進化は、良好な精度と効率のトレードオフをもたらす。
論文 参考訳(メタデータ) (2023-01-22T17:12:58Z) - Too Brittle To Touch: Comparing the Stability of Quantization and
Distillation Towards Developing Lightweight Low-Resource MT Models [12.670354498961492]
最先端の機械翻訳モデルは、しばしば低リソース言語のデータに適応することができる。
知識蒸留(Knowledge Distillation)は、競争力のある軽量モデルを開発するための一般的な技術である。
論文 参考訳(メタデータ) (2022-10-27T05:30:13Z) - Efficient Transformers in Reinforcement Learning using Actor-Learner
Distillation [91.05073136215886]
「Actor-Learner Distillation」は、大容量学習者モデルから小容量学習者モデルへ学習の進捗を移す。
Actor-Learner Distillation を用いて,トランスフォーマー学習モデルの明確なサンプル効率向上を再現する,いくつかの挑戦的なメモリ環境を実証する。
論文 参考訳(メタデータ) (2021-04-04T17:56:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。