論文の概要: Performance-Guided LLM Knowledge Distillation for Efficient Text Classification at Scale
- arxiv url: http://arxiv.org/abs/2411.05045v1
- Date: Thu, 07 Nov 2024 01:45:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-11 14:54:54.463464
- Title: Performance-Guided LLM Knowledge Distillation for Efficient Text Classification at Scale
- Title(参考訳): 大規模テキスト分類のための性能誘導LDM知識蒸留
- Authors: Flavio Di Palo, Prateek Singhi, Bilal Fadlallah,
- Abstract要約: 本稿では,生産用テキスト分類アプリケーションにおけるパフォーマンスガイド型知識蒸留(PGKD)について述べる。
PGKDは教師による知識蒸留を利用して、大規模言語モデルの知識を小さなタスク固有のモデルに抽出する。
PGKD は LLM よりも 130 倍高速で 25 倍安価であることを示す。
- 参考スコア(独自算出の注目度): 0.8192907805418581
- License:
- Abstract: Large Language Models (LLMs) face significant challenges at inference time due to their high computational demands. To address this, we present Performance-Guided Knowledge Distillation (PGKD), a cost-effective and high-throughput solution for production text classification applications. PGKD utilizes teacher-student Knowledge Distillation to distill the knowledge of LLMs into smaller, task-specific models. PGKD establishes an active learning routine between the student model and the LLM; the LLM continuously generates new training data leveraging hard-negative mining, student model validation performance, and early-stopping protocols to inform the data generation. By employing a cyclical, performance-aware approach tailored for highly multi-class, sparsely annotated datasets prevalent in industrial text classification, PGKD effectively addresses training challenges and outperforms traditional BERT-base models and other knowledge distillation methods on several multi-class classification datasets. Additionally, cost and latency benchmarking reveals that models fine-tuned with PGKD are up to 130X faster and 25X less expensive than LLMs for inference on the same classification task. While PGKD is showcased for text classification tasks, its versatile framework can be extended to any LLM distillation task, including language generation, making it a powerful tool for optimizing performance across a wide range of AI applications.
- Abstract(参考訳): 大規模言語モデル(LLM)は、高い計算要求のため、推論時に重大な課題に直面します。
そこで本研究では,費用対効果の高い高スループットテキスト分類法であるPGKDを提案する。
PGKDは、LLMの知識を小さなタスク固有のモデルに抽出するために、教師-学生知識蒸留を利用する。
PGKDは、学生モデルとLLMの間のアクティブな学習ルーチンを確立し、LLMは、ハードネガティブなマイニング、学生モデル検証性能、およびデータ生成を知らせる早期学習プロトコルを活用する新しいトレーニングデータを継続的に生成する。
産業用テキスト分類で広く普及している、高度に多クラスな注釈付きデータセットに適した循環型性能認識アプローチを採用することで、PGKDはトレーニング課題に効果的に対処し、従来のBERTベースモデルやその他の知識蒸留手法を複数のマルチクラス分類データセットで上回る。
さらに、コストとレイテンシのベンチマークにより、PGKDで微調整されたモデルは、同じ分類タスクでの推論において、LLMよりも130倍高速で、25倍低価格であることが明らかになった。
PGKDはテキスト分類タスク用に紹介されているが、その汎用フレームワークは言語生成を含むいかなるLLM蒸留タスクにも拡張可能であるため、幅広いAIアプリケーションのパフォーマンスを最適化するための強力なツールとなっている。
関連論文リスト
- Learning with Less: Knowledge Distillation from Large Language Models via Unlabeled Data [54.934578742209716]
現実世界のNLPアプリケーションでは、Large Language Models (LLMs) は巨大なデータセットの広範なトレーニングのために、有望なソリューションを提供する。
LLKDは、教師と学生の両方の信号を組み込んだ適応的なサンプル選択法である。
総合的な実験により,LLKDは高いデータ効率で,様々なデータセットで優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-11-12T18:57:59Z) - Language Models are Graph Learners [70.14063765424012]
言語モデル(LM)は、グラフニューラルネットワーク(GNN)やグラフトランスフォーマー(GT)など、ドメイン固有のモデルの優位性に挑戦している。
本稿では,ノード分類タスクにおける最先端のGNNに匹敵する性能を実現するために,既製のLMを有効活用する手法を提案する。
論文 参考訳(メタデータ) (2024-10-03T08:27:54Z) - DDK: Distilling Domain Knowledge for Efficient Large Language Models [40.839056203329136]
知識蒸留(KD)は、より小さな言語モデルの性能を向上させる効果的な戦略として登場した。
本稿では,教員モデルと学生モデルとのドメイン性能差に応じて蒸留データセットの構成を調整するDDKについて紹介する。
大規模評価の結果,DDK は学生モデルの性能を著しく向上させ,継続的な事前学習ベースラインと既存の知識蒸留法を大きなマージンで上回る結果となった。
論文 参考訳(メタデータ) (2024-07-23T03:47:28Z) - SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。
学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。
ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文 参考訳(メタデータ) (2024-07-16T04:41:58Z) - Learning to Plan for Retrieval-Augmented Large Language Models from Knowledge Graphs [59.76268575344119]
知識グラフ(KG)から得られた計画データを用いて,大規模言語モデル(LLM)計画能力を向上するための新しいフレームワークを提案する。
KGデータで微調整されたLLMは、計画能力を向上し、検索を含む複雑なQAタスクを処理するのがより適している。
論文 参考訳(メタデータ) (2024-06-20T13:07:38Z) - Self-training Large Language Models through Knowledge Detection [26.831873737733737]
大規模な言語モデル(LLM)は、ダウンストリームタスク間で印象的なパフォーマンスを達成するために、広範囲のラベル付きデータセットとトレーニング計算を必要とすることが多い。
本稿では,LLMが独自ラベルを自動でキュレートし,未知のデータサンプルを選択的に学習する自己学習パラダイムについて検討する。
経験的評価は、複数の被験者にまたがる世代における幻覚の減少に有意な改善を示した。
論文 参考訳(メタデータ) (2024-06-17T07:25:09Z) - Evaluating Large Language Models for Health-Related Text Classification Tasks with Public Social Media Data [3.9459077974367833]
大規模言語モデル(LLM)は、NLPタスクにおいて顕著な成功を収めた。
我々は、サポートベクトルマシン(SVM)に基づく教師付き古典機械学習モデルと、RoBERTa、BERTweet、SocBERTに基づく3つの教師付き事前訓練言語モデル(PLM)と、6つのテキスト分類タスクで2つのLLMベースの分類器(GPT3.5、GPT4)をベンチマークした。
LLM(GPT-4)を用いた軽量教師付き分類モデルの訓練には,比較的小さな人手によるデータ拡張(GPT-4)が有効であることを示す総合的な実験を行った。
論文 参考訳(メタデータ) (2024-03-27T22:05:10Z) - LLMaAA: Making Large Language Models as Active Annotators [32.57011151031332]
本稿では,大規模な言語モデルをアノテータとして利用し,それをアクティブな学習ループに配置して,アノテートを効率的に行うLLMaAAを提案する。
我々は、エンティティ認識と関係抽出という、2つの古典的NLPタスクの実験と分析を行う。
LLMaAAでは、LLM生成ラベルからトレーニングされたタスク固有のモデルが、数百の注釈付きサンプルで教師より優れている。
論文 参考訳(メタデータ) (2023-10-30T14:54:15Z) - From Quantity to Quality: Boosting LLM Performance with Self-Guided Data Selection for Instruction Tuning [52.257422715393574]
本稿では,Large Language Models (LLMs) の自己誘導手法を導入し,オープンソースデータセットからサクラサンプルを自動識別し,選択する。
我々の重要な革新である命令追従困難度(IFD)メトリックは、モデルが期待する応答と本質的な生成能力の相違を識別するための重要な指標として現れます。
論文 参考訳(メタデータ) (2023-08-23T09:45:29Z) - Language models are weak learners [71.33837923104808]
本研究では,プロンプトベースの大規模言語モデルは弱い学習者として効果的に動作可能であることを示す。
これらのモデルをブースティングアプローチに組み込むことで、モデル内の知識を活用して、従来のツリーベースのブースティングよりも優れています。
結果は、プロンプトベースのLLMが、少数の学習者だけでなく、より大きな機械学習パイプラインのコンポーネントとして機能する可能性を示している。
論文 参考訳(メタデータ) (2023-06-25T02:39:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。