論文の概要: LLM on a Budget: Active Knowledge Distillation for Efficient Classification of Large Text Corpora
- arxiv url: http://arxiv.org/abs/2511.11574v1
- Date: Wed, 17 Sep 2025 18:38:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-07 19:06:32.16297
- Title: LLM on a Budget: Active Knowledge Distillation for Efficient Classification of Large Text Corpora
- Title(参考訳): LLM on a Budget: Active Knowledge Distillation for Efficient Classification of Large Text Corpora
- Authors: Viviana Luccioli, Rithika Iyengar, Ryan Panley, Flora Haberkorn, Xiaoyu Ge, Leland Crane, Nitish Sinha, Seung Jung Lee,
- Abstract要約: 大規模言語モデル(LLM)は、分類タスクにおいて非常に正確である。
知識蒸留(KD)では、LLMの「教師」がより小さくより効率的な「学生」モデルを訓練し、この問題に対する有望な解決策を提供する。
M-RARU(Multi-class Randomized Accept/Reject Uncertainty Smpling)は、トレーニングコストを大幅に削減するALアルゴリズムである。
- 参考スコア(独自算出の注目度): 0.1625256372381793
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) are highly accurate in classification tasks, however, substantial computational and financial costs hinder their large-scale deployment in dynamic environments. Knowledge Distillation (KD) where a LLM "teacher" trains a smaller and more efficient "student" model, offers a promising solution to this problem. However, the distillation process itself often remains costly for large datasets, since it requires the teacher to label a vast number of samples while incurring significant token consumption. To alleviate this challenge, in this work we explore the active learning (AL) as a way to create efficient student models at a fraction of the cost while preserving the LLM's performance. In particular, we introduce M-RARU (Multi-class Randomized Accept/Reject Uncertainty Sampling), a novel AL algorithm that significantly reduces training costs. M-RARU employs an innovative strategy combining uncertainty with a randomized accept-reject mechanism to select only the most informative data points for the LLM teacher. This focused approach significantly minimizes required API calls and data processing time. We evaluate M-RARU against random sampling across five diverse student models (SVM, LDA, RF, GBDT, and DistilBERT) on multiple benchmark datasets. Experiments demonstrate that our proposed method achieves up to 80% reduction in sample requirements as compared to random sampling, substantially improving classification accuracy while reducing financial costs and overall training time.
- Abstract(参考訳): 大規模言語モデル(LLM)は、分類作業において非常に正確であるが、計算と財政のかなりのコストは、その大規模展開を動的環境に妨げている。
知識蒸留(KD)では、LLMの「教師」がより小さくより効率的な「学生」モデルを訓練し、この問題に対する有望な解決策を提供する。
しかし、蒸留プロセス自体は大量のデータセットに対してコストがかかることが多く、これは教師が大量のサンプルをラベル付けし、重要なトークン消費を発生させる必要があるためである。
この課題を軽減するため、本研究では、LCMのパフォーマンスを維持しながら、コストのごく一部で効率的な学生モデルを作成する方法として、アクティブラーニング(AL)を探求する。
特に,M-RARU(Multi-class Randomized Accept/Reject Uncertainty Smpling)を導入し,トレーニングコストを大幅に削減するALアルゴリズムを提案する。
M-RARUは、不確実性とランダムなアクセプション-リジェクト機構を組み合わせた革新的な戦略を採用し、LLM教師のための最も情報性の高いデータポイントのみを選択する。
このアプローチは、必要なAPI呼び出しとデータ処理時間を著しく削減する。
複数のベンチマークデータセット上で,5種類の学生モデル(SVM, LDA, RF, GBDT, DistilBERT)のランダムサンプリングに対するM-RARUの評価を行った。
実験により,提案手法は,ランダムサンプリングと比較して最大80%のサンプル要求の削減を実現し,財務コストと訓練時間を大幅に削減し,分類精度を著しく向上することを示した。
関連論文リスト
- Learning with Less: Knowledge Distillation from Large Language Models via Unlabeled Data [54.934578742209716]
現実世界のNLPアプリケーションでは、Large Language Models (LLMs) は巨大なデータセットの広範なトレーニングのために、有望なソリューションを提供する。
LLKDは、教師と学生の両方の信号を組み込んだ適応的なサンプル選択法である。
総合的な実験により,LLKDは高いデータ効率で,様々なデータセットで優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-11-12T18:57:59Z) - Leveraging Zero-Shot Prompting for Efficient Language Model Distillation [3.4205390087622582]
本稿では, LLMをより小さく, アプリケーション固有のモデルに効率よく蒸留する方法を提案する。
LLMの推論機能を利用してラベルを生成し、ラベルのないデータに対して自然言語の合理性を生成する。
主な貢献は、教師モデルの合理性を引き出すため、ゼロショットの雇用である。
論文 参考訳(メタデータ) (2024-03-23T16:51:52Z) - SMART: Automatically Scaling Down Language Models with Accuracy Guarantees for Reduced Processing Fees [21.801053526411415]
大規模言語モデル(LLM)は自然言語処理(NLP)タスクの性能を大幅に向上させた。
高性能LLMの配備は、主にモデル性能の向上を目的としたパラメータの増大により、かなりのコストがかかる。
SMARTは,NLPタスクの推論コストを最小限に抑えつつ,十分な結果品質を確保するために設計された新しいフレームワークである。
論文 参考訳(メタデータ) (2024-03-11T17:45:47Z) - An Experimental Design Framework for Label-Efficient Supervised Finetuning of Large Language Models [55.01592097059969]
命令データセットの監視された微調整は、目覚ましいゼロショットの一般化能力を達成する上で重要な役割を担っている。
アクティブラーニングは、未ラベルのプールからアノテートするサンプルの有用なサブセットを特定するのに効果的である。
本研究では,能動学習の計算ボトルネックを回避するための実験設計を提案する。
論文 参考訳(メタデータ) (2024-01-12T16:56:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。