論文の概要: GKT: A Novel Guidance-Based Knowledge Transfer Framework For Efficient Cloud-edge Collaboration LLM Deployment
- arxiv url: http://arxiv.org/abs/2405.19635v1
- Date: Thu, 30 May 2024 02:37:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-31 18:36:41.395046
- Title: GKT: A Novel Guidance-Based Knowledge Transfer Framework For Efficient Cloud-edge Collaboration LLM Deployment
- Title(参考訳): GKT: 効率的なクラウドエッジコラボレーションLLMデプロイメントのためのガイダンスベースの知識伝達フレームワーク
- Authors: Yao Yao, Zuchao Li, Hai Zhao,
- Abstract要約: 本稿では,新規かつ直感的なガイダンスベース知識伝達(GKT)フレームワークを提案する。
GKTは'teacher'として大きな言語モデルを使用し、ガイダンスプロンプトを生成し、より小さな'student'モデルと組み合わせて応答を確定する。
GSM8Kの最大精度は14.18%、GSM8Kの10.72倍、精度は14.00%、CSQAの7.73倍である。
- 参考スコア(独自算出の注目度): 74.40196814292426
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The burgeoning size of Large Language Models (LLMs) has led to enhanced capabilities in generating responses, albeit at the expense of increased inference times and elevated resource demands. Existing methods of acceleration, predominantly hinged on knowledge distillation, generally necessitate fine-tuning of considerably large models, such as Llama-7B, posing a challenge for average users. Furthermore, present techniques for expediting inference and reducing costs operate independently. To address these issues, we introduce a novel and intuitive Guidance-based Knowledge Transfer (GKT) framework. This approach leverages a larger LLM as a ''teacher'' to create guidance prompts, paired with a smaller ''student'' model to finalize responses. Remarkably, GKT requires no fine-tuning and doesn't necessitate the teacher and student models to have the same vocabulary, allowing for extensive batch generation to accelerate the process while ensuring user customization. GKT can be seamlessly integrated into cloud-edge collaboration architectures, and is versatile enough for plug-and-play application across various models. It excels in both efficiency and affordability, epitomizing a ''cheap and cheerful'' solution. GKT achieves a maximum accuracy improvement of 14.18%, along with a 10.72 times speed-up on GSM8K and an accuracy improvement of 14.00 % along with a 7.73 times speed-up in CSQA. When utilizing ChatGPT as teacher model and Llama2-70B as the student model, we can achieve 95.00% of ChatGPT's performance at 52% of the cost. The results highlight substantial enhancements in accuracy and processing speed on the GSM8K and CSQA datasets, surpassing the performance of using either the student or teacher models in isolation.
- Abstract(参考訳): LLM(Large Language Models)の急成長するサイズは、推論時間の増加とリソース要求の増大を犠牲にして、応答を生成する能力の向上につながっている。
既存の加速法は、主に知識蒸留に依存しており、Llama-7Bのようなかなり大きなモデルの微調整を必要とする。
さらに、推論の迅速化とコスト削減のための技術が独立して動作する。
これらの問題に対処するために、我々は、新しく直感的なガイダンスベースの知識伝達(GKT)フレームワークを導入する。
このアプローチでは、より大きなLLMを'teacher'として活用してガイダンスプロンプトを生成し、より小さな'student'モデルと組み合わせて応答を確定する。
注目すべきなのは、GKTは微調整を必要とせず、教師と生徒のモデルが同じ語彙を持つ必要はなく、大規模なバッチ生成がプロセスの高速化とユーザのカスタマイズの確保を可能にすることだ。
GKTはクラウド・エッジのコラボレーション・アーキテクチャにシームレスに統合することができ、様々なモデルにまたがるプラグイン・アンド・プレイ・アプリケーションに最適である。
効率性と手頃さの両面で優れており、'チープで快活'なソリューションを誇示している。
GKTは14.18%の精度向上、GSM8Kの10.72倍のスピードアップ、14.00%の精度向上、CSQAの7.73倍のスピードアップを実現している。
ChatGPTを教師モデル、Llama2-70Bを学生モデルとして利用する場合、ChatGPTのパフォーマンスの95.00%をコストの52%で達成できる。
その結果、GSM8KデータセットとCSQAデータセットの精度と処理速度が大幅に向上し、生徒モデルと教師モデルの両方を単独で使用する性能を上回った。
関連論文リスト
- Exploring and Enhancing the Transfer of Distribution in Knowledge Distillation for Autoregressive Language Models [62.5501109475725]
知識蒸留(KD)は、より小さな学生モデルを模倣するように訓練することで、大きな教師モデルを圧縮する技術である。
本稿では、教師ネットワークが小さなオンラインモジュールを統合し、学生モデルと同時学習するオンライン知識蒸留(OKD)について紹介する。
OKDは、様々なモデルアーキテクチャやサイズにおけるリードメソッドのパフォーマンスを達成または超え、トレーニング時間を最大4倍に短縮する。
論文 参考訳(メタデータ) (2024-09-19T07:05:26Z) - CLDA: Collaborative Learning for Enhanced Unsupervised Domain Adaptation [15.97351561456467]
コラボレーティブ・ラーニング(Collaborative Learning)とは、学生モデルを用いて教師の非塩分パラメータを更新し、同時に生徒のパフォーマンスを向上させる手法である。
CLDAは、教師の+0.7% mIoUと生徒の+1.4% mIoUを、GTAのベースラインモデルとシティスケープのベースラインモデルに比較して改善する。
論文 参考訳(メタデータ) (2024-09-04T13:35:15Z) - Building Math Agents with Multi-Turn Iterative Preference Learning [56.71330214021884]
本稿では,モデル性能をさらに向上させるために,補完的な直接選好学習手法について検討する。
既存の直接選好学習アルゴリズムは、もともとシングルターンチャットタスク用に設計されている。
この文脈に合わせたマルチターン直接選好学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-04T02:41:04Z) - etuner: A Redundancy-Aware Framework for Efficient Continual Learning Application on Edge Devices [47.365775210055396]
推論精度、微調整実行時間、エネルギー効率を最適化する効率的なエッジ連続学習フレームワークであるETunerを提案する。
実験結果から,ETunerは全体の微調整実行時間を64%削減し,エネルギー消費量を56%削減し,即時モデル微調整アプローチよりも平均推定精度を1.75%向上した。
論文 参考訳(メタデータ) (2024-01-30T02:41:05Z) - Federated Learning of Large Language Models with Parameter-Efficient
Prompt Tuning and Adaptive Optimization [71.87335804334616]
フェデレートラーニング(FL)は、分散データとの協調モデルトレーニングを可能にする、有望なパラダイムである。
LLM(Large Language Models)のトレーニングプロセスは一般的に重要なパラメータの更新を引き起こす。
本稿では,性能と効率を同時に向上する効率的な部分的プロンプトチューニング手法を提案する。
論文 参考訳(メタデータ) (2023-10-23T16:37:59Z) - Compress, Then Prompt: Improving Accuracy-Efficiency Trade-off of LLM
Inference with Transferable Prompt [96.24800696597707]
圧縮モデルにより,このトレードオフを最適化する新たな視点を導入する。
本稿では,圧縮されたモデルを学習プロセスに公開するソフトプロンプト学習法を提案する。
我々のソフトプロンプト戦略は8x圧縮LLaMA-7Bモデルの性能を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2023-05-17T20:45:13Z) - Explicit Knowledge Transfer for Weakly-Supervised Code Generation [14.758396460685017]
我々は,LLMのコード生成能力をより小さなモデルに転送するために,明示的な知識伝達(EKT)を提案する。
EKTは、教師のLLMの少数ショット機能を使って、NLコードペアを作成し、学生の正しさと微調整をフィルタします。
EKTは、専門家の反復による訓練よりも優れた性能を得るだけでなく、知識蒸留よりも優れることがわかった。
論文 参考訳(メタデータ) (2022-11-30T04:51:26Z) - Efficient Crowd Counting via Structured Knowledge Transfer [122.30417437707759]
クラウドカウントはアプリケーション指向のタスクであり、その推論効率は現実世界のアプリケーションにとって不可欠である。
本稿では,学生ネットワークを軽量かつ高効率に構築する構造的知識伝達フレームワークを提案する。
我々のモデルはNvidia 1080 GPUで最低6.5$times$のスピードアップを取得し、最先端のパフォーマンスも達成しています。
論文 参考訳(メタデータ) (2020-03-23T08:05:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。