論文の概要: Compress, Then Prompt: Improving Accuracy-Efficiency Trade-off of LLM
Inference with Transferable Prompt
- arxiv url: http://arxiv.org/abs/2305.11186v1
- Date: Wed, 17 May 2023 20:45:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-22 17:57:05.429298
- Title: Compress, Then Prompt: Improving Accuracy-Efficiency Trade-off of LLM
Inference with Transferable Prompt
- Title(参考訳): 圧縮とプロンプト:転送可能なプロンプトによるllm推論の精度と効率のトレードオフを改善する
- Authors: Zhaozhuo Xu, Zirui Liu, Beidi Chen, Yuxin Tang, Jue Wang, Kaixiong
Zhou, Xia Hu and Anshumali Shrivastava
- Abstract要約: 大規模言語モデル(LLM)は、広範囲の自然言語処理(NLP)タスクにおいて、例外的なパフォーマンスを示す。
LLMは、特にシングルGPUのような一般的なハードウェアにデプロイする場合、推論中に重要な計算課題を示す。
このトレードオフを最適化するためには、オリジナルのモデルと異なる独自の入力形式が必要となる。
- 参考スコア(独自算出の注目度): 70.74609098788851
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs), armed with billions of parameters, exhibit
exceptional performance across a wide range of Natural Language Processing
(NLP) tasks. However, they present a significant computational challenge during
inference, especially when deploying on common hardware such as single GPUs. As
such, minimizing the latency of LLM inference by curtailing computational and
memory requirements, though achieved through compression, becomes critically
important. However, this process inevitably instigates a trade-off between
efficiency and accuracy, as compressed LLMs typically experience a reduction in
predictive precision. In this research, we introduce an innovative perspective:
to optimize this trade-off, compressed LLMs require a unique input format that
varies from that of the original models. Our findings indicate that the
generation quality in a compressed LLM can be markedly improved for specific
queries by selecting prompts with precision. Capitalizing on this insight, we
introduce a prompt learning paradigm that cultivates an additive prompt over a
compressed LLM to bolster their accuracy. Our empirical results imply that
through our strategic prompt utilization, compressed LLMs can match, and
occasionally even exceed, the accuracy of the original models. Moreover, we
demonstrated that these learned prompts have a certain degree of
transferability across various datasets, tasks, and compression levels. These
insights shine a light on new possibilities for enhancing the balance between
accuracy and efficiency in LLM inference. Specifically, they underscore the
importance of judicious input editing to a compressed large model, hinting at
potential advancements in scaling LLMs on common hardware.
- Abstract(参考訳): 数十億のパラメータで武装した大規模言語モデル(LLM)は、幅広い自然言語処理(NLP)タスクで例外的なパフォーマンスを示す。
しかし、推論の間、特に単一のGPUのような一般的なハードウェアにデプロイする場合、大きな計算課題が提示される。
そのため、圧縮によって達成されるものの、計算とメモリ要求を削減し、LLM推論のレイテンシを最小限に抑えることが重要となる。
しかし、圧縮llmは通常予測精度の低下を経験するため、このプロセスは効率と精度のトレードオフを必然的に引き起こす。
本研究では,このトレードオフを最適化するためには,元のモデルと異なる独自の入力形式を必要とする。
この結果から, 圧縮LDMにおける生成品質は, 精度の高いプロンプトを選択することで, 特定のクエリに対して顕著に向上できることが示唆された。
この知見に乗じて,圧縮llm上で加法プロンプトを育成し,精度を高めるための学習パラダイムを提案する。
我々の経験的結果は、戦略的な迅速な利用により、圧縮されたLLMは元のモデルの精度と一致し、時折超えることができることを示唆している。
さらに,これらの学習プロンプトが,各種データセット,タスク,圧縮レベル間である程度の転送性を持つことを示した。
これらの知見は、LLM推論における精度と効率のバランスを高める新しい可能性に光を当てている。
具体的には、圧縮された大きなモデルに対する司法入力編集の重要性を強調し、共通ハードウェア上でのLSMのスケーリングの潜在的な進歩を示唆している。
関連論文リスト
- LoRC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategy [59.1298692559785]
キーバリュー(KV)キャッシュは、トランスフォーマーベースの自己回帰型大言語モデル(LLM)を提供する上で重要なコンポーネントである。
この問題を緩和するためのアプローチとしては、(1) アップサイクルステージに統合された効率的な注意変動、(2) テスト時のKVキャッシュ圧縮、(3) テスト時のKVキャッシュ圧縮がある。
そこで我々は,KV重み行列の低ランク近似を提案し,モデル再学習なしに既存のトランスフォーマーベースLCMとのプラグイン統合を実現する。
本手法は,テスト段階におけるアップサイクリング段階のモデルチューニングやタスク固有のプロファイリングを伴わずに機能するように設計されている。
論文 参考訳(メタデータ) (2024-10-04T03:10:53Z) - Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。
In-Context Learning (ICL) など。
効率的なファインチューニング(PEFT)は、現在2つの主要な拡張方法である。
下流タスクへのLLM。
我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文 参考訳(メタデータ) (2024-09-30T10:48:20Z) - LLMC: Benchmarking Large Language Model Quantization with a Versatile Compression Toolkit [55.73370804397226]
鍵圧縮技術である量子化は、大きな言語モデルを圧縮し、加速することにより、これらの要求を効果的に軽減することができる。
本稿では,プラグアンドプレイ圧縮ツールキットであるLLMCについて,量子化の影響を公平かつ体系的に検討する。
この汎用ツールキットによって、我々のベンチマークはキャリブレーションデータ、アルゴリズム(3つの戦略)、データフォーマットの3つの重要な側面をカバーしています。
論文 参考訳(メタデータ) (2024-05-09T11:49:05Z) - Enabling High-Sparsity Foundational Llama Models with Efficient Pretraining and Deployment [56.44025052765861]
大規模言語モデル(LLM)は自然言語処理(NLP)に革命をもたらしたが、そのサイズは計算のボトルネックを生み出している。
そこで本研究では,高性能LLMの高精度かつ疎結合な基本バージョンを作成するための新しいアプローチを提案する。
スパース量子化LLaMAの最大8.6倍のCPU上での総高速化を示す。
論文 参考訳(メタデータ) (2024-05-06T16:03:32Z) - Long Context Compression with Activation Beacon [22.054232261437186]
Activation Beaconは、トランスフォーマーベースのLLM用のプラグインモジュールである。
長いコンテキストの効率的な、効率的、柔軟な圧縮をターゲットとしている。
推論時間の2倍の高速化と、KVキャッシュのメモリコストの8倍の削減を実現している。
論文 参考訳(メタデータ) (2024-01-07T11:57:40Z) - The Cost of Compression: Investigating the Impact of Compression on
Parametric Knowledge in Language Models [11.156816338995503]
大規模言語モデル(LLM)は、より高速な推論、メモリフットプリントの縮小、ローカルデプロイメントを可能にする。
2つの標準的な圧縮手法はプルーニングと量子化であり、前者はモデル層における冗長な接続を排除し、後者はより少ないビットでモデルパラメータを表現する。
LLM圧縮に関する既存の研究は、主にパープレキシティやダウンストリームタスクの精度といった一般的な指標のパフォーマンスに焦点を当てている。
パラメトリックな知識を測定するような、よりきめ細かいメトリクスは、いまだにかなり過小評価されている。
論文 参考訳(メタデータ) (2023-12-01T22:27:12Z) - Retrieval-based Knowledge Transfer: An Effective Approach for Extreme
Large Language Model Compression [64.07696663255155]
大規模事前学習型言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて例外的な性能を示した。
しかし、これらのモデルの巨大なサイズは、現実世界のアプリケーションに展開する上で大きな課題をもたらします。
本稿では,LLMの知識を極めて小規模なモデルに効果的に伝達するRetrieval-based Knowledge Transfer (RetriKT)と呼ばれる新しい圧縮パラダイムを提案する。
論文 参考訳(メタデータ) (2023-10-24T07:58:20Z) - LLMLingua: Compressing Prompts for Accelerated Inference of Large
Language Models [22.06402870816756]
大きな言語モデル(LLM)は、その驚くべき能力のために様々なアプリケーションに適用されている。
本稿では,意味的整合性を維持するための予算制御を伴う粗大なプロンプト圧縮手法であるLLMLinguaを提案する。
提案手法により,最先端性能が得られ,最大20倍圧縮が可能であり,性能損失が少ないことを示す。
論文 参考訳(メタデータ) (2023-10-09T14:10:21Z) - DePT: Decomposed Prompt Tuning for Parameter-Efficient Fine-tuning [14.975436239088312]
ソフトプロンプトを短いソフトプロンプトと2つの異なる学習率で最適化された低ランク行列に分解するDePTを提案する。
DePTは、いくつかのシナリオにおいて、完全な微調整ベースラインを含む最先端のPEFTアプローチよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-09-11T00:02:05Z) - FineQuant: Unlocking Efficiency with Fine-Grained Weight-Only
Quantization for LLMs [9.072821427818557]
大規模言語モデル(LLM)は、様々な言語タスクで最先端のパフォーマンスを達成しているが、実用的なデプロイメントには課題がある。
メモリ消費を削減し,LLMの推論を高速化する,効率的な重みのみの量子化法を提案する。
我々は,OPT-175Bや内部MoEモデルのような大規模オープンソースモデルに対するアプローチを評価し,スループットを最大3.65倍に向上しながら,最小限の精度の損失を示す。
論文 参考訳(メタデータ) (2023-08-16T23:57:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。