論文の概要: LongLLMLingua: Accelerating and Enhancing LLMs in Long Context Scenarios
via Prompt Compression
- arxiv url: http://arxiv.org/abs/2310.06839v1
- Date: Tue, 10 Oct 2023 17:59:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-11 14:18:09.187566
- Title: LongLLMLingua: Accelerating and Enhancing LLMs in Long Context Scenarios
via Prompt Compression
- Title(参考訳): LongLLMLingua: Prompt Compressionによる長期シナリオにおけるLCMの高速化と強化
- Authors: Huiqiang Jiang, Qianhui Wu, Xufang Luo, Dongsheng Li, Chin-Yew Lin,
Yuqing Yang, Lili Qiu
- Abstract要約: 長期のシナリオでは、大きな言語モデル(LLM)が3つの大きな課題に直面している。
本稿では,LongLLMLinguaを提案する。
- 参考スコア(独自算出の注目度): 37.85493208235605
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In long context scenarios, large language models (LLMs) face three main
challenges: higher computational/financial cost, longer latency, and inferior
performance. Some studies reveal that the performance of LLMs depends on both
the density and the position of the key information (question relevant) in the
input prompt. Inspired by these findings, we propose LongLLMLingua for prompt
compression towards improving LLMs' perception of the key information to
simultaneously address the three challenges. We conduct evaluation on a wide
range of long context scenarios including single-/multi-document QA, few-shot
learning, summarization, synthetic tasks, and code completion. The experimental
results show that LongLLMLingua compressed prompt can derive higher performance
with much less cost. The latency of the end-to-end system is also reduced. For
example, on NaturalQuestions benchmark, LongLLMLingua gains a performance boost
of up to 17.1% over the original prompt with ~4x fewer tokens as input to
GPT-3.5-Turbo. It can derive cost savings of \$28.5 and \$27.4 per 1,000
samples from the LongBench and ZeroScrolls benchmark, respectively.
Additionally, when compressing prompts of ~10k tokens at a compression rate of
2x-10x, LongLLMLingua can speed up the end-to-end latency by 1.4x-3.8x. Our
code is available at https://aka.ms/LLMLingua.
- Abstract(参考訳): 長い文脈のシナリオでは、大きな言語モデル(llm)は、高い計算/財務コスト、長いレイテンシ、低いパフォーマンスという3つの大きな課題に直面している。
一部の研究では、LLMの性能は入力プロンプトにおけるキー情報(クエスト)の密度と位置に依存することが示されている。
そこで本研究では,これらの知見に触発されて,llmsの鍵情報の認識を改善するために,迅速な圧縮を行うためのlongllmlinguaを提案する。
我々は、シングル/マルチドキュメントqa、少数ショット学習、要約、合成タスク、コード補完を含む、幅広い長いコンテキストシナリオを評価します。
実験結果から,LongLLMLingua圧縮プロンプトは低コストで高い性能が得られることが示された。
エンドツーエンドシステムのレイテンシも削減される。
例えば、NaturalQuestionsベンチマークでは、LongLLMLinguaはGPT-3.5-Turboへの入力としてトークンを4倍に減らし、元のプロンプトよりも最大17.1%のパフォーマンス向上を実現している。
それぞれlongbenchベンチマークとzeroscrollsベンチマークから1,000サンプルあたり28.5ドルと27.4ドルを節約できる。
さらに、圧縮速度2x-10xで10kトークンのプロンプトを圧縮する場合、LongLLMLinguaはエンドツーエンドのレイテンシを1.4x-3.8x高速化することができる。
私たちのコードはhttps://aka.ms/LLMLingua.comで利用可能です。
関連論文リスト
- Learning to Compress Prompt in Natural Language Formats [54.06967020905763]
大規模言語モデル(LLM)は、複数の自然言語処理タスクを処理するのに優れている。
LLMは、長いコンテキスト、遅い推論速度、高い計算コストによる性能の低下によって制約される。
本研究の目的は、LLM転送性を備えた自然言語形式で長いプロンプトを圧縮することである。
論文 参考訳(メタデータ) (2024-02-28T20:41:21Z) - Think Big, Generate Quick: LLM-to-SLM for Fast Autoregressive Decoding [16.66039039507951]
大規模言語モデル(LLM)は、実際にはユビキタスなものとなり、翻訳、要約、命令の追従といった生成タスクに広く利用されている。
本稿では,異なるサイズの言語モデルを組み合わせて,自己回帰復号化の効率を高めるハイブリッド手法を提案する。
論文 参考訳(メタデータ) (2024-02-26T18:59:28Z) - Deja Vu: Contextual Sparsity for Efficient LLMs at Inference Time [90.96447932006822]
数十億のパラメータを持つ大規模言語モデル(LLM)が、エキサイティングなAIアプリケーションに新たな波を巻き起こした。
既存の方法は、コストのかかる再訓練が必要か、LLMのコンテキスト内学習能力を捨てるか、ウォールクロックのスピードアップを達成できないかのいずれかである。
DejaVuは,各層に与えられた入力をリアルタイムで予測するために,低コストなアルゴリズムを用いたシステムである。
論文 参考訳(メタデータ) (2023-10-26T05:01:09Z) - LLMLingua: Compressing Prompts for Accelerated Inference of Large
Language Models [22.06402870816756]
大きな言語モデル(LLM)は、その驚くべき能力のために様々なアプリケーションに適用されている。
本稿では,意味的整合性を維持するための予算制御を伴う粗大なプロンプト圧縮手法であるLLMLinguaを提案する。
提案手法により,最先端性能が得られ,最大20倍圧縮が可能であり,性能損失が少ないことを示す。
論文 参考訳(メタデータ) (2023-10-09T14:10:21Z) - Compressing LLMs: The Truth is Rarely Pure and Never Simple [90.05366363633568]
Knowledge-Intensive Compressed LLM BenchmarKは、圧縮された大言語モデルの評価プロトコルを再定義することを目的としている。
LLM-KICKは、現在のSoTA圧縮方式の多くの有利な利点と不運な点を明らかにしている。
LLM-KICKは、言語理解、推論、生成、テキスト内検索、テキスト内要約などのための圧縮LLMの能力に一様にアクセスできるように設計されている。
論文 参考訳(メタデータ) (2023-10-02T17:42:37Z) - LLMCad: Fast and Scalable On-device Large Language Model Inference [11.103824752113148]
テキスト生成や質問応答といった生成タスクは、モバイルアプリケーションの領域において重要な位置を占める。
現在、これらの生成タスクの実行は、大規模言語モデル(LLM)に大きく依存している。
本稿では,効率的な生成自然言語処理(NLP)タスク用に設計されたオンデバイス推論エンジンであるLLMCadを紹介する。
論文 参考訳(メタデータ) (2023-09-08T10:44:19Z) - LM-Infinite: Zero-Shot Extreme Length Generalization for Large Language
Models [88.19189563759942]
この研究は、この長大一般化失敗に寄与する3つの主要な要因を特定する。
本研究では,LLMの長期処理能力を高めるための簡易かつ効果的な手法であるLM-Infiniteを提案する。
パラメータの更新がないため、2Kまたは4Kのセグメントで事前訓練されたLLMは、パープレキシティを維持しながら最大2億の入力を一般化することができる。
論文 参考訳(メタデータ) (2023-08-30T16:47:51Z) - In-context Autoencoder for Context Compression in a Large Language Model [70.7621953091318]
In-context Autoencoder (ICAE) を提案し、長いコンテキストを短いメモリスロットに圧縮する。
ICAEは、大量のテキストデータに基づく自動符号化と言語モデリングの両方の目的を用いて、まず事前訓練を行う。
論文 参考訳(メタデータ) (2023-07-13T17:59:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。