Fugu-MT 論文翻訳(概要): LongLLMLingua: Accelerating and Enhancing LLMs in Long Context Scenarios via Prompt Compression

論文の概要: LongLLMLingua: Accelerating and Enhancing LLMs in Long Context Scenarios via Prompt Compression

arxiv url: http://arxiv.org/abs/2310.06839v2
Date: Mon, 12 Aug 2024 03:53:35 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-14 00:48:29.028695
Title: LongLLMLingua: Accelerating and Enhancing LLMs in Long Context Scenarios via Prompt Compression
Title（参考訳）: LongLLMLingua: Prompt Compressionによる長期シナリオにおけるLCMの高速化と強化
Authors: Huiqiang Jiang, Qianhui Wu, Xufang Luo, Dongsheng Li, Chin-Yew Lin, Yuqing Yang, Lili Qiu,
Abstract要約: LongLLMLinguaはGPT-3.5-Turboのトークンを約4倍減らして、パフォーマンスを21.4%向上させる。 LooGLEベンチマークでは94.0%のコスト削減を実現している。約10kのトークンを2x-6xの割合で圧縮する場合、LongLLMLinguaはエンドツーエンドのレイテンシを1.4x-2.6xに高速化することができる。
参考スコア（独自算出の注目度）: 36.04731356624169
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In long context scenarios, large language models (LLMs) face three main challenges: higher computational cost, performance reduction, and position bias. Research indicates that LLM performance hinges on the density and position of key information in the input prompt. Inspired by these findings, we propose LongLLMLingua for prompt compression towards improving LLMs' perception of the key information to simultaneously address the three challenges. Our extensive evaluation across various long context scenarios demonstrates that LongLLMLingua not only enhances performance but also significantly reduces costs and latency. For instance, in the NaturalQuestions benchmark, LongLLMLingua boosts performance by up to 21.4% with around 4x fewer tokens in GPT-3.5-Turbo, leading to substantial cost savings. It achieves a 94.0% cost reduction in the LooGLE benchmark. Moreover, when compressing prompts of about 10k tokens at ratios of 2x-6x, LongLLMLingua can accelerate end-to-end latency by 1.4x-2.6x. Our code is available at https://aka.ms/LongLLMLingua.
Abstract（参考訳）: 長期のシナリオでは、大きな言語モデル(LLM)は、高い計算コスト、パフォーマンスの低下、位置バイアスという3つの大きな課題に直面します。 LLMの性能は入力プロンプトにおけるキー情報の密度と位置に依存している。これらの知見に触発されて,LongLLMLinguaを提案する。 LongLLMLinguaはパフォーマンスを向上するだけでなく、コストやレイテンシを大幅に低減します。例えば、NaturalQuestionsベンチマークでは、LongLLMLinguaはGPT-3.5-Turboのトークンを約4倍減らしてパフォーマンスを21.4%向上させ、大幅なコスト削減を実現している。 LooGLEベンチマークでは94.0%のコスト削減を実現している。さらに、約10kのトークンを2x-6xの割合で圧縮する場合、LongLLMLinguaはエンドツーエンドのレイテンシを1.4x-2.6xに高速化することができる。私たちのコードはhttps://aka.ms/LongLLMLingua.comで利用可能です。

関連論文リスト

InfiniteHiP: Extending Language Model Context Up to 3 Million Tokens on a Single GPU [48.105361428245736]
大規模言語モデル(LLM)の推論フレームワークであるInfiniteHiPを紹介する。モジュール型階層型トークンプルーニングアルゴリズムにより,無関係なコンテキストトークンを動的に除去する。我々のフレームワークは、追加のトレーニングを必要とせず、100万のトークンコンテキストに対して18.95倍のアテンションデコーディングを実現する。
論文参考訳（メタデータ） (2025-02-13T02:52:01Z)
MixLLM: Dynamic Routing in Mixed Large Language Models [57.309520357563215]
大規模言語モデル(LLM)は、最近、人工知能の可能性を秘めている。問合せ-LLM代入のための動的コンテキスト帯域ベースのルーティングシステムであるMixLLMを開発した。
論文参考訳（メタデータ） (2025-02-09T02:26:15Z)
LLM2: Let Large Language Models Harness System 2 Reasoning [65.89293674479907]
大規模言語モデル(LLM)は、無数のタスクにまたがって印象的な機能を示してきたが、時には望ましくない出力が得られる。本稿では LLM とプロセスベースの検証器を組み合わせた新しいフレームワーク LLM2 を紹介する。 LLMs2は妥当な候補を生成するのに責任を持ち、検証者は望ましい出力と望ましくない出力を区別するためにタイムリーなプロセスベースのフィードバックを提供する。
論文参考訳（メタデータ） (2024-12-29T06:32:36Z)
LLMSteer: Improving Long-Context LLM Inference by Steering Attention on Reused Contexts [2.0384661785620466]
LLMSteerは,クエリに依存しないアテンションステアリングを通じて,大規模言語モデル(LLM)を強化する,微調整不要なフレームワークである。 LLMSteerは人気のあるLLMとデータセットでテストされ、ベースラインでパフォーマンスギャップを65.9%縮小し、実行時の遅延を4.8倍に削減した。
論文参考訳（メタデータ） (2024-11-20T03:17:51Z)
Squeezed Attention: Accelerating Long Context Length LLM Inference [61.787865959140994]
本稿では,入力コンテキストの大部分を固定したアプリケーションを高速化するために,Squeezed Attentionを提案する。推論中、ユーザ入力からのクエリトークンとセントロイドを比較し、固定されたコンテキストからどのキーが意味論的に関連しているかを予測する。また,線形から対数的への注意の複雑さを,固定した文脈長に対して低減できる階層型アルゴリズムを提案する。
論文参考訳（メタデータ） (2024-11-14T18:54:19Z)
Control Large Language Models via Divide and Conquer [94.48784966256463]
本稿では,Lexically Constrained Generation(LCG)に着目し,大規模言語モデル(LLM)のプロンプトベース制御による制御可能生成について検討する。我々は,レキシカル制約を満たすためのLLMの性能を,プロンプトベース制御により評価し,下流アプリケーションでの有効性を検証した。
論文参考訳（メタデータ） (2024-10-06T21:20:06Z)
Discovering the Gems in Early Layers: Accelerating Long-Context LLMs with 1000x Input Token Reduction [47.38471103190534]
大きな言語モデル(LLM)は、長いコンテキスト入力を扱う際、顕著な能力を示してきたが、これは計算リソースとレイテンシの増大によるものである。本研究では,LLM推論を高速化し,GPUメモリ使用量を削減するために,長期的ボトルネックに対する新たなアプローチを提案する。本稿では,LLMの初期レイヤをフィルタとして,入力トークンの選択と圧縮を行うアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-09-25T23:14:47Z)
Efficient Solutions For An Intriguing Failure of LLMs: Long Context Window Does Not Mean LLMs Can Analyze Long Sequences Flawlessly [6.685692482347038]
大規模言語モデル(LLM)は、長い逐次入力の解釈と解析において顕著な能力を示した。本稿では,長い入力シーケンスを扱う場合,LLMが短くなるという,驚くべき制限を明らかにする。本稿では,LLMの性能を最大50%向上させるアドホックな手法を提案し,評価する。
論文参考訳（メタデータ） (2024-08-03T21:31:34Z)
On the Worst Prompt Performance of Large Language Models [93.13542053835542]
大規模言語モデル(LLM)の性能は,プロンプトの表現に非常に敏感である。セマンティックに等価なケースレベルのクエリで構成される新しいベンチマークであるRobustAlpacaEvalを紹介する。 RobustAlpacaEvalとChatGPT、およびLlama、Mistral、Gemmaファミリーの6つのオープンソースLLMによる実験により、モデル性能のかなりのばらつきが明らかになった。
論文参考訳（メタデータ） (2024-06-08T13:40:38Z)
An Empirical Study of LLaMA3 Quantization: From LLMs to MLLMs [54.91212829143966]
本研究では、LLaMA3の低ビット幅への量子化能力について検討する。我々は,LLaMA3の1-8ビットおよび多種多様なデータセットに対して,学習後量子化とLLaMA3のLoRAファインタニング法を10種類評価した。実験の結果,LLaMA3は言語的・視覚的文脈において,相変わらず非言語的劣化をきたしていることが明らかとなった。
論文参考訳（メタデータ） (2024-04-22T10:03:03Z)
Learning to Compress Prompt in Natural Language Formats [54.06967020905763]
大規模言語モデル(LLM)は、複数の自然言語処理タスクを処理するのに優れている。 LLMは、長いコンテキスト、遅い推論速度、高い計算コストによる性能の低下によって制約される。本研究の目的は、LLM転送性を備えた自然言語形式で長いプロンプトを圧縮することである。
論文参考訳（メタデータ） (2024-02-28T20:41:21Z)
LM-Infinite: Zero-Shot Extreme Length Generalization for Large Language Models [83.98062659664785]
大規模言語モデル(LLM)は通常、トランスフォーマーアーキテクチャの2次複雑さのために短いテキストセグメント(例:4Kトークン)でトレーニングする。この研究は、この長大一般化失敗に寄与する3つの主要な要因を特定する。本研究では,LLMの長期処理能力を高めるための簡易かつ効果的な手法であるLM-Infiniteを提案する。
論文参考訳（メタデータ） (2023-08-30T16:47:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。