論文の概要: Prompt Compression in the Wild: Measuring Latency, Rate Adherence, and Quality for Faster LLM Inference
- arxiv url: http://arxiv.org/abs/2604.02985v1
- Date: Fri, 03 Apr 2026 11:41:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-06 17:20:24.462787
- Title: Prompt Compression in the Wild: Measuring Latency, Rate Adherence, and Quality for Faster LLM Inference
- Title(参考訳): 野生におけるプロンプト圧縮:より高速なLDM推論のためのレイテンシ、速度順応、品質の測定
- Authors: Cornelius Kummer, Lena Jurkschat, Michael Färber, Sahar Vahdati,
- Abstract要約: LLMLinguaは、プロンプト長、圧縮比、ハードウェア容量がよく一致した場合、最大18%のエンドツーエンドのスピードアップを達成する。
効率的な圧縮は、ワークロードをデータセンターGPUからコモディティカードにオフロードするのに十分なメモリ使用量を削減できることを示す。
- 参考スコア(独自算出の注目度): 5.608398371429037
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the wide adoption of language models for IR -- and specifically RAG systems -- the latency of the underlying LLM becomes a crucial bottleneck, since the long contexts of retrieved passages lead large prompts and therefore, compute increase. Prompt compression, which reduces the size of input prompts while aiming to preserve performance on downstream tasks, has established itself as a cost-effective and low-latency method for accelerating inference in large language models. However, its usefulness depends on whether the additional preprocessing time during generation is offset by faster decoding. We present the first systematic, large-scale study of this trade-off, with thousands of runs and 30,000 queries across several open-source LLMs and three GPU classes. Our evaluation separates compression overhead from decoding latency while tracking output quality and memory usage. LLMLingua achieves up to 18% end-to-end speed-ups, when prompt length, compression ratio, and hardware capacity are well matched, with response quality remaining statistically unchanged across summarization, code generation, and question answering tasks. Outside this operating window, however, the compression step dominates and cancels out the gains. We also show that effective compression can reduce memory usage enough to offload workloads from data center GPUs to commodity cards, with only a 0.3s increase in latency. Our open-source profiler predicts the latency break-even point for each model-hardware setup, providing practical guidance on when prompt compression delivers real-world benefits.
- Abstract(参考訳): IRの言語モデル(特にRAGシステム)が広く採用されるようになると、抽出されたパスの長いコンテキストが大きなプロンプトを導き、計算量が増加するため、基盤となるLLMのレイテンシが重要なボトルネックとなる。
下流タスクの性能を保ちつつ入力プロンプトのサイズを小さくするプロンプト圧縮は、大規模言語モデルにおける推論の高速化のためのコスト効率と低レイテンシの手法として確立されている。
しかし、その有用性は、より高速な復号化によって、生成中の追加の前処理時間がオフセットされるかどうかに依存する。
我々は、このトレードオフを初めて体系的に大規模に研究し、数千の実行と30,000のクエリを、複数のオープンソースのLLMと3つのGPUクラスで比較した。
評価では、圧縮オーバーヘッドとデコード遅延を区別し、出力品質とメモリ使用量の追跡を行う。
LLMLinguaは、最大18%のエンドツーエンドのスピードアップを実現し、プロンプト長、圧縮比、ハードウェア容量はよく一致し、応答品質は要約、コード生成、質問応答タスクで統計的に変化しない。
しかし、このオペレーティングウィンドウの外では、圧縮ステップが支配し、ゲインをキャンセルする。
また、効率的な圧縮により、ワークロードをデータセンターGPUからコモディティカードにオフロードするのに十分なメモリ使用量を削減できることを示す。
当社のオープンソースのプロファイラは,各モデルハードウェアのセットアップ毎に,レイテンシの欠落点を予測し,プロンプト圧縮が現実の利益をもたらす際の実践的なガイダンスを提供します。
関連論文リスト
- ZipServ: Fast and Memory-Efficient LLM Inference with Hardware-Aware Lossless Compression [19.538318240352424]
ロスレスモデル圧縮は、ビットエクササイズ大言語モデル(LLM)サービスにおけるメモリと帯域幅のボトルネックを軽減するために、非常に有望である。
既存のアプローチは、GPUアーキテクチャと基本的な設計ミスマッチのため、かなり推論が遅くなることが多い。
我々は、効率的なLLM推論のために共同設計されたロスレス圧縮フレームワークZipServを提案する。
論文 参考訳(メタデータ) (2026-03-18T07:21:21Z) - Spava: Accelerating Long-Video Understanding via Sequence-Parallelism-aware Approximate Attention [63.69228529380251]
Spavaはシーケンス並列フレームワークで、ロングビデオ推論に最適化されている。
Spavaは、FlashAttn、ZigZagRing、APBで12.72x、1.70x、1.18xのスピードアップを提供する。
論文 参考訳(メタデータ) (2026-01-29T09:23:13Z) - ICPC: In-context Prompt Compression with Faster Inference [0.0]
I CPC(In-context Prompt Compression)は,新規かつスケーラブルなプロンプト圧縮手法であり,プロンプト長を適応的に削減する。
I CPCの鍵となる考え方は、エンコーダを用いてプロンプトに現れる各単語の確率を計算し、情報関数を介して各単語が持つ情報を計算することである。
実験により、I CPCは、異なるカテゴリの長いテキストを効果的に圧縮し、異なるタイプのNLPタスクにおいてより優れた性能と速度を実現することができることを示した。
論文 参考訳(メタデータ) (2025-01-03T03:46:51Z) - Efficient Long Context Language Model Retrieval with Compression [57.09163579304332]
情報検索のための新しいパラダイムとしてLong Context Language Models (LCLM)が登場した。
本稿では,LCLM検索に適した新しい圧縮手法を提案する。
また,CoLoRはテキスト内サイズを1.91倍に圧縮し,検索性能を6%向上することを示した。
論文 参考訳(メタデータ) (2024-12-24T07:30:55Z) - LanguaShrink: Reducing Token Overhead with Psycholinguistics [8.123272461141815]
LanguaShrinkは、大規模言語モデルの即時圧縮フレームワークである。
本質的な情報を保持しながら、即時長を短縮する。
既存のプロンプト圧縮手法と比較して、LanguaShrinkはエンドツーエンドのレイテンシを1.43倍改善している。
論文 参考訳(メタデータ) (2024-09-01T22:09:20Z) - MagicDec: Breaking the Latency-Throughput Tradeoff for Long Context Generation with Speculative Decoding [12.74265334789358]
我々は,中間列から長列への高スループット推論方式であっても,投機的復号化が高速化可能であることを示す。
最大高速化のための最適起草戦略を選択するための理論的モデルを提案する。
中程度から長いシーケンスでは、32から256までのバッチサイズでLlama3.1-8Bの2.51倍のスピードアップを示す。
論文 参考訳(メタデータ) (2024-08-20T17:57:31Z) - In-Context Former: Lightning-fast Compressing Context for Large Language Model [48.831304302467004]
本稿では,Transformer-based large language model (LLM) の長期入力コンテキストを圧縮する手法を提案する。
我々は,単語の埋め込みから情報を集めるために,クロスアテンション機構と少数の学習可能なダイジェストトークンを使用する。
実験の結果, 圧縮時のベースライン浮動小数点演算の1/32しか必要とせず, 処理速度を68倍から112倍に向上することがわかった。
論文 参考訳(メタデータ) (2024-06-19T15:14:55Z) - Hardware-Aware Parallel Prompt Decoding for Memory-Efficient Acceleration of LLM Inference [23.633481089469836]
LLM(Large Language Models)の自動回帰デコーディングは、ハードウェアの性能に大きなオーバーヘッドをもたらす。
トレーニング可能なパラメータを0.0002$%しか必要とせず,A100-40GBのGPUをたった16時間で効率的にトレーニングできる並列プロンプトデコーディングを提案する。
我々のアプローチでは、最大2.49$times$ スピードアップを示し、最小のメモリオーバーヘッドは0.0004$%である。
論文 参考訳(メタデータ) (2024-05-28T22:19:30Z) - Compress, Then Prompt: Improving Accuracy-Efficiency Trade-off of LLM
Inference with Transferable Prompt [96.24800696597707]
圧縮モデルにより,このトレードオフを最適化する新たな視点を導入する。
本稿では,圧縮されたモデルを学習プロセスに公開するソフトプロンプト学習法を提案する。
我々のソフトプロンプト戦略は8x圧縮LLaMA-7Bモデルの性能を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2023-05-17T20:45:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。