論文の概要: SCOPE: A Generative Approach for LLM Prompt Compression
- arxiv url: http://arxiv.org/abs/2508.15813v1
- Date: Sat, 16 Aug 2025 01:41:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-25 16:42:36.08255
- Title: SCOPE: A Generative Approach for LLM Prompt Compression
- Title(参考訳): SCOPE: LLM Prompt 圧縮のためのジェネレーティブアプローチ
- Authors: Tinghui Zhang, Yifan Wang, Daisy Zhe Wang,
- Abstract要約: 本稿では,新しい生成的即時圧縮法を提案する。
既存のトークン除去方法とは異なり,本手法はチャンキング・アンド・サマー化機構に重点を置いている。
提案手法は, 圧縮品質が向上し, 最新技術よりも安定性が向上する。
- 参考スコア(独自算出の注目度): 7.813705327778312
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Prompt compression methods enhance the efficiency of Large Language Models (LLMs) and minimize the cost by reducing the length of input context. The goal of prompt compression is to shorten the LLM prompt while maintaining a high generation quality. However, existing solutions, mainly based on token removal, face challenges such as information loss and structural incoherence, like missing grammar elements in a sentence, or incomplete word phrases after token removal. Such challenges limit the final generation quality of LLM. To overcome these limitations, we present a novel generative prompt compression method. Unlike the existing token removal methods, our method centers at a chunking-and-summarization mechanism. Specifically, our method splits prompt into semantically coherent chunks and rewrites the chunks to be more concise. The chunks are reconstructed into meaningful prompt finally. We design several optimization techniques for the mechanism, including optimized semantic chunking, outlier chunk handling, dynamic compression ratio, compression prioritization, and keyword maintaining. These techniques effectively improve the identifying and preserving of critical information and coherence among texts, as well as providing finer grind control of the compression ratio. We conduct extensive evaluation on question-answering and summarization tasks, with datasets covering multiple different domain. The evaluation shows our method achieves a significantly better compression quality, and higher stability than the state-of-the-art methods, especially under high compression ratio, which proves the effectiveness and practicality of our method.
- Abstract(参考訳): プロンプト圧縮法は,Large Language Models (LLMs) の効率を高め,入力コンテキストの長さを小さくすることでコストを最小化する。
プロンプト圧縮の目標は、LLMプロンプトを高速な品質を維持しながら短縮することである。
しかし、トークン除去を主体とした既存のソリューションでは、文中の文法要素の欠如や、トークン除去後の不完全な単語句といった、情報損失や構造的不整合といった課題に直面している。
このような課題はLLMの最終世代品質を制限します。
これらの制約を克服するために,新しい生成的プロンプト圧縮法を提案する。
既存のトークン除去方法とは異なり,本手法はチャンキング・アンド・サマー化機構に重点を置いている。
具体的には,プロンプトを意味的コヒーレントなチャンクに分割し,より簡潔なチャンクを書き換える。
チャンクは最終的に意味のあるプロンプトに再構成される。
最適化されたセマンティック・チャンキング、アウトリー・チャンク処理、動的圧縮比、圧縮優先順位付け、キーワード維持など、いくつかの最適化手法を設計する。
これらの技術は、テキスト間の臨界情報と一貫性の識別と保存を効果的に改善し、圧縮比のよりきめ細かい制御を提供する。
我々は、複数の異なる領域をカバーするデータセットを用いて、質問応答および要約タスクについて広範囲に評価する。
評価の結果,提案手法は圧縮性能が向上し,従来手法よりも安定性が向上し,特に圧縮率が高いため,本手法の有効性と実用性が確認された。
関連論文リスト
- Lossless Token Sequence Compression via Meta-Tokens [34.795097157742624]
LZ77と同様のタスク非依存のロスレス圧縮手法を導入し,入力トークン列の長さを平均27%,18%削減する。
提案手法はセマンティクス/構文の厳密な保存を必要とする2つのタスクに対して評価し、既存の損失圧縮手法がこの設定において不十分であることを示す。
論文 参考訳(メタデータ) (2025-05-30T23:32:57Z) - Dynamic Compressing Prompts for Efficient Inference of Large Language Models [38.604760935983364]
大規模言語モデル(LLM)は、高度なプロンプト技術のために、様々なタスクで優れたパフォーマンスを示している。
プロンプト圧縮は簡単な解決策だが、既存の手法では、重要な情報を保持し、状況の変化に適応し、異なるタスクにまたがって効果的を維持するという課題に直面している。
本手法は,性能を最大限に保ちつつ,プロンプトトークンの数を削減する。
論文 参考訳(メタデータ) (2025-04-15T09:20:45Z) - Prompt Compression with Context-Aware Sentence Encoding for Fast and Improved LLM Inference [16.830389144259584]
文レベルのプロンプト圧縮技術である文脈対応プロンプト圧縮(CPC)を提案する。
鍵となる革新は、与えられた質問に対する各文の関連スコアを提供する新しい文脈対応の文エンコーダである。
提案手法は,ベンチマークデータセットの高速圧縮に関する先行研究をかなり上回っている。
論文 参考訳(メタデータ) (2024-09-02T13:02:51Z) - LanguaShrink: Reducing Token Overhead with Psycholinguistics [8.123272461141815]
LanguaShrinkは、大規模言語モデルの即時圧縮フレームワークである。
本質的な情報を保持しながら、即時長を短縮する。
既存のプロンプト圧縮手法と比較して、LanguaShrinkはエンドツーエンドのレイテンシを1.43倍改善している。
論文 参考訳(メタデータ) (2024-09-01T22:09:20Z) - In-Context Former: Lightning-fast Compressing Context for Large Language Model [48.831304302467004]
本稿では,Transformer-based large language model (LLM) の長期入力コンテキストを圧縮する手法を提案する。
我々は,単語の埋め込みから情報を集めるために,クロスアテンション機構と少数の学習可能なダイジェストトークンを使用する。
実験の結果, 圧縮時のベースライン浮動小数点演算の1/32しか必要とせず, 処理速度を68倍から112倍に向上することがわかった。
論文 参考訳(メタデータ) (2024-06-19T15:14:55Z) - Training LLMs over Neurally Compressed Text [55.11828645767342]
本稿では,高度に圧縮されたテキスト上での大規模言語モデル(LLM)の訓練について検討する。
テキストをブロックに分割し,それぞれが同じビット長に圧縮する新しい圧縮手法であるEqual-Info Windowsを提案する。
提案手法は, 大規模化により向上し, パープレキシティと推論速度のベンチマークにおいて, バイトレベルのベースラインをはるかに上回る, ニューラルネットワークによる効果的な学習を実演する。
論文 参考訳(メタデータ) (2024-04-04T17:48:28Z) - Compressing LLMs: The Truth is Rarely Pure and Never Simple [90.05366363633568]
Knowledge-Intensive Compressed LLM BenchmarKは、圧縮された大言語モデルの評価プロトコルを再定義することを目的としている。
LLM-KICKは、現在のSoTA圧縮方式の多くの有利な利点と不運な点を明らかにしている。
LLM-KICKは、言語理解、推論、生成、テキスト内検索、テキスト内要約などのための圧縮LLMの能力に一様にアクセスできるように設計されている。
論文 参考訳(メタデータ) (2023-10-02T17:42:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。