論文の概要: Prompt Compression with Context-Aware Sentence Encoding for Fast and Improved LLM Inference
- arxiv url: http://arxiv.org/abs/2409.01227v2
- Date: Wed, 4 Sep 2024 10:20:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-06 06:47:21.051001
- Title: Prompt Compression with Context-Aware Sentence Encoding for Fast and Improved LLM Inference
- Title(参考訳): 高速かつ改良されたLLM推論のための文脈認識文符号化によるプロンプト圧縮
- Authors: Barys Liskavets, Maxim Ushakov, Shuvendu Roy, Mark Klibanov, Ali Etemad, Shane Luke,
- Abstract要約: 文レベルのプロンプト圧縮技術である文脈対応プロンプト圧縮(CPC)を提案する。
鍵となる革新は、与えられた質問に対する各文の関連スコアを提供する新しい文脈対応の文エンコーダである。
提案手法は,ベンチマークデータセットの高速圧縮に関する先行研究をかなり上回っている。
- 参考スコア(独自算出の注目度): 16.830389144259584
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have triggered a new stream of research focusing on compressing the context length to reduce the computational cost while ensuring the retention of helpful information for LLMs to answer the given question. Token-based removal methods are one of the most prominent approaches in this direction, but risk losing the semantics of the context caused by intermediate token removal, especially under high compression ratios, while also facing challenges in computational efficiency. In this work, we propose context-aware prompt compression (CPC), a sentence-level prompt compression technique where its key innovation is a novel context-aware sentence encoder that provides a relevance score for each sentence for a given question. To train this encoder, we generate a new dataset consisting of questions, positives, and negative pairs where positives are sentences relevant to the question, while negatives are irrelevant context sentences. We train the encoder in a contrastive setup to learn context-aware sentence representations. Our method considerably outperforms prior works on prompt compression on benchmark datasets and is up to 10.93x faster at inference compared to the best token-level compression method. We also find better improvement for shorter length constraints in most benchmarks, showing the effectiveness of our proposed solution in the compression of relevant information in a shorter context. Finally, we release the code and the dataset for quick reproducibility and further development: https://github.com/Workday/cpc.
- Abstract(参考訳): 大規模言語モデル(LLM)は、文脈長の圧縮に焦点をあて、計算コストを削減し、LLMが与えられた質問に答えるために有用な情報の保持を確保することに焦点を当てた、新たな研究の流れを引き起こした。
トークンベースの除去手法は、この方向への最も顕著なアプローチの1つであるが、中間トークン除去によって生じるコンテキストの意味を、特に高い圧縮比で失うリスクがあり、計算効率の課題にも直面している。
本研究は,文レベルのプロンプト圧縮技術である文脈対応プロンプト圧縮(CPC)を提案する。
このエンコーダを訓練するために、質問、肯定、否定のペアからなる新しいデータセットを生成し、正は質問に関連のある文であり、負は無関係な文脈文である。
コントラスト的な設定でエンコーダを訓練し、文脈対応の文表現を学習する。
提案手法は,ベンチマークデータセットの高速圧縮における先行研究よりもかなり優れており,最高のトークンレベル圧縮法に比べて推論速度が最大10.93倍高速である。
また,ほとんどのベンチマークでは,関連情報の短い文脈での圧縮において,提案手法の有効性を示した。
最後に、素早い再現性とさらなる開発のためのコードとデータセットをリリースします。
関連論文リスト
- Fundamental Limits of Prompt Compression: A Rate-Distortion Framework for Black-Box Language Models [21.025001473355996]
大規模言語モデル(LLM)の即時圧縮問題について定式化する。
ブラックボックスモデルのハードプロンプトを生成するトークンレベルのプロンプト圧縮手法を統合するためのフレームワークを提案する。
本稿では,現在の高速圧縮法の性能と最適戦略との間に大きなギャップがあることを述べる。
論文 参考訳(メタデータ) (2024-07-22T09:40:13Z) - Context Embeddings for Efficient Answer Generation in RAG [10.702520553261756]
提案するCOCOMは,コンテキストの長いコンテキストを少数のコンテキスト埋め込みに短縮する,効果的なコンテキスト圧縮手法である。
提案手法では,最大5.69ドルの高速化を実現しつつ,既存の効率的な文脈圧縮手法と比較して高い性能を実現している。
論文 参考訳(メタデータ) (2024-07-12T13:30:44Z) - In-Context Former: Lightning-fast Compressing Context for Large Language Model [48.831304302467004]
本稿では,Transformer-based large language model (LLM) の長期入力コンテキストを圧縮する手法を提案する。
我々は,単語の埋め込みから情報を集めるために,クロスアテンション機構と少数の学習可能なダイジェストトークンを使用する。
実験の結果, 圧縮時のベースライン浮動小数点演算の1/32しか必要とせず, 処理速度を68倍から112倍に向上することがわかった。
論文 参考訳(メタデータ) (2024-06-19T15:14:55Z) - Compressing Lengthy Context With UltraGist [22.054232261437186]
長大な文脈の高品質な圧縮を特徴とするUltraGistという手法を提案する。
UltraGistは、幅広いコンテキスト長と圧縮比をサポートするために効果的に学習できるため、圧縮の柔軟性に寄与する。
これにより、トレーニングプロセスのサンプル効率が向上し、トレーニングデータの使用が最大になる。
論文 参考訳(メタデータ) (2024-05-26T17:23:56Z) - LLoCO: Learning Long Contexts Offline [63.3458260335454]
LLoCOは,LoRAを用いた文脈圧縮,検索,パラメータ効率の微調整を組み合わせた手法である。
我々は,LLoCOの長文質問応答データセットに対するアプローチを検証し,LLoCOが文脈内学習を著しく上回ることを示す。
論文 参考訳(メタデータ) (2024-04-11T17:57:22Z) - Training LLMs over Neurally Compressed Text [55.11828645767342]
本稿では,高度に圧縮されたテキスト上での大規模言語モデル(LLM)の訓練について検討する。
テキストをブロックに分割し,それぞれが同じビット長に圧縮する新しい圧縮手法であるEqual-Info Windowsを提案する。
提案手法は, 大規模化により向上し, パープレキシティと推論速度のベンチマークにおいて, バイトレベルのベースラインをはるかに上回る, ニューラルネットワークによる効果的な学習を実演する。
論文 参考訳(メタデータ) (2024-04-04T17:48:28Z) - Compressing LLMs: The Truth is Rarely Pure and Never Simple [90.05366363633568]
Knowledge-Intensive Compressed LLM BenchmarKは、圧縮された大言語モデルの評価プロトコルを再定義することを目的としている。
LLM-KICKは、現在のSoTA圧縮方式の多くの有利な利点と不運な点を明らかにしている。
LLM-KICKは、言語理解、推論、生成、テキスト内検索、テキスト内要約などのための圧縮LLMの能力に一様にアクセスできるように設計されている。
論文 参考訳(メタデータ) (2023-10-02T17:42:37Z) - Unrolled Compressed Blind-Deconvolution [77.88847247301682]
sparse multi channel blind deconvolution (S-MBD) はレーダー/ソナー/超音波イメージングなどの多くの工学的応用で頻繁に発生する。
そこで本研究では,受信した全信号に対して,はるかに少ない測定値からブラインドリカバリを可能にする圧縮手法を提案する。
論文 参考訳(メタデータ) (2022-09-28T15:16:58Z) - Implicit Neural Representations for Image Compression [103.78615661013623]
Inlicit Neural Representations (INRs) は、様々なデータ型の新規かつ効果的な表現として注目されている。
量子化、量子化を考慮した再学習、エントロピー符号化を含むINRに基づく最初の包括的圧縮パイプラインを提案する。
我々は、INRによるソース圧縮に対する我々のアプローチが、同様の以前の作業よりも大幅に優れていることに気付きました。
論文 参考訳(メタデータ) (2021-12-08T13:02:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。