論文の概要: Characterizing Prompt Compression Methods for Long Context Inference
- arxiv url: http://arxiv.org/abs/2407.08892v1
- Date: Thu, 11 Jul 2024 23:34:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-16 01:26:19.063110
- Title: Characterizing Prompt Compression Methods for Long Context Inference
- Title(参考訳): ロングコンテキスト推論のためのプロンプト圧縮法の特徴付け
- Authors: Siddharth Jha, Lutfi Eren Erdogan, Sehoon Kim, Kurt Keutzer, Amir Gholami,
- Abstract要約: 長期のコンテキスト推論は、計算とメモリの要求が増大するにつれて、システムレベルでの課題を提示します。
コンテクスト長を削減するためにプロンプトを圧縮するいくつかの方法が提案されている。
我々は、異なるプロンプト圧縮法を包括的に評価し、評価する。
- 参考スコア(独自算出の注目度): 36.9745587176401
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Long context inference presents challenges at the system level with increased compute and memory requirements, as well as from an accuracy perspective in being able to reason over long contexts. Recently, several methods have been proposed to compress the prompt to reduce the context length. However, there has been little work on comparing the different proposed methods across different tasks through a standardized analysis. This has led to conflicting results. To address this, here we perform a comprehensive characterization and evaluation of different prompt compression methods. In particular, we analyze extractive compression, summarization-based abstractive compression, and token pruning methods. Surprisingly, we find that extractive compression often outperforms all the other approaches, and enables up to 10x compression with minimal accuracy degradation. Interestingly, we also find that despite several recent claims, token pruning methods often lag behind extractive compression. We only found marginal improvements on summarization tasks.
- Abstract(参考訳): ロングコンテキスト推論は、計算とメモリの要求が増大すると共に、長いコンテキストで推論できる精度の観点から、システムレベルでの課題を提示する。
近年,コンテクスト長を削減するためにプロンプトを圧縮する手法がいくつか提案されている。
しかし、標準化された分析によって異なるタスク間で異なる手法を比較することはほとんど行われていない。
この結果が相反する結果となった。
そこで本研究では,異なるプロンプト圧縮手法の包括的評価と評価を行う。
特に,抽出圧縮,要約に基づく抽象圧縮,トークンプルーニングを解析する。
意外なことに、抽出圧縮は他の全ての手法よりも優れており、最小10倍の精度で圧縮できる。
興味深いことに、最近のいくつかの主張にもかかわらず、トークンプルーニング法は抽出圧縮に遅れることがしばしばある。
要約タスクの限界改善しか見つからなかった。
関連論文リスト
- Perception Compressor:A training-free prompt compression method in long context scenarios [17.720102137585503]
パーセプション(Perception)は、大規模言語モデルのトレーニング不要なプロンプト圧縮手法である。
既存のメソッドのマージンを大きく上回り、最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-09-28T07:13:33Z) - Prompt Compression with Context-Aware Sentence Encoding for Fast and Improved LLM Inference [16.830389144259584]
文レベルのプロンプト圧縮技術である文脈対応プロンプト圧縮(CPC)を提案する。
鍵となる革新は、与えられた質問に対する各文の関連スコアを提供する新しい文脈対応の文エンコーダである。
提案手法は,ベンチマークデータセットの高速圧縮に関する先行研究をかなり上回っている。
論文 参考訳(メタデータ) (2024-09-02T13:02:51Z) - LanguaShrink: Reducing Token Overhead with Psycholinguistics [8.123272461141815]
LanguaShrinkは、大規模言語モデルの即時圧縮フレームワークである。
本質的な情報を保持しながら、即時長を短縮する。
既存のプロンプト圧縮手法と比較して、LanguaShrinkはエンドツーエンドのレイテンシを1.43倍改善している。
論文 参考訳(メタデータ) (2024-09-01T22:09:20Z) - Concise and Precise Context Compression for Tool-Using Language Models [60.606281074373136]
ツールを用いた言語モデルにおいて,ツール文書を簡潔かつ高精度な要約シーケンスに圧縮する2つの手法を提案する。
API-BankとAPIBenchの結果,最大16倍の圧縮率で上行ベースラインに匹敵する性能を示した。
論文 参考訳(メタデータ) (2024-07-02T08:17:00Z) - In-Context Former: Lightning-fast Compressing Context for Large Language Model [48.831304302467004]
本稿では,Transformer-based large language model (LLM) の長期入力コンテキストを圧縮する手法を提案する。
我々は,単語の埋め込みから情報を集めるために,クロスアテンション機構と少数の学習可能なダイジェストトークンを使用する。
実験の結果, 圧縮時のベースライン浮動小数点演算の1/32しか必要とせず, 処理速度を68倍から112倍に向上することがわかった。
論文 参考訳(メタデータ) (2024-06-19T15:14:55Z) - Compressing Lengthy Context With UltraGist [22.054232261437186]
長大な文脈の高品質な圧縮を特徴とするUltraGistという手法を提案する。
UltraGistは、幅広いコンテキスト長と圧縮比をサポートするために効果的に学習できるため、圧縮の柔軟性に寄与する。
これにより、トレーニングプロセスのサンプル効率が向上し、トレーニングデータの使用が最大になる。
論文 参考訳(メタデータ) (2024-05-26T17:23:56Z) - Training LLMs over Neurally Compressed Text [55.11828645767342]
本稿では,高度に圧縮されたテキスト上での大規模言語モデル(LLM)の訓練について検討する。
テキストをブロックに分割し,それぞれが同じビット長に圧縮する新しい圧縮手法であるEqual-Info Windowsを提案する。
提案手法は, 大規模化により向上し, パープレキシティと推論速度のベンチマークにおいて, バイトレベルのベースラインをはるかに上回る, ニューラルネットワークによる効果的な学習を実演する。
論文 参考訳(メタデータ) (2024-04-04T17:48:28Z) - Once-for-All Sequence Compression for Self-Supervised Speech Models [62.60723685118747]
自己教師型音声モデルのための一括圧縮フレームワークを提案する。
このフレームワークは様々なタスクで評価され、固定圧縮率の変種と比較して限界劣化を示す。
また、適応圧縮率学習についても検討し、グリッド探索を必要とせず、タスク固有の好ましいフレーム期間を選択する能力を示す。
論文 参考訳(メタデータ) (2022-11-04T09:19:13Z) - Unrolled Compressed Blind-Deconvolution [77.88847247301682]
sparse multi channel blind deconvolution (S-MBD) はレーダー/ソナー/超音波イメージングなどの多くの工学的応用で頻繁に発生する。
そこで本研究では,受信した全信号に対して,はるかに少ない測定値からブラインドリカバリを可能にする圧縮手法を提案する。
論文 参考訳(メタデータ) (2022-09-28T15:16:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。