論文の概要: APE: Faster and Longer Context-Augmented Generation via Adaptive Parallel Encoding
- arxiv url: http://arxiv.org/abs/2502.05431v2
- Date: Wed, 12 Feb 2025 13:54:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-13 13:49:55.235493
- Title: APE: Faster and Longer Context-Augmented Generation via Adaptive Parallel Encoding
- Title(参考訳): APE: 適応並列符号化によるコンテキスト拡張生成の高速化
- Authors: Xinyu Yang, Tianqi Chen, Beidi Chen,
- Abstract要約: 並列符号化がコンテキスト拡張生成問題の解決にどのように役立つかを示す。
APEは98%と93%のシーケンシャルエンコーディング性能を同じ入力で保持できる。
また、多数のCAGにスケールし、事実上数百のコンテキストを並列に符号化する。
- 参考スコア(独自算出の注目度): 21.428355295838845
- License:
- Abstract: Context-augmented generation (CAG) techniques, including RAG and ICL, require the efficient combination of multiple contexts to generate responses to user queries. Directly inputting these contexts as a sequence introduces a considerable computational burden by re-encoding the combined selection of contexts for every request. To address this, we explore the promising potential of parallel encoding to independently pre-compute and cache each context's KV states. This approach enables the direct loading of cached states during inference while accommodating more contexts through position reuse across contexts. However, due to misalignments in attention distribution, directly applying parallel encoding results in a significant performance drop. To enable effective and efficient CAG, we propose Adaptive Parallel Encoding ($\textbf{APE}$), which brings shared prefix, attention temperature, and scaling factor to align the distribution of parallel encoding with sequential encoding. Results on RAG and ICL tasks demonstrate that APE can preserve 98% and 93% sequential encoding performance using the same inputs while outperforming parallel encoding by 3.6% and 7.9%, respectively. It also scales to many-shot CAG, effectively encoding hundreds of contexts in parallel. Efficiency evaluation shows that APE can achieve an end-to-end 4.5$\times$ speedup by reducing 28$\times$ prefilling time for a 128K-length context.
- Abstract(参考訳): コンテキスト拡張生成(CAG)技術(RAGやICLなど)は、ユーザクエリに対する応答を生成するために、複数のコンテキストの効率的な組み合わせを必要とする。
これらのコンテキストをシーケンスとして直接入力すると、要求毎に組み合わせたコンテキストの選択を再エンコードすることで、かなりの計算負担が発生する。
これを解決するために、並列符号化の有望な可能性を探究し、各コンテキストのKV状態を独立にプリコンプリートし、キャッシュする。
このアプローチにより、推論中にキャッシュされた状態を直接ロードし、コンテキストをまたいだ位置再利用を通じて、より多くのコンテキストを調整できる。
しかし、注意分布の不一致により、並列符号化を直接適用すると性能が大幅に低下する。
効率的なCAGを実現するために、並列符号化の分布を逐次符号化と整合させるために、共有プレフィックス、注意温度、スケーリング係数をもたらすAdaptive Parallel Encoding ($\textbf{APE}$)を提案する。
RAGタスクとICLタスクの結果、APEは同じ入力を用いて98%と93%のシーケンシャルエンコーディング性能を保ち、並列エンコーディングは3.6%と7.9%を上回っている。
また、多数のCAGにスケールし、事実上数百のコンテキストを並列に符号化する。
効率評価は、APEが128Kのコンテキストに対して28$\times$プリフィル時間を削減することで、エンドツーエンド4.5$\times$スピードアップを達成することができることを示している。
関連論文リスト
- Efficient Long Context Language Model Retrieval with Compression [57.09163579304332]
情報検索のための新しいパラダイムとしてLong Context Language Models (LCLM)が登場した。
本稿では,LCLM検索に適した新しい圧縮手法を提案する。
また,CoLoRはテキスト内サイズを1.91倍に圧縮し,検索性能を6%向上することを示した。
論文 参考訳(メタデータ) (2024-12-24T07:30:55Z) - EXIT: Context-Aware Extractive Compression for Enhancing Retrieval-Augmented Generation [8.757777529568383]
現在のRAGシステムは、検索モデルが最も関連性の高い文書のランク付けに失敗したときにしばしば苦労する。
抽出文脈圧縮フレームワークEXITを紹介する。
評価の結果,EXITは既存の圧縮手法を一貫して上回っていることがわかった。
論文 参考訳(メタデータ) (2024-12-17T05:38:27Z) - Cerberus: Efficient Inference with Adaptive Parallel Decoding and Sequential Knowledge Enhancement [12.40683763019276]
大規模言語モデル(LLM)は自動回帰復号化に依存するため、推論速度のボトルネックに直面していることが多い。
既存の並列デコーディングフレームワークにおける2つの重要な問題を特定しました。
我々は適応並列デコーディングフレームワークであるCerberusを提案する。
論文 参考訳(メタデータ) (2024-10-17T08:55:18Z) - Let the Code LLM Edit Itself When You Edit the Code [50.46536185784169]
underlinetextbfPositional textbfIntegrity textbfEncoding (PIE)
PIEは、標準的な完全再計算手法に比べて計算オーバーヘッドを85%以上削減する。
その結果、PIEは計算オーバーヘッドを標準の完全再計算手法に比べて85%以上削減することを示した。
論文 参考訳(メタデータ) (2024-07-03T14:34:03Z) - KV Cache Compression, But What Must We Give in Return? A Comprehensive Benchmark of Long Context Capable Approaches [52.02764371205856]
長期の文脈能力は、大規模言語モデル(LLM)にとって重要な能力である
この研究は、現在の手法の分類を提供し、長いコンテキストタスクの7つのカテゴリにまたがる10以上の最先端のアプローチを評価する。
論文 参考訳(メタデータ) (2024-07-01T17:59:47Z) - LoCoCo: Dropping In Convolutions for Long Context Compression [77.26610232994508]
本稿では,Long Context Compression(LoCoCo)のための新しいアプローチであるDropping In Convolutionsを提案する。
LoCoCoは、固定サイズキーバリュー(KV)キャッシュのみを使用し、推論と微調整の両方のステージで効率を向上させることができる。
論文 参考訳(メタデータ) (2024-06-08T01:35:11Z) - Accelerating Inference of Retrieval-Augmented Generation via Sparse Context Selection [28.15184715270483]
大きな言語モデル (LLM) は、検索によって強化され、堅牢な性能と広範な汎用性を示す。
本稿では,スパースRAGという新しいパラダイムを提案する。
Sparse RAGは、検索したドキュメントを並列にエンコードする。
論文 参考訳(メタデータ) (2024-05-25T11:10:04Z) - Hierarchical Context Merging: Better Long Context Understanding for Pre-trained LLMs [61.40047491337793]
本稿では,大規模言語モデルの制約を克服する新しいトレーニングフリースキームである階層型cOntext MERging(HOMER)を提案する。
HomeRは、長いインプットを管理可能なチャンクに分割する、分別/対数アルゴリズムを使用する。
トークン削減技術がマージ毎に先行し、メモリ使用効率が保証される。
論文 参考訳(メタデータ) (2024-04-16T06:34:08Z) - Bifurcated Attention: Accelerating Massively Parallel Decoding with Shared Prefixes in LLMs [39.16152482491236]
Bifurcated attentionは、共有コンテキストバッチデコードシナリオにおける言語モデル推論を強化するために設計された手法である。
提案手法は,高バッチサイズおよび拡張コンテキスト長のレイテンシに寄与する重要な要因である冗長メモリIOコストの課題に対処する。
論文 参考訳(メタデータ) (2024-03-13T16:30:57Z) - Fast Chain-of-Thought: A Glance of Future from Parallel Decoding Leads to Answers Faster [61.83949316226113]
FastCoTは並列デコーディングに基づくモデルに依存しないフレームワークである。
我々は、FastCoTが通常のアプローチと比較して、無視できる性能低下だけで、推論時間を20%近く削減できることを示します。
論文 参考訳(メタデータ) (2023-11-14T15:56:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。