Fugu-MT 論文翻訳(概要): APE: Faster and Longer Context-Augmented Generation via Adaptive Parallel Encoding

論文の概要: APE: Faster and Longer Context-Augmented Generation via Adaptive Parallel Encoding

arxiv url: http://arxiv.org/abs/2502.05431v2
Date: Wed, 12 Feb 2025 13:54:01 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-13 13:45:28.187114
Title: APE: Faster and Longer Context-Augmented Generation via Adaptive Parallel Encoding
Title（参考訳）: APE: 適応並列符号化によるコンテキスト拡張生成の高速化
Authors: Xinyu Yang, Tianqi Chen, Beidi Chen,
Abstract要約: 並列符号化がコンテキスト拡張生成問題の解決にどのように役立つかを示す。 APEは98%と93%のシーケンシャルエンコーディング性能を同じ入力で保持できる。また、多数のCAGにスケールし、事実上数百のコンテキストを並列に符号化する。
参考スコア（独自算出の注目度）: 21.428355295838845
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Context-augmented generation (CAG) techniques, including RAG and ICL, require the efficient combination of multiple contexts to generate responses to user queries. Directly inputting these contexts as a sequence introduces a considerable computational burden by re-encoding the combined selection of contexts for every request. To address this, we explore the promising potential of parallel encoding to independently pre-compute and cache each context's KV states. This approach enables the direct loading of cached states during inference while accommodating more contexts through position reuse across contexts. However, due to misalignments in attention distribution, directly applying parallel encoding results in a significant performance drop. To enable effective and efficient CAG, we propose Adaptive Parallel Encoding ($\textbf{APE}$), which brings shared prefix, attention temperature, and scaling factor to align the distribution of parallel encoding with sequential encoding. Results on RAG and ICL tasks demonstrate that APE can preserve 98% and 93% sequential encoding performance using the same inputs while outperforming parallel encoding by 3.6% and 7.9%, respectively. It also scales to many-shot CAG, effectively encoding hundreds of contexts in parallel. Efficiency evaluation shows that APE can achieve an end-to-end 4.5$\times$ speedup by reducing 28$\times$ prefilling time for a 128K-length context.
Abstract（参考訳）: コンテキスト拡張生成(CAG)技術(RAGやICLなど)は、ユーザクエリに対する応答を生成するために、複数のコンテキストの効率的な組み合わせを必要とする。これらのコンテキストをシーケンスとして直接入力すると、要求毎に組み合わせたコンテキストの選択を再エンコードすることで、かなりの計算負担が発生する。これを解決するために、並列符号化の有望な可能性を探究し、各コンテキストのKV状態を独立にプリコンプリートし、キャッシュする。このアプローチにより、推論中にキャッシュされた状態を直接ロードし、コンテキストをまたいだ位置再利用を通じて、より多くのコンテキストを調整できる。しかし、注意分布の不一致により、並列符号化を直接適用すると性能が大幅に低下する。効率的なCAGを実現するために、並列符号化の分布を逐次符号化と整合させるために、共有プレフィックス、注意温度、スケーリング係数をもたらすAdaptive Parallel Encoding ($\textbf{APE}$)を提案する。 RAGタスクとICLタスクの結果、APEは同じ入力を用いて98%と93%のシーケンシャルエンコーディング性能を保ち、並列エンコーディングは3.6%と7.9%を上回っている。また、多数のCAGにスケールし、事実上数百のコンテキストを並列に符号化する。効率評価は、APEが128Kのコンテキストに対して28$\times$プリフィル時間を削減することで、エンドツーエンド4.5$\times$スピードアップを達成することができることを示している。

関連論文リスト

Learning Adaptive Parallel Reasoning with Language Models [70.1745752819628]
本稿では,適応並列推論(Adaptive Parallel Reasoning, APR)を提案する。 APRは、spawn()とjoin()操作を使用して適応的なマルチスレッド推論を可能にすることで、既存の推論メソッドを一般化する。鍵となる革新は、親と子の両方の推論スレッドを最適化して、事前に定義された推論構造を必要とせずにタスクの成功率を高める、エンドツーエンドの強化学習戦略である。
論文参考訳（メタデータ） (2025-04-21T22:29:02Z)
ParallelComp: Parallel Long-Context Compressor for Length Extrapolation [51.68913021512016]
超長い文脈(テキスト長 >128K)の補間は、大きな言語モデル(LLM)にとって大きな課題である。本研究では,メモリボトルネックを効果的に克服する並列長コンテキスト圧縮手法であるParallelCompを提案する。チャンクスループットが1.76倍向上し、プリフィル段階では23.50倍の高速化を実現し、性能損失を無視できる。
論文参考訳（メタデータ） (2025-02-20T07:10:43Z)
Efficient Long Context Language Model Retrieval with Compression [57.09163579304332]
情報検索のための新しいパラダイムとしてLong Context Language Models (LCLM)が登場した。本稿では,LCLM検索に適した新しい圧縮手法を提案する。また,CoLoRはテキスト内サイズを1.91倍に圧縮し,検索性能を6%向上することを示した。
論文参考訳（メタデータ） (2024-12-24T07:30:55Z)
EXIT: Context-Aware Extractive Compression for Enhancing Retrieval-Augmented Generation [8.757777529568383]
現在のRAGシステムは、検索モデルが最も関連性の高い文書のランク付けに失敗したときにしばしば苦労する。抽出文脈圧縮フレームワークEXITを紹介する。評価の結果,EXITは既存の圧縮手法を一貫して上回っていることがわかった。
論文参考訳（メタデータ） (2024-12-17T05:38:27Z)
Cerberus: Efficient Inference with Adaptive Parallel Decoding and Sequential Knowledge Enhancement [12.40683763019276]
大規模言語モデル(LLM)は自動回帰復号化に依存するため、推論速度のボトルネックに直面していることが多い。既存の並列デコーディングフレームワークにおける2つの重要な問題を特定しました。我々は適応並列デコーディングフレームワークであるCerberusを提案する。
論文参考訳（メタデータ） (2024-10-17T08:55:18Z)
Let the Code LLM Edit Itself When You Edit the Code [50.46536185784169]
underlinetextbfPositional textbfIntegrity textbfEncoding (PIE) PIEは、標準的な完全再計算手法に比べて計算オーバーヘッドを85%以上削減する。その結果、PIEは計算オーバーヘッドを標準の完全再計算手法に比べて85%以上削減することを示した。
論文参考訳（メタデータ） (2024-07-03T14:34:03Z)
KV Cache Compression, But What Must We Give in Return? A Comprehensive Benchmark of Long Context Capable Approaches [52.02764371205856]
長期の文脈能力は、大規模言語モデル(LLM)にとって重要な能力であるこの研究は、現在の手法の分類を提供し、長いコンテキストタスクの7つのカテゴリにまたがる10以上の最先端のアプローチを評価する。
論文参考訳（メタデータ） (2024-07-01T17:59:47Z)
LoCoCo: Dropping In Convolutions for Long Context Compression [77.26610232994508]
本稿では,Long Context Compression(LoCoCo)のための新しいアプローチであるDropping In Convolutionsを提案する。 LoCoCoは、固定サイズキーバリュー(KV)キャッシュのみを使用し、推論と微調整の両方のステージで効率を向上させることができる。
論文参考訳（メタデータ） (2024-06-08T01:35:11Z)
Hardware-Aware Parallel Prompt Decoding for Memory-Efficient Acceleration of LLM Inference [19.167604927651073]
LLM(Large Language Models)の自動回帰デコーディングは、ハードウェアの性能に大きなオーバーヘッドをもたらす。トレーニング可能なパラメータを0.0002$%しか必要とせず,A100-40GBのGPUをたった16時間で効率的にトレーニングできる並列プロンプトデコーディングを提案する。我々のアプローチでは、最大2.49$times$ スピードアップを示し、最小のメモリオーバーヘッドは0.0004$%である。
論文参考訳（メタデータ） (2024-05-28T22:19:30Z)
Accelerating Inference of Retrieval-Augmented Generation via Sparse Context Selection [28.15184715270483]
大きな言語モデル (LLM) は、検索によって強化され、堅牢な性能と広範な汎用性を示す。本稿では,スパースRAGという新しいパラダイムを提案する。 Sparse RAGは、検索したドキュメントを並列にエンコードする。
論文参考訳（メタデータ） (2024-05-25T11:10:04Z)
Bifurcated Attention: Accelerating Massively Parallel Decoding with Shared Prefixes in LLMs [39.16152482491236]
Bifurcated attentionは、共有コンテキストバッチデコードシナリオにおける言語モデル推論を強化するために設計された手法である。提案手法は,高バッチサイズおよび拡張コンテキスト長のレイテンシに寄与する重要な要因である冗長メモリIOコストの課題に対処する。
論文参考訳（メタデータ） (2024-03-13T16:30:57Z)
Fast Chain-of-Thought: A Glance of Future from Parallel Decoding Leads to Answers Faster [61.83949316226113]
FastCoTは並列デコーディングに基づくモデルに依存しないフレームワークである。我々は、FastCoTが通常のアプローチと比較して、無視できる性能低下だけで、推論時間を20%近く削減できることを示します。
論文参考訳（メタデータ） (2023-11-14T15:56:18Z)
CacheGen: KV Cache Compression and Streaming for Fast Large Language Model Serving [31.766738294505767]
CacheGenは、大きな言語モデルのための高速なコンテキストローディングモジュールである。カスタムテンソルエンコーダを使用して、KVキャッシュをコンパクトなビットストリーム表現にエンコードする。 KVキャッシュの異なる部分の圧縮レベルを適用して、利用可能な帯域幅の変化に対処する。
論文参考訳（メタデータ） (2023-10-11T07:08:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。