論文の概要: ILRe: Intermediate Layer Retrieval for Context Compression in Causal Language Models
- arxiv url: http://arxiv.org/abs/2508.17892v1
- Date: Mon, 25 Aug 2025 10:59:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:45.740762
- Title: ILRe: Intermediate Layer Retrieval for Context Compression in Causal Language Models
- Title(参考訳): ILRe:因果言語モデルにおける文脈圧縮のための中間層検索
- Authors: Manlai Liang, Mandi Liu, Jiangzhou Ji, Huaijun Li, Haobo Yang, Yaohan He, Jinlong Li,
- Abstract要約: ILRe(Intermediate Layer Retrieval)と呼ばれる新しいコンテキスト圧縮パイプラインを導入する。
ILReは、チャンクされたプリフィルをその層にだけストリーミングすることでコンテキストをエンコードし、入力クエリと指定された層のフルキーキャッシュの間のアテンションスコアによってトークンをリコールする。
追加のポストトレーニングやオペレータ開発がなければ、ILReは100万ドルのトークン要求を30分以内で処理できる。
- 参考スコア(独自算出の注目度): 4.951427498576812
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have demonstrated success across many benchmarks. However, they still exhibit limitations in long-context scenarios, primarily due to their short effective context length, quadratic computational complexity, and high memory overhead when processing lengthy inputs. To mitigate these issues, we introduce a novel context compression pipeline, called Intermediate Layer Retrieval (ILRe), which determines one intermediate decoder layer offline, encodes context by streaming chunked prefill only up to that layer, and recalls tokens by the attention scores between the input query and full key cache in that specified layer. In particular, we propose a multi-pooling kernels allocating strategy in the token recalling process to maintain the completeness of semantics. Our approach not only reduces the prefilling complexity from $O(L^2)$ to $O(L)$, but also achieves performance comparable to or better than the full context in the long context scenarios. Without additional post training or operator development, ILRe can process a single $1M$ tokens request in less than half a minute (speedup $\approx 180\times$) and scores RULER-$1M$ benchmark of $\approx 79.8$ with model Llama-3.1-UltraLong-8B-1M-Instruct on a Huawei Ascend 910B NPU.
- Abstract(参考訳): 大規模言語モデル(LLM)は多くのベンチマークで成功している。
しかし、長いコンテキストのシナリオでは、主に短い有効コンテキスト長、二次計算の複雑さ、長い入力を処理する際のメモリオーバーヘッドが制限されている。
これらの問題を緩和するために、中間層再帰(ILRe)と呼ばれる新しいコンテキスト圧縮パイプラインを導入し、1つの中間デコーダ層をオフラインで決定し、チャンクしたプリフィルをその層にのみストリーミングすることでコンテキストをエンコードし、入力クエリとその指定された層内の全キーキャッシュ間の注意スコアによるトークンをリコールする。
特に,トークンリコールプロセスにおいて,セマンティクスの完全性を維持するための戦略を割り当てるマルチプールカーネルを提案する。
我々のアプローチは、プリフィルの複雑さを$O(L^2)$から$O(L)$に還元するだけでなく、長いコンテキストシナリオにおけるフルコンテキストよりもパフォーマンスを向上する。
追加のポストトレーニングやオペレーター開発がなければ、ILReは半分以内で100万ドル分のトークン要求を処理でき(スピードアップ$\approx 180\times$)、Huawei Ascend 910B NPUのモデルであるLlama-3.1-UltraLong-8B-1M-Instructで、RULER-$1M$ベンチマークの$\approx 79.8$をスコアする。
関連論文リスト
- Squeezed Attention: Accelerating Long Context Length LLM Inference [61.787865959140994]
本稿では,入力コンテキストの大部分を固定したアプリケーションを高速化するために,Squeezed Attentionを提案する。
推論中、ユーザ入力からのクエリトークンとセントロイドを比較し、固定されたコンテキストからどのキーが意味論的に関連しているかを予測する。
また,線形から対数的への注意の複雑さを,固定した文脈長に対して低減できる階層型アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-11-14T18:54:19Z) - HSR-Enhanced Sparse Attention Acceleration [19.776342074253435]
大規模言語モデル(LLM)における注意計算を高速化する新しい手法を提案する。
我々は,従来のSoftmaxアテンションとReLUアテンションの両方において,アテンションメカニズム内の固有空間を利用する。
提案手法は,Softmaxの注意を確実に無視できる誤差を導入するのみである。
論文 参考訳(メタデータ) (2024-10-14T05:18:02Z) - A Training-free Sub-quadratic Cost Transformer Model Serving Framework With Hierarchically Pruned Attention [43.211427581302715]
大規模言語モデルにおける文脈長を増大させるため,HiP(Hierarchically Pruned Attention)を提案する。
HiPは注意機構の時間的複雑さを$O(T log T)$に減らし、空間的複雑さを$O(T)$に減らし、$T$はシーケンス長である。
HiPは, 劣化を最小限に抑えつつ, プリフィルとデコードの両方のレイテンシとメモリ使用率を著しく低減することを示す。
論文 参考訳(メタデータ) (2024-06-14T08:32:45Z) - Hierarchical Context Merging: Better Long Context Understanding for Pre-trained LLMs [61.40047491337793]
本稿では,大規模言語モデルの制約を克服する新しいトレーニングフリースキームである階層型cOntext MERging(HOMER)を提案する。
HomeRは、長いインプットを管理可能なチャンクに分割する、分別/対数アルゴリズムを使用する。
トークン削減技術がマージ毎に先行し、メモリ使用効率が保証される。
論文 参考訳(メタデータ) (2024-04-16T06:34:08Z) - LLoCO: Learning Long Contexts Offline [63.3458260335454]
長いコンテキストを処理するための新しいアプローチであるLLoCOを提案する。
LLoCOはコンテキスト圧縮とLoRAによるドメイン内パラメータ効率の微調整を通じて、オフラインでコンテキストを学習する。
提案手法は、4kトークンLLaMA2-7Bモデルの有効コンテキストウインドウを拡張し,最大128kトークンを処理する。
論文 参考訳(メタデータ) (2024-04-11T17:57:22Z) - $\infty$Bench: Extending Long Context Evaluation Beyond 100K Tokens [64.08660301017302]
現在、この長期コンテキスト機能を評価するための標準ベンチマークが欠落している。
$infty$Benchは、平均データ長が100Kを超える最初のベンチマークである。
その結果,100K以上のコンテキストを効果的に処理するには,既存の長期的LLMの大幅な進歩が必要であることが示唆された。
論文 参考訳(メタデータ) (2024-02-21T11:30:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。