論文の概要: Context Memorization for Efficient Long Context Generation
- arxiv url: http://arxiv.org/abs/2605.18226v1
- Date: Mon, 18 May 2026 11:12:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:49.4893
- Title: Context Memorization for Efficient Long Context Generation
- Title(参考訳): 効率的な長期文脈生成のための文脈記憶
- Authors: Yasuyuki Okoshi, Hao Mark Chen, Guanxi Lu, Hongxiang Fan, Masato Motomura, Daichi Fujiki,
- Abstract要約: 本稿では,プレフィックスを,プレフィックスとクエリトークン間の事前計算されたアテンション状態の軽量なルックアップベースメモリに外部化する,トレーニング不要なアプローチを提案する。
提案手法は1K-8Kメモリ予算でのコンテキスト内学習よりも精度を向上し,8Kでの注意遅延を1.36倍削減し,メモリフットプリントの20%しか使用せず,NBAベンチマークのフルアテンションRAG性能を上回った。
- 参考スコア(独自算出の注目度): 7.789475770365054
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern large language model (LLM) applications increasingly rely on long conditioning prefixes to control model behavior at inference time. While prefix-augmented inference is effective, it incurs two structural limitations: i) the prefix's influence fades as generation proceeds, and ii) attention computation over the prefix scales linearly with its length. Existing approaches either keep the prefix in attention while compressing it, or internalize it into model parameters through gradient-based training. The former still attends to the prefix at inference, while the latter is training-intensive and ill-suited to prefix updates. To address these issues, we propose attention-state memory, a training-free approach that externalizes the prefix into a lightweight, lookup-based memory of precomputed attention states between prefix and query tokens. On ManyICLBench with LLaMA-3.1-8B, our method improves accuracy over in-context learning at 1K-8K memory budgets while reducing attention latency by 1.36x at 8K, and surpasses full-attention RAG performance on NBA benchmark using only 20% of its memory footprint.
- Abstract(参考訳): 現代の大規模言語モデル(LLM)アプリケーションは、推論時にモデル動作を制御するために長い条件付きプレフィックスにますます依存している。
プレフィックス拡張推論は有効であるが、2つの構造的制限を生じさせる。
一 世代が進むにつれて前置詞の影響が薄れ、
二 プレフィックス上の注意計算は、その長さと直線的にスケールする。
既存のアプローチでは、プレフィックスを圧縮しながら注意を払っておくか、勾配ベースのトレーニングを通じてモデルパラメータに内部化する。
前者は推論時にプレフィックスに引き続き参加し、後者はトレーニング集約的でプレフィックス更新に不適である。
これらの問題に対処するために,プレフィックスを,プレフィックスとクエリトークン間の事前計算されたアテンション状態の軽量なルックアップベースメモリに外部化する,トレーニング不要なアテンションステートメモリを提案する。
manyICLBench with LLaMA-3.1-8Bでは、1K-8Kメモリ予算でのコンテキスト内学習よりも精度を向上し、8Kでの注意遅延を1.36倍削減し、メモリフットプリントの20%しか使用せず、NBAベンチマークのフルアテンションRAG性能を上回った。
関連論文リスト
- Learning How and What to Memorize: Cognition-Inspired Two-Stage Optimization for Evolving Memory [53.8372503928207]
大規模言語モデル(LLM)エージェントは、一貫したパーソナライゼーションのために長期のユーザメモリを必要とする。
既存のメモリシステムは、主に静的で手作りの更新ルールに依存している。
MemCoEは認知にインスパイアされた2段階最適化フレームワークで、どのようにメモリを整理し、どの情報を更新すべきかを学ぶ。
論文 参考訳(メタデータ) (2026-05-01T14:45:20Z) - BLASST: Dynamic BLocked Attention Sparsity via Softmax Thresholding [28.11907989174509]
本稿では,事前計算やプロキシスコアを使わずに動的にアテンション行列をプルークする,ドロップインスパースアテンション手法であるBLASSTを紹介する。
本手法では,オンラインソフトマックスからの既定しきい値と既存の情報を用いて,無視可能な注意点の同定を行う。
最適しきい値と文脈長の逆関係を明らかにする自動校正法を開発した。
論文 参考訳(メタデータ) (2025-12-12T23:30:43Z) - Training-free Context-adaptive Attention for Efficient Long Context Modeling [57.703159205740185]
トレーニングフリーコンテキスト適応注意(TCA-Attention)は、学習不要なスパースアテンション機構であり、効率的な長文推論のための情報トークンのみに選択的に参画する。
TCA-Attentionは2.8$times$のスピードアップを実現し、128Kのコンテキスト長でKVキャッシュを61%削減し、フルアテンションに匹敵するパフォーマンスを維持している。
論文 参考訳(メタデータ) (2025-12-10T01:54:57Z) - InfiniteHiP: Extending Language Model Context Up to 3 Million Tokens on a Single GPU [48.105361428245736]
大規模言語モデル(LLM)の推論フレームワークであるInfiniteHiPを紹介する。
モジュール型階層型トークンプルーニングアルゴリズムにより,無関係なコンテキストトークンを動的に除去する。
我々のフレームワークは、追加のトレーニングを必要とせず、100万のトークンコンテキストに対して18.95倍のアテンションデコーディングを実現する。
論文 参考訳(メタデータ) (2025-02-13T02:52:01Z) - Training-Free Exponential Context Extension via Cascading KV Cache [49.608367376911694]
カスケードサブキャッシュバッファを利用して,最も関連性の高いトークンを選択的に保持する機構を導入する。
本手法は,1Mトークンのフラッシュアテンションと比較して,プリフィルステージ遅延を6.8倍削減する。
論文 参考訳(メタデータ) (2024-06-24T03:59:17Z) - Simple linear attention language models balance the recall-throughput tradeoff [60.06020449520365]
線形およびすべり窓の注意を結合したシンプルなアーキテクチャであるBASEDを提案する。
我々は、最大1.3bパラメータの言語モデルをトレーニングし、BASEDがパープレキシティにおいて最強のサブクワッドラティックモデルと一致し、実世界のリコール集約タスクにおいて6.22の精度ポイントでそれらのモデルを上回っていることを示す。
論文 参考訳(メタデータ) (2024-02-28T19:28:27Z) - ABC: Attention with Bounded-memory Control [67.40631793251997]
我々は,有界メモリ制御 (ABC) を1つの抽象概念,すなわち有界メモリ制御 (ABC) に仮定できることを示した。
ABCが新たな可能性を明らかにしました。まずは、他の方法では見分けがつかないような、効率的なアテンションのバリエーションを接続します。
最後に,既存のABCアプローチからインスピレーションを得たABCの新しい事例を紹介する。
論文 参考訳(メタデータ) (2021-10-06T03:53:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。