論文の概要: CLAA: Cross-Layer Attention Aggregation for Accelerating LLM Prefill
- arxiv url: http://arxiv.org/abs/2602.16054v1
- Date: Tue, 17 Feb 2026 22:08:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-19 15:58:30.453621
- Title: CLAA: Cross-Layer Attention Aggregation for Accelerating LLM Prefill
- Title(参考訳): CLAA: LLMプレフィルの高速化のためのクロスレイアテンションアグリゲーション
- Authors: Bradley McDanel, Steven Li, Harshit Khaitan,
- Abstract要約: 我々はAnswer-Informed Oracleを紹介します。これは、生成した回答からプロンプトへの注意を計測することで、地道なトークンの重要性を定義します。
このオラクルは、既存のオラクルが層間で高いばらつきを示すことを明らかにしている。ランク付けは特定の層で急激な分解が可能であり、エンドツーエンドのベンチマークでは見えない障害モードである。
我々はこれをCLAA(Cross-Layer Attention Aggregation)として実装し、全KVキャッシュのベースラインと比較して、上界とのギャップを埋め、TTFT(Time-to-First-Token)を最大39%削減する。
- 参考スコア(独自算出の注目度): 4.440373965918973
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The prefill stage in long-context LLM inference remains a computational bottleneck. Recent token-ranking heuristics accelerate inference by selectively processing a subset of semantically relevant tokens. However, existing methods suffer from unstable token importance estimation, often varying between layers. Evaluating token-ranking quality independently from heuristic-specific architectures is challenging. To address this, we introduce an Answer-Informed Oracle, which defines ground-truth token importance by measuring attention from generated answers back to the prompt. This oracle reveals that existing heuristics exhibit high variance across layers: rankings can degrade sharply at specific layers, a failure mode invisible to end-to-end benchmarks. The diagnosis suggests a simple fix: aggregate scores across layers rather than relying on any single one. We implement this as Cross-Layer Attention Aggregation (CLAA), which closes the gap to the oracle upper bound and reduces Time-to-First-Token (TTFT) by up to 39\% compared to the Full KV Cache baseline.
- Abstract(参考訳): 長文LLM推論におけるプリフィルステージは、依然として計算ボトルネックである。
最近のトークンレベルのヒューリスティックは、意味のあるトークンのサブセットを選択的に処理することで推論を加速する。
しかし、既存の手法は不安定なトークンの重要度の推定に悩まされ、しばしば層によって異なる。
ヒューリスティックなアーキテクチャとは独立してトークンレベルの品質を評価することは難しい。
この問題に対処するために、私たちはAnswer-Informed Oracleを紹介します。
このオラクルは、既存のヒューリスティックが層間で高いばらつきを示すことを明らかにしている: ランク付けは特定の層で急激な分解が可能であり、エンドツーエンドのベンチマークでは見えない障害モードである。
診断は単純な修正を示唆している。単一のものに頼るのではなく、レイヤ間でスコアを集計する。
我々はこれをCLAA(Cross-Layer Attention Aggregation)として実装し、全KVキャッシュベースラインと比較して、オラクル上界とのギャップを埋め、TTFT(Time-to-First-Token)を最大39倍削減する。
関連論文リスト
- FASA: Frequency-aware Sparse Attention [56.26881872333624]
本稿では,トークンの重要度を動的に予測することで,クエリ対応のトークン消去を実現する新しいフレームワークであるFASAを提案する。
我々の重要な発見は、小さな「支配的」FCの特定可能なサブセットが、常に注目の頭文字と高い文脈の一致を示すことである。
長いコンテキストのタスクのスペクトル全体にわたって、FASAは全てのトークン放出ベースラインを一貫して上回り、ニアオラクル精度を達成する。
論文 参考訳(メタデータ) (2026-02-03T06:09:06Z) - A BERTology View of LLM Orchestrations: Token- and Layer-Selective Probes for Efficient Single-Pass Classification [2.0069888187253615]
生産LLMシステムは、安全と他の分類の重いステップのために、しばしば別々のモデルに依存している。
代わりに、私たちはLLMによって既に支払われた計算を再利用し、隠れた状態の軽量プローブを訓練し、生成に使用する同じ前方パスでラベルを予測する。
論文 参考訳(メタデータ) (2026-01-19T18:40:29Z) - CompressKV: Semantic Retrieval Heads Know What Tokens are Not Important Before Generation [7.119276797399788]
キー値(KV)キャッシュサイズの増加は、メモリと実行効率に重大な課題をもたらす。
ほとんどのKVキャッシュ圧縮手法は、GQA (Grouped Query Attention) ベースの LLM において、すべてのアテンションヘッドを用いたトークンの排除に依存している。
我々は階層適応型KVキャッシュ割り当て戦略を導入し、様々なメモリ予算下での最先端のアプローチを一貫して上回ります。
論文 参考訳(メタデータ) (2025-08-04T13:26:16Z) - LLM-Symbolic Integration for Robust Temporal Tabular Reasoning [69.27153114778748]
本研究では,システムおよび制御された評価のための合成データセットであるTempTabQA-Cを紹介する。
この構造化アプローチにより、LLM(Large Language Models)はsqlクエリの生成と実行を可能にし、一般化とバイアス軽減の強化を行う。
論文 参考訳(メタデータ) (2025-06-06T05:14:04Z) - SampleAttention: Near-Lossless Acceleration of Long Context LLM Inference with Adaptive Structured Sparse Attention [53.4441894198495]
大きな言語モデル(LLM)は、非常に長いコンテキストウィンドウをサポートするようになった。
バニラの注意の二次的な複雑さは、TTFT(Time-to-First-Token)レイテンシを著しく長くする。
適応型構造とほぼロスレスなスパースアテンションであるSampleAttentionを提案する。
論文 参考訳(メタデータ) (2024-06-17T11:05:15Z) - Temporal-aware Hierarchical Mask Classification for Video Semantic
Segmentation [62.275143240798236]
ビデオセマンティックセグメンテーションデータセットは、ビデオ毎のカテゴリが限られている。
VSSトレーニング中に意味のある勾配更新を受けるために、クエリの10%未満がマッチする可能性がある。
提案手法は,最新のVSSベンチマークVSPWにおいてベルやホイッスルを使わずに,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-09-14T20:31:06Z) - SoQal: Selective Oracle Questioning for Consistency Based Active
Learning of Cardiac Signals [17.58391771585294]
臨床設定はしばしば、豊富なラベル付きデータと限られたラベル付きデータによって特徴づけられる。
この負担を軽減する方法の1つは、(a)取得と(b)情報のないインスタンスのアノテーションを含むアクティブラーニング(AL)を通じてである。
BALCはBALDのような最先端の獲得機能より優れており,SoQalはノイズの多いオラクルの存在下でもベースライン法より優れていることを示す。
論文 参考訳(メタデータ) (2020-04-20T18:20:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。