論文の概要: EARN: Efficient Inference Acceleration for LLM-based Generative Recommendation by Register Tokens
- arxiv url: http://arxiv.org/abs/2507.00715v1
- Date: Tue, 01 Jul 2025 12:42:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:22:59.628933
- Title: EARN: Efficient Inference Acceleration for LLM-based Generative Recommendation by Register Tokens
- Title(参考訳): EARN:登録トークンによるLCMに基づくジェネレーティブレコメンデーションのための効率的な推論高速化
- Authors: Chaoqun Yang, Xinyu Lin, Wenjie Wang, Yongqi Li, Teng Sun, Xianjing Han, Tat-Seng Chua,
- Abstract要約: 大規模言語モデルベースの生成レコメンデーション(LLMRec)は目覚ましい成功を収めているが、高い推論遅延に悩まされている。
入力シーケンス境界に配置されたレジスタトークンに情報を圧縮するために,初期層を利用した効率的な推論フレームワークEARNを提案する。
- 参考スコア(独自算出の注目度): 47.60523011706102
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Model-based generative recommendation (LLMRec) has achieved notable success, but it suffers from high inference latency due to massive computational overhead and memory pressure of KV Cache. Existing KV Cache reduction methods face critical limitations: cache compression offers marginal acceleration given recommendation tasks' short decoding steps, while prompt compression risks discarding vital interaction history. Through systematic analysis of attention patterns in LLMRec, we uncover two pivotal insights: 1) layer-wise attention sparsity inversion where early layers retain dense informative patterns while later layers exhibit high redundancy, and 2) dual attention sinks phenomenon where attention scores concentrate on both head and tail tokens of input sequences. Motivated by these insights, we propose EARN, an efficient inference framework that leverages the early layers to compress information into register tokens placed at the input sequence boundaries, then focuses solely on these tokens in the subsequent layers. Extensive experiments on three datasets, two LLMRec methods and two LLM architectures demonstrate EARN's superiority, achieving up to 3.79x speedup and 80.8% KV Cache reduction with better accuracy than the general finetuning approach. Our work bridges the efficiency-effectiveness gap in LLMRec, offering practical deployment advantages for industrial scenarios.
- Abstract(参考訳): 大規模言語モデルベースの生成レコメンデーション(LLMRec)は目覚ましい成功を収めているが、膨大な計算オーバーヘッドとKVキャッシュのメモリプレッシャにより、高い推論遅延に悩まされている。
キャッシュ圧縮は、レコメンデーションタスクの短いデコードステップによって、限界加速度を提供する。
LLMRecにおける注意パターンの系統的分析を通して、我々は2つの重要な洞察を発見した。
1)初期層が密接な情報伝達パターンを保持し、後期層が高い冗長性を示すような層間注意空間のインバージョン
2) 二重注意シンクは、入力シーケンスの頭と尾の両方に注意スコアが集中する現象である。
これらの知見に触発されたEARNは、初期層を利用した効率的な推論フレームワークであり、入力シーケンス境界に配置されたレジスタトークンに情報を圧縮し、後続の層でこれらのトークンにのみ焦点をあてる。
3つのデータセット、2つのLLMRec法、2つのLLMアーキテクチャによる大規模な実験は、EARNの優位性を示し、3.79倍のスピードアップと80.8%のKVキャッシュ削減を実現し、一般的な微調整手法よりも精度が良い。
我々の研究はLLMRecの効率効率と効率のギャップを埋め、産業シナリオに実用的なデプロイメントの利点を提供します。
関連論文リスト
- RedundancyLens: Revealing and Exploiting Visual Token Processing Redundancy for Efficient Decoder-Only MLLMs [38.34856927170692]
MLLM(Multimodal Large Language Model)の学習用フレームワークを提案する。
Probe-Activated Dynamic FFNとHollow Attentionで構成されており、ビジュアルトークンの計算の調整可能な削減を可能にする。
実験では、デコーダのみのMLLMに特有の、実質的で、構造化され、クラスタ化された冗長性を示す。
論文 参考訳(メタデータ) (2025-01-31T11:09:16Z) - PrefixKV: Adaptive Prefix KV Cache is What Vision Instruction-Following Models Need for Efficient Generation [65.36715026409873]
キー値(KV)キャッシュは、長い入力シーケンスと出力シーケンスを必要とするが、特に高い推論コストに寄与する。
ここでは,すべてのレイヤのKVキャッシュサイズを決定するという課題を,最適なグローバルプレフィックス設定を探すタスクに再編成するPrefixKVを提案する。
本手法は他の手法と比較して最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-12-04T15:48:59Z) - ZipVL: Efficient Large Vision-Language Models with Dynamic Token Sparsification [29.163757099307553]
大規模視覚言語モデル(LVLM)の効率は、プリフィルフェーズにおける注意機構の計算ボトルネックによって制約される。
本稿では,重要なトークンの動的比割り当て戦略を通じて,LVLM向けに設計された効率的な推論フレームワークZipVLを提案する。
論文 参考訳(メタデータ) (2024-10-11T07:24:21Z) - Efficient Inference for Large Language Model-based Generative Recommendation [78.38878421030522]
LLM(Large Language Model)ベースの生成レコメンデーションは目覚ましい成功を収めた。
ジェネレーティブレコメンデーションにSD(Speculative Decoding)を適用すると、トップKアイテムを生成する必要があるため、ユニークな課題が提示される。
我々は,厳密なトップK検証の下でトップKアライメントを最適化する AtSpeed-S というアライメントフレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-07T16:23:36Z) - ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。
本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。
我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文 参考訳(メタデータ) (2024-07-30T17:59:08Z) - D2O: Dynamic Discriminative Operations for Efficient Long-Context Inference of Large Language Models [28.244034916473804]
大きな言語モデル(LLM)における生成的推論は、キーバリュー(KV)キャッシュのメモリ要求の増加によって妨げられる。
従来のKVキャッシュ消去戦略は、注意点に基づく重要度の低いKVペアを捨て、コンテキスト損失や幻覚などの問題を引き起こす。
そこで我々は,KVキャッシュサイズを動的かつ2段階に最適化するKVキャッシュ圧縮手法であるDynamic Discriminative Operations (D2O)を紹介した。
論文 参考訳(メタデータ) (2024-06-18T20:01:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。