論文の概要: Position-Aware Drafting for Inference Acceleration in LLM-Based Generative List-Wise Recommendation
- arxiv url: http://arxiv.org/abs/2604.27747v1
- Date: Thu, 30 Apr 2026 11:37:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-01 16:31:54.070861
- Title: Position-Aware Drafting for Inference Acceleration in LLM-Based Generative List-Wise Recommendation
- Title(参考訳): LLMに基づくジェネレーティブリストワイズ勧告における推論高速化のための位置認識描画
- Authors: Jiaju Chen, Chongming Gao, Chenxiao Fan, Haoyan Liu, Qingpeng Cai, Peng Jiang, Xiangnan He,
- Abstract要約: PAD-Recは2つの補完信号でドラフトモデルを増強する軽量モジュールである。
アイテム位置埋め込みは、トークン内のスロットを明示的にエンコードする。
ステップ位置埋め込みはドラフトステップをエンコードし、モデルが深さ依存の不確実性に適応できるようにする。
- 参考スコア(独自算出の注目度): 27.749196490846916
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language model (LLM)-based generative list-wise recommendation has advanced rapidly, but decoding remains sequential and thus latency-prone. To accelerate inference without changing the target distribution, speculative decoding (SD) uses a small draft model to propose several next tokens at once and a target LLM to verify and accept the longest prefix, skipping multiple steps per round. In generative recommendation, however, each item is represented by multiple semantic-ID tokens, often with separators, and current drafts typically treat these tokens uniformly. This overlooks two practical facts: (i) a token's semantics depend on its within-item slot, and (ii) uncertainty tends to increase with speculation depth. Without modeling these effects, SD's speedups can be limited. We introduce PAD-Rec, Position-Aware Drafting for generative Recommendation, a lightweight module that augments the draft model with two complementary signals. Item position embeddings explicitly encode the within-item slot of each token, strengthening structural awareness. Step position embeddings encode the draft step, allowing the model to adapt to depth-dependent uncertainty and improve proposal quality. To harmonize these signals with base features, we add simple gates: a learnable coefficient for item slots and a context-driven gate for draft steps. The module is trainable, easy to integrate with standard draft models, and adds negligible inference overhead. Extensive experiments on four real-world datasets show up to 3.1x wall-clock speedup and about 5% average wall-clock speedup gain over strong SD baselines, while largely preserving recommendation quality.
- Abstract(参考訳): 大規模言語モデル (LLM) ベースの生成的リストワイドレコメンデーションは急速に進歩しているが、復号化はシーケンシャルであり、遅延が発生しやすい。
ターゲット分布を変更することなく推論を高速化するために、投機的復号法(SD)は小さなドラフトモデルを用いて、複数の次のトークンを同時に提案する。
しかし、生成的推奨では、各項目は複数のセマンティックIDトークンで表現され、しばしばセパレータで表現される。
これは2つの現実を見落としている。
(i)トークンの意味は内部のスロットに依存し、
(二)投機深度により不確実性が増大する傾向がある。
これらの効果をモデル化しなければ、SDのスピードアップは制限される。
PAD-Rec, position-Aware Drafting for Generative Recommendation, a lightweight module that a draft model augments with two complementary signal。
アイテム位置埋め込みは、各トークンの内部スロットを明示的にエンコードし、構造的認識を強化する。
ステップ位置埋め込みはドラフトステップをエンコードし、モデルが深さ依存の不確実性に適応し、提案品質を改善する。
これらの信号と基本特性を調和させるために、アイテムスロットの学習可能な係数とドラフトステップのコンテキスト駆動ゲートという単純なゲートを追加する。
モジュールはトレーニング可能で、標準のドラフトモデルとの統合が容易で、無視可能な推論オーバーヘッドを追加する。
4つの実世界のデータセットの大規模な実験では、推奨品質を保ちながら、壁時計のスピードアップが3.1倍、壁時計の平均速度アップが5%向上する。
関連論文リスト
- Faster LLM Inference via Sequential Monte Carlo [47.46537448240707]
連続モンテカルロ投機復号法(SMC-SD)を導入する。
SMC-SDはトークンレベルの拒絶を、ドラフト粒子の集団に対する重み付け再サンプリングに置き換える。
投機的復号化よりも2.36倍のスピードアップ、自動回帰復号化より5.2倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2026-04-17T03:52:23Z) - SpecBound: Adaptive Bounded Self-Speculation with Layer-wise Confidence Calibration [13.454534256560558]
投機的復号化は、大規模言語モデルにおける自己回帰推論を加速するための有望なアプローチとして現れている。
そこで本稿では, 早期終了判定において, 温度アニールによる急激な信頼を抑える, 新たなセルフドラフトフレームワークを提案する。
提案手法は,従来の自己回帰復号法に比べて最大2.33倍の高速化を実現する。
論文 参考訳(メタデータ) (2026-04-14T03:47:04Z) - PACER: Blockwise Pre-verification for Speculative Decoding with Adaptive Length [21.738896310075678]
投機的復号法(SD)は,大規模言語モデル(LLM)の推論過程を高速化する強力な手法である
軽量でトレーニング可能な事前検証レイヤを用いて,ドラフト長を動的に制御する新しいアプローチであるPacerを提案する。
以上の結果から,Pacerは自己回帰復号化よりも最大2.66倍の高速化を実現し,一貫した投機復号化を実現していることがわかった。
論文 参考訳(メタデータ) (2026-02-01T15:12:38Z) - Fast Inference via Hierarchical Speculative Decoding [65.40448210801763]
階層的投機的復号法(HSD)は,各モデルがトークンを提案し,次に大きなモデルが1つのフォワードパスで検証する階層構造に,ドラフトモデルを積み重ねるアルゴリズムである。
HSDは最高の単軸ベースラインよりも1.2倍のスピードアップを達成している。
論文 参考訳(メタデータ) (2025-10-22T15:56:19Z) - DiffuSpec: Unlocking Diffusion Language Models for Speculative Decoding [66.40658898418316]
DiffuSpecは、事前訓練された拡散言語モデル(DLM)を用いて、単一のフォワードパスでマルチトークンのドラフトを生成する、トレーニングフリーのドロップインフレームワークである。
ベンチマーク全体を通じて、DiffuSpecは最大3倍のウォールクロックスピードアップを達成し、投機的復号化のための自己回帰型ドラフトラの堅牢な代替手段として拡散ベースのドラフトを確立する。
論文 参考訳(メタデータ) (2025-09-28T07:00:15Z) - Efficient Inference for Large Language Model-based Generative Recommendation [78.38878421030522]
LLM(Large Language Model)ベースの生成レコメンデーションは目覚ましい成功を収めた。
ジェネレーティブレコメンデーションにSD(Speculative Decoding)を適用すると、トップKアイテムを生成する必要があるため、ユニークな課題が提示される。
我々は,厳密なトップK検証の下でトップKアライメントを最適化する AtSpeed-S というアライメントフレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-07T16:23:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。