論文の概要: READER: Retrieval-Assisted Drafter for Efficient LLM Inference
- arxiv url: http://arxiv.org/abs/2508.09072v1
- Date: Tue, 12 Aug 2025 16:47:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-13 21:07:34.510768
- Title: READER: Retrieval-Assisted Drafter for Efficient LLM Inference
- Title(参考訳): READER: 効率的なLLM推論のための検索支援ドレター
- Authors: Maxim Divilkovskiy, Vitaly Malygin, Sergey Zlobin, Sultan Isali, Vasily Kalugin, Stanislav Ilyushin, Nuriza Aitassova, Yi Fei, Zeng Weidi,
- Abstract要約: 大規模言語モデル(LLM)はトークンを自己回帰的に生成し、それぞれのトークンは前のコンテキストに依存する。
本稿では,テキスト中の自己繰り返しを活用することによって,モデルに基づくアプローチを強化する新しい投機的復号法READERを紹介する。
提案アルゴリズムは,統計的探索により得られたトークンを用いて投機的復号木を拡張する。
- 参考スコア(独自算出の注目度): 0.45606683918876856
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) generate tokens autoregressively, with each token depending on the preceding context. This sequential nature makes the inference process inherently difficult to accelerate, posing a significant challenge for efficient deployment. In recent years, various methods have been proposed to address this issue, with the most effective approaches often involving the training of additional draft models. In this paper, we introduce READER (Retrieval-Assisted Drafter for Efficient LLM Inference), a novel lossless speculative decoding method that enhances model-based approaches by leveraging self-repetitions in the text. Our algorithm expands the speculative decoding tree using tokens obtained through statistical search. This work focuses on large batch sizes (>= 8), an underexplored yet important area for industrial applications. We also analyze the key-value (KV) cache size during speculative decoding and propose an optimization to improve performance for large batches. As a result, READER outperforms existing speculative decoding methods. Notably, READER requires no additional training and can reuse pre-trained speculator models, increasing the speedup by over 40\%. Our method demonstrates particularly strong performance on search-based tasks, such as retrieval-augmented generation, where we achieve more than 10x speedup.
- Abstract(参考訳): 大規模言語モデル(LLM)はトークンを自己回帰的に生成し、それぞれのトークンは前のコンテキストに依存する。
このシーケンシャルな性質により、推論プロセスは本質的に加速が難しくなり、効率的なデプロイメントには重大な課題が生じる。
近年、この問題に対処するための様々な手法が提案されているが、最も効果的なアプローチは、しばしば追加のドラフトモデルのトレーニングを含む。
本稿では,テキスト中の自己反復を活用することでモデルに基づくアプローチを強化する新しい損失のない投機的復号法であるREADER(Retrieval-Assisted Drafter for Efficient LLM Inference)を紹介する。
提案アルゴリズムは,統計的探索により得られたトークンを用いて投機的復号木を拡張する。
この研究は、産業アプリケーションにとって未調査だが重要な領域である大規模なバッチサイズ(>=8)に焦点を当てている。
また、投機復号時のキー値(KV)キャッシュサイズを分析し、大規模バッチの性能向上のための最適化を提案する。
その結果、READERは既存の投機的復号法より優れている。
特に、READERは追加のトレーニングを必要とせず、事前訓練された投機モデルの再利用が可能であり、スピードアップを40%以上増加させる。
提案手法は,検索処理を高速化する検索強化生成など,検索ベースタスクにおいて,特に高い性能を示す。
関連論文リスト
- Exploring Training and Inference Scaling Laws in Generative Retrieval [50.82554729023865]
生成検索は、検索を自己回帰生成タスクとして再構成し、大きな言語モデルがクエリから直接ターゲット文書を生成する。
生成的検索におけるトレーニングと推論のスケーリング法則を体系的に検討し,モデルのサイズ,トレーニングデータスケール,推論時間計算が協調的に性能に与える影響について検討した。
論文 参考訳(メタデータ) (2025-03-24T17:59:03Z) - TETRIS: Optimal Draft Token Selection for Batch Speculative Decoding [76.23719557942917]
TETRISは、(バッチ内のすべてのリクエストに対して)最も有望なドラフトトークンを積極的に選択する。
我々は,TETRISがベースライン投機的復号法およびドラフトトークンを動的に選択する既存手法より優れていることを理論的かつ実証的に示す。
論文 参考訳(メタデータ) (2025-02-21T04:19:24Z) - Closer Look at Efficient Inference Methods: A Survey of Speculative Decoding [1.3479499607624648]
投機的復号化は、ドラフトと検証という2段階のフレームワークを導入することでボトルネックに対処する。
より小さく効率的なモデルが予備のドラフトを生成し、より大きくより洗練されたモデルによって洗練される。
本稿では、投機的復号法を包括的に調査し、それらをドラフト中心およびモデル中心のアプローチに分類する。
論文 参考訳(メタデータ) (2024-11-20T09:46:30Z) - QPO: Query-dependent Prompt Optimization via Multi-Loop Offline Reinforcement Learning [58.767866109043055]
クエリ依存型プロンプト最適化(QPO)を導入し、入力クエリに合わせて最適なプロンプトを生成するために、小さな事前訓練された言語モデルを反復的に微調整する。
我々は、オープンソースのタスクに様々なプロンプトをベンチマークする副産物として、すでに大量に存在するオフラインのプロンプトデータから洞察を得る。
様々なLLMスケールと多様なNLPおよび数学タスクの実験は、ゼロショットと少数ショットの両方のシナリオにおいて、我々の手法の有効性とコスト効率を実証している。
論文 参考訳(メタデータ) (2024-08-20T03:06:48Z) - Graph-Structured Speculative Decoding [52.94367724136063]
投機的復号化は、大規模言語モデルの推論を加速する有望な手法として登場した。
本稿では, 有向非巡回グラフ(DAG)を応用して, 起案された仮説を管理する革新的な手法を提案する。
我々は1.73$times$から1.96$times$に顕著なスピードアップを観察し、標準投機的復号法を大幅に上回った。
論文 参考訳(メタデータ) (2024-07-23T06:21:24Z) - Adaptive Draft-Verification for Efficient Large Language Model Decoding [24.347886232342862]
大規模言語モデル(LLM)デコードでは、与えられたコンテキストに基づいてトークンのシーケンスを生成する。
典型的な自己回帰復号法では、生成されたトークンごとに別の前方通過が必要となる。
微調整を必要とせずにLDMデコーディングを高速化するADEDを導入する。
論文 参考訳(メタデータ) (2024-06-27T22:20:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。