論文の概要: RADAR: Accelerating Large Language Model Inference With RL-Based Dynamic Draft Trees
- arxiv url: http://arxiv.org/abs/2512.14069v1
- Date: Tue, 16 Dec 2025 04:13:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-17 16:49:26.583572
- Title: RADAR: Accelerating Large Language Model Inference With RL-Based Dynamic Draft Trees
- Title(参考訳): RADAR: RLベースの動的ドラフトツリーによる大規模言語モデル推論の高速化
- Authors: Junjie Ma, Jinlong Li,
- Abstract要約: RLに基づく動的ドラフトツリーを用いた新しい投機的サンプリング手法であるRADARを提案する。
RADARは自己回帰デコードベースライン上で3.17x-4.82xの高速化を実現する。
- 参考スコア(独自算出の注目度): 9.1778578751401
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Inference with modern Large Language Models (LLMs) is expensive and slow, and speculative sampling has emerged as an effective solution to this problem, however, the number of the calls to the draft model for generating candidate tokens in speculative sampling is a preset hyperparameter, lacking flexibility. To generate and utilize the candidate tokens more effectively, we propose RADAR, a novel speculative sampling method with RL-based dynamic draft trees. RADAR formulates the draft tree generation process as a Markov Decision Process (MDP) and employs offline reinforcement learning to train a prediction model, which enables real-time decision on the calls to the draft model, reducing redundant computations and further accelerating inference. Evaluations across three LLMs and four tasks show that RADAR achieves a speedup of 3.17x-4.82x over the auto-regressive decoding baseline. The code is available at https://github.com/minaduki-sora/RADAR.
- Abstract(参考訳): 現代の大規模言語モデル(LLM)による推論は高価で遅いが、投機的サンプリングはこの問題に対する効果的な解決策として現れてきたが、投機的サンプリングにおいて候補トークンを生成するためのドラフトモデルへの呼び出しの数は、事前設定されたハイパーパラメータであり、柔軟性に欠ける。
候補トークンをより効果的に生成・活用するために,RLに基づく動的ドラフトツリーを用いた新しい投機的サンプリング手法RADARを提案する。
RADARは、ドラフトツリー生成プロセスをマルコフ決定プロセス(MDP)として定式化し、オフラインの強化学習を用いて予測モデルをトレーニングする。
3つのLCMと4つのタスクで評価した結果、RADARは自動回帰デコードベースラインよりも3.17x-4.82xのスピードアップを達成した。
コードはhttps://github.com/minaduki-sora/RADARで公開されている。
関連論文リスト
- DiffuSpec: Unlocking Diffusion Language Models for Speculative Decoding [66.40658898418316]
DiffuSpecは、事前訓練された拡散言語モデル(DLM)を用いて、単一のフォワードパスでマルチトークンのドラフトを生成する、トレーニングフリーのドロップインフレームワークである。
ベンチマーク全体を通じて、DiffuSpecは最大3倍のウォールクロックスピードアップを達成し、投機的復号化のための自己回帰型ドラフトラの堅牢な代替手段として拡散ベースのドラフトを確立する。
論文 参考訳(メタデータ) (2025-09-28T07:00:15Z) - DiffuCoder: Understanding and Improving Masked Diffusion Models for Code Generation [68.19756761027351]
拡散大言語モデル(dLLM)は自己回帰(AR)モデルの魅力的な代替品である。
本研究は,それらの認知過程と強化学習手法について考察する。
我々の研究は、dLLM生成のメカニズムについて深い洞察を与え、効果的な拡散ネイティブなRLトレーニングフレームワークを提供します。
論文 参考訳(メタデータ) (2025-06-25T17:35:47Z) - Dimple: Discrete Diffusion Multimodal Large Language Model with Parallel Decoding [53.82301522384719]
Dimple, the first Discrete Multimodal Large Language Model (DMLLM)を提案する。
我々は,初期自己回帰フェーズとその後の拡散フェーズを組み合わせた新しい訓練パラダイムを設計する。
Dimple-7BはLLaVA-を3.9%上回り、DMLLMは自己回帰モデルに匹敵する性能を達成できることを示した。
論文 参考訳(メタデータ) (2025-05-22T17:55:04Z) - PARD: Accelerating LLM Inference with Low-Cost PARallel Draft Model Adaptation [4.031603850949324]
本稿では,自動回帰ドラフトモデルの並列ドラフトモデルへの低コストな適応を可能にする新しい投機的復号化手法を提案する。
提案した条件付きドロップトークン法は,ドラフトモデルのトレーニング効率を3倍に向上させることができる。
最適化された推論フレームワークでは、PARDはLLaMA3.1-8B推論を4.08倍高速化し、毎秒311.5トークンを達成する。
論文 参考訳(メタデータ) (2025-04-23T12:27:43Z) - RASD: Retrieval-Augmented Speculative Decoding [5.3926068062773895]
投機的復号化は大規模言語モデル(LLM)における推論を加速する
本稿では,モデルに基づく投機的復号化を促進する検索手法を採用したRASD(Retrieval-Augmented Speculative Decoding)を提案する。
論文 参考訳(メタデータ) (2025-03-05T12:10:14Z) - FR-Spec: Accelerating Large-Vocabulary Language Models via Frequency-Ranked Speculative Sampling [59.8051705468084]
投機的サンプリングは,大規模言語モデルの自己回帰生成プロセスを促進する重要な手法として登場した。
本稿では、語彙空間圧縮によるドラフト候補選択を最適化する周波数ランクの投機的サンプリングフレームワークFR-Specを提案する。
論文 参考訳(メタデータ) (2025-02-20T18:58:10Z) - SDSAT: Accelerating LLM Inference through Speculative Decoding with Semantic Adaptive Tokens [4.5888031410244885]
意味適応トークン(SDSAT)を用いた投機的復号化による大規模言語モデル(LLM)の高速化手法を提案する。
この設計の主な目的は、LLMモデルの精度を損なうことなく、より正確にドラフトトークンを生成する能力を高めることである。
CodeLlama-13B と 7B で実施された実験では、それぞれ3.5X と 3.0X 以上の速度向上が達成されている。
論文 参考訳(メタデータ) (2024-03-27T14:54:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。