論文の概要: Consultant Decoding: Yet Another Synergistic Mechanism
- arxiv url: http://arxiv.org/abs/2506.02391v1
- Date: Tue, 03 Jun 2025 03:13:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:35.207866
- Title: Consultant Decoding: Yet Another Synergistic Mechanism
- Title(参考訳): コンサルタントのデコーディング - もうひとつのシナジスティックなメカニズム
- Authors: Chuanghao Ding, Jiaping Wang, Ziqing Yang, Xiaoliang Wang, Dahua Lin, Cam-Tu Nguyen, Fei Tan,
- Abstract要約: コンサルタント・デコーディング(CD)は、大きな言語モデルでのみ計算されるトークンレベルの確率を用いて、候補のドラフトを検証する。
CDは、目標モデルと比較して2.5倍の推論速度向上を実現し、同等の生成品質を維持している。
- 参考スコア(独自算出の注目度): 49.996656694586164
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The synergistic mechanism based on Speculative Decoding (SD) has garnered considerable attention as a simple yet effective approach for accelerating the inference of large language models (LLMs). Nonetheless, the high rejection rates require repeated LLMs calls to validate draft tokens, undermining the overall efficiency gain of SD. In this work, we revisit existing verification mechanisms and propose a novel synergetic mechanism Consultant Decoding (CD). Unlike SD, which relies on a metric derived from importance sampling for verification, CD verifies candidate drafts using token-level likelihoods computed solely by the LLM. CD achieves up to a 2.5-fold increase in inference speed compared to the target model, while maintaining comparable generation quality (around 100% of the target model's performance). Interestingly, this is achieved by combining models whose parameter sizes differ by two orders of magnitude. In addition, CD reduces the call frequency of the large target model to below 10%, particularly in more demanding tasks. CD's performance was even found to surpass that of the large target model, which theoretically represents the upper bound for speculative decoding.
- Abstract(参考訳): 投機的復号法(SD)に基づく相乗的メカニズムは、大規模言語モデル(LLM)の推論を加速するための単純かつ効果的なアプローチとして、かなりの注目を集めている。
それでも高い拒絶率は、SDの全体的な効率向上を損なうため、ドラフトトークンを検証するために繰り返しLCMの呼び出しを必要とする。
本研究では,既存の検証機構を再検討し,新しいシナジー機構であるConsistant Decoding(CD)を提案する。
SDとは違い、CDはLLMによってのみ計算されるトークンレベル確率を用いて候補ドラフトを検証する。
CDは、ターゲットモデルと比較して2.5倍の推論速度向上を実現し、同じ生成品質(ターゲットモデルの性能の約100%)を維持している。
興味深いことに、これはパラメータサイズが2桁異なるモデルを組み合わせることで達成される。
さらにCDは、特に要求の高いタスクにおいて、大きなターゲットモデルの呼び出し頻度を10%以下に削減する。
CDの性能は、理論上は投機的復号化の上限を表す大きなターゲットモデルよりも優れていた。
関連論文リスト
- Token Level Routing Inference System for Edge Devices [21.721914273034972]
本稿では,クラウドベースの大規模モデルから重要なトークン生成を選択的に参照しながら,小型モデルでデバイス上での推論を可能にする,新しい協調型復号推論システムを提案する。
注目すべきは、M1 MacBook上で0.5Bモデルのみを使用してCommonsenseQAのパフォーマンスを60%向上させ、クラウドの大規模モデルにアップロードされるトークン生成の7%以下であることだ。
論文 参考訳(メタデータ) (2025-04-10T15:54:19Z) - Reward-Guided Speculative Decoding for Efficient LLM Reasoning [80.55186052123196]
Reward-Guided Speculative Decoding (RSD)は,大規模言語モデル(LLM)における推論の効率向上を目的とした新しいフレームワークである。
RSDは、厳密な偏りを強制する既存の投機的復号法とは対照的に、制御されたバイアスをハイリワード出力の優先順位付けに取り入れている。
RSDは,対象モデルのみでの復号化に対して,高い効率向上を実現し,並列復号法よりも高い精度を実現している。
論文 参考訳(メタデータ) (2025-01-31T17:19:57Z) - Improving Multi-candidate Speculative Decoding [1.6291177798903276]
投機的復号化(SD)とは,大規模言語モデル(LLM)の推論を高速化する手法である。
そこで本研究では,ターゲットモデルによるマルチ候補生成を含むMCSDの新バージョンを提案する。
また、異なるドラフトモデルを用いたターゲットモデルマルチ候補プロセスが出力品質に及ぼす影響についても検討した。
論文 参考訳(メタデータ) (2024-09-16T18:20:38Z) - Graph-Structured Speculative Decoding [52.94367724136063]
投機的復号化は、大規模言語モデルの推論を加速する有望な手法として登場した。
本稿では, 有向非巡回グラフ(DAG)を応用して, 起案された仮説を管理する革新的な手法を提案する。
我々は1.73$times$から1.96$times$に顕著なスピードアップを観察し、標準投機的復号法を大幅に上回った。
論文 参考訳(メタデータ) (2024-07-23T06:21:24Z) - DistillSpec: Improving Speculative Decoding via Knowledge Distillation [70.61777015900272]
投機的復号(SD)は、複数のトークンを生成するためにより高速なドラフトモデルを使用することで、大きな言語モデル推論を加速する。
本稿では,SDを適用する前に,知識蒸留を用いて,ドラフトモデルとターゲットモデルとの整合性を向上するDistillSpecを提案する。
DistillSpecは標準SDよりも10~45%のスピードアップを実現しています。
論文 参考訳(メタデータ) (2023-10-12T16:21:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。