論文の概要: Acceptance Dynamics Across Cognitive Domains in Speculative Decoding
- arxiv url: http://arxiv.org/abs/2604.14682v1
- Date: Thu, 16 Apr 2026 06:38:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-17 21:29:31.759768
- Title: Acceptance Dynamics Across Cognitive Domains in Speculative Decoding
- Title(参考訳): 投機復号における認知領域間の受容ダイナミクス
- Authors: Saif Mahmoud,
- Abstract要約: 本稿では,木に基づく投機的復号化力学の実証的研究を行う。
本研究は4つのNLPベンチマークドメインにまたがる。
タスクタイプは木の深さよりも受け入れの予測が強いことが分かりました。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speculative decoding accelerates large language model (LLM) inference. It uses a small draft model to propose a tree of future tokens. A larger target model then verifies these tokens in a single batched forward pass. Despite the growing body of work on speculative methods, the degree to which the cognitive characteristics of a task affect acceptance probability remains largely unexplored. We present an empirical study of tree-based speculative decoding acceptance dynamics. Our study spans four well-established NLP benchmark domains: code generation, mathematical reasoning, logical reasoning, and open-ended chat. For this, we use TinyLlama-1.1B as the draft model against Llama-2-7B-Chat-GPTQ as the target. Over 99,768 speculative nodes collected from 200 prompts, we derive per-domain acceptance rates, expected accepted lengths, depth-acceptance profiles, and entropy-acceptance correlations. We find that task type is a stronger predictor of acceptance than tree depth. Furthermore, only the chat domain consistently yields an expected accepted length exceeding 1.0 token per step. We also show that the entropy-acceptance correlation is consistently negative but weak across all domains (rho in [-0.20, -0.15]). Counterintuitively, chat produces the highest entropy yet the highest acceptance rate. We attribute this divergence to the lexical predictability of RLHF-aligned register. These findings have direct implications for domain-aware speculation budgets and draft-model selection strategies. Index Terms--speculative decoding, large language model inference, tree attention, draft model, acceptance probability, LLM efficiency
- Abstract(参考訳): 投機的復号化は大規模言語モデル(LLM)推論を加速させる。
将来のトークンのツリーの提案には、小さなドラフトモデルを使用する。
より大きなターゲットモデルは、これらのトークンを単一のバッチフォワードパスで検証する。
投機的手法に関する研究が増えているにもかかわらず、タスクの認知的特性が受容確率に影響を与える程度は、まだ明らかにされていない。
本稿では,木に基づく投機的復号化力学の実証的研究を行う。
我々の研究は、コード生成、数学的推論、論理推論、オープンエンドチャットの4つの確立されたNLPベンチマークドメインにまたがっている。
このため、TinyLlama-1.1BをLlama-2-7B-Chat-GPTQに対するドラフトモデルとして使用する。
200のプロンプトから収集された99,768以上の投機ノードは、ドメイン単位の受入率、期待される受入長、深度受容プロファイル、エントロピー受容相関を導出する。
タスクタイプは木の深さよりも受け入れの予測が強いことが分かりました。
さらに、チャットドメインだけが1ステップ当たり1.0トークンを超える許容長を常に生成する。
また、エントロピー・アクセプタンス相関は、すべての領域において一貫して負であるが弱である(rho in [-0.20, -0.15])。
対極的には、チャットは最もエントロピーが高く、最も受け入れ率が高い。
この分岐はRLHF整列レジスタの語彙的予測可能性に起因している。
これらの結果は、ドメイン意識の投機予算やドラフトモデル選択戦略に直接影響する。
索引項--投機的復号化、大言語モデル推論、ツリーアテンション、ドラフトモデル、受け入れ確率、LLM効率
関連論文リスト
- Pretraining Language Models to Ponder in Continuous Space [50.52734567589996]
単一のトークン生成ステップ内で,前処理を繰り返し呼び出すことによって,この思考プロセスを言語モデルに導入する。
人間のアノテーションを使わずに、自己教師付き学習を通じて、この方法でモデルを学習できることが示される。
論文 参考訳(メタデータ) (2025-05-27T03:47:33Z) - Traversal Verification for Speculative Tree Decoding [15.720388162422978]
投機的復号化は、大きな言語モデルを加速するための有望なアプローチである。
本稿では,新しい投機的復号化アルゴリズムであるトラバーサル検証を紹介する。
提案手法は,既存手法よりも受け入れ長とスループットを継続的に向上することを示す。
論文 参考訳(メタデータ) (2025-05-18T12:51:55Z) - FIRP: Faster LLM inference via future intermediate representation prediction [54.897493351694195]
FIRPはデコードステップ毎に1つではなく複数のトークンを生成する。
いくつかのモデルとデータセットで1.9x-3xのスピードアップ比を示す広範な実験を行った。
論文 参考訳(メタデータ) (2024-10-27T15:53:49Z) - Graph-Structured Speculative Decoding [52.94367724136063]
投機的復号化は、大規模言語モデルの推論を加速する有望な手法として登場した。
本稿では, 有向非巡回グラフ(DAG)を応用して, 起案された仮説を管理する革新的な手法を提案する。
我々は1.73$times$から1.96$times$に顕著なスピードアップを観察し、標準投機的復号法を大幅に上回った。
論文 参考訳(メタデータ) (2024-07-23T06:21:24Z) - SpecDec++: Boosting Speculative Decoding via Adaptive Candidate Lengths [41.863092939498316]
投機的復号化は、より小さくより高速なドラフトモデルを利用することで、ターゲットとする大言語モデルの推論遅延を低減する。
候補長Kの選択について検討し、マルコフ決定過程として定式化する。
この理論によって動機付けられたSpecDec++は、投機的復号法の拡張版で、ハエの候補長を適応的に決定する。
論文 参考訳(メタデータ) (2024-05-30T05:49:38Z) - Online Speculative Decoding [34.987825705622555]
大規模言語モデルの推論を高速化するオンライン投機的復号法を導入する。
主なアイデアは、観測されたユーザクエリデータに対する(複数)ドラフトモデルを継続的に更新することである。
本稿では,知識蒸留に基づくオンライン投機的デコーディングのプロトタイプを開発し,合成データと実データの両方を用いて評価する。
論文 参考訳(メタデータ) (2023-10-11T04:03:42Z) - Interpretability at Scale: Identifying Causal Mechanisms in Alpaca [62.65877150123775]
本研究では、Boundless DASを用いて、命令に従う間、大規模言語モデルにおける解釈可能な因果構造を効率的に探索する。
私たちの発見は、成長し、最も広くデプロイされている言語モデルの内部構造を忠実に理解するための第一歩です。
論文 参考訳(メタデータ) (2023-05-15T17:15:40Z) - Complex Event Forecasting with Prediction Suffix Trees: Extended
Technical Report [70.7321040534471]
複合イベント認識(CER)システムは、イベントのリアルタイムストリーム上のパターンを"即時"検出する能力によって、過去20年間に人気が高まっている。
このような現象が実際にCERエンジンによって検出される前に、パターンがいつ発生するかを予測する方法が不足している。
複雑なイベント予測の問題に対処しようとする形式的なフレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-01T09:52:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。