論文の概要: Beyond Tokens: Semantic-Aware Speculative Decoding for Efficient Inference by Probing Internal States
- arxiv url: http://arxiv.org/abs/2602.03708v2
- Date: Wed, 04 Feb 2026 02:52:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-05 15:07:33.820607
- Title: Beyond Tokens: Semantic-Aware Speculative Decoding for Efficient Inference by Probing Internal States
- Title(参考訳): Beyond Tokens: 内部状態の探索による効率的な推論のためのセマンティック・アウェア・投機的デコーディング
- Authors: Ximing Dong, Shaowei Wang, Dayi Lin, Boyuan Chen, Ahmed E. Hassan,
- Abstract要約: 大規模言語モデル(LLM)は多くのタスクで高いパフォーマンスを達成するが、自動回帰復号化による高い推論遅延に悩まされる。
トークンの代わりにセマンティックシークエンス全体を検証するセマンティックス(SemanticSpec)を提案する。
- 参考スコア(独自算出の注目度): 14.780400014944926
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) achieve strong performance across many tasks but suffer from high inference latency due to autoregressive decoding. The issue is exacerbated in Large Reasoning Models (LRMs), which generate lengthy chains of thought. While speculative decoding accelerates inference by drafting and verifying multiple tokens in parallel, existing methods operate at the token level and ignore semantic equivalence (i.e., different token sequences expressing the same meaning), leading to inefficient rejections. We propose SemanticSpec, a semantic-aware speculative decoding framework that verifies entire semantic sequences instead of tokens. SemanticSpec introduces a semantic probability estimation mechanism that probes the model's internal hidden states to assess the likelihood of generating sequences with specific meanings. Experiments on four benchmarks show that SemanticSpec achieves up to 2.7x speedup on DeepSeekR1-32B and 2.1x on QwQ-32B, consistently outperforming token-level and sequence-level baselines in both efficiency and effectiveness.
- Abstract(参考訳): 大規模言語モデル(LLM)は多くのタスクで高いパフォーマンスを達成するが、自動回帰復号化による高い推論遅延に悩まされる。
この問題はLarge Reasoning Models (LRMs) において悪化し、思考の長い連鎖を生成する。
投機的復号化は複数のトークンを並列に起草し検証することで推論を加速するが、既存のメソッドはトークンレベルで動作し、意味的等価性(つまり同じ意味を表す異なるトークン列)を無視し、非効率な拒絶を引き起こす。
トークンの代わりにセマンティックシークエンス全体を検証するセマンティックス(SemanticSpec)を提案する。
SemanticSpecは、特定の意味を持つシーケンスを生成する可能性を評価するために、モデルの内部隠れ状態を探索するセマンティックな確率推定メカニズムを導入している。
4つのベンチマーク実験により、SemanticSpecはDeepSeekR1-32Bで2.7倍、QwQ-32Bで2.1倍のスピードアップを実現し、トークンレベルとシーケンスレベルのベースラインを効率と有効性の両方で一貫して上回っていることが示されている。
関連論文リスト
- HIPPO: Accelerating Video Large Language Models Inference via Holistic-aware Parallel Speculative Decoding [48.55833840968632]
投機的復号化は、出力品質を犠牲にすることなくLSM推論を加速するための有望なアプローチとして登場した。
提案するHIPPOは,汎用的な並列投機復号化フレームワークである。
6つのベンチマークで4つのビデオLLMの実験では、HIPPOの有効性が示され、最大3.51倍のスピードアップが達成された。
論文 参考訳(メタデータ) (2026-01-13T07:02:43Z) - Accelerate Speculative Decoding with Sparse Computation in Verification [49.74839681322316]
投機的復号化は、複数のドラフトトークンを並列に検証することにより、自動回帰言語モデル推論を加速する。
既存のスペーシフィケーション方式は主にトークン・バイ・トーケンの自己回帰復号化のために設計されている。
そこで本研究では,注目度,FFN,MoEを両立させるスパース検証フレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-26T07:53:41Z) - SemToken: Semantic-Aware Tokenization for Efficient Long-Context Language Modeling [6.185573921868495]
SemTokenは、トークンの冗長性を低減し、効率を向上させるセマンティック・アウェアなトークン化フレームワークである。
現代の言語モデルや注意促進手法とシームレスに統合することができる。
この結果から,意味構造は大規模言語モデルにおけるトークン化と計算を最適化する上で,有望な新たな軸を提供する可能性が示唆された。
論文 参考訳(メタデータ) (2025-08-21T03:01:53Z) - Broken Tokens? Your Language Model can Secretly Handle Non-Canonical Tokenizations [83.93566096400723]
ランダムにサンプリングされたトークン化が与えられた場合、命令調整されたモデルは元の性能の最大93.4%を維持している。
文字レベルのセグメンテーションは文字列操作とコード理解タスクを最大+14%改善する。
右列桁のグルーピングは、大数の算術を+33%向上させる。
論文 参考訳(メタデータ) (2025-06-23T18:02:26Z) - Think Before You Accept: Semantic Reflective Verification for Faster Speculative Decoding [48.52389201779425]
投機的復号化は、軽量モデルを使用して複数のドラフトトークンを生成し、それらを並列に検証することで推論を加速する。
既存の検証手法は、意味的正確性を見越しながら、分布の整合性に大きく依存している。
我々は,学習自由でセマンティックなアプローチであるリフレクティブ検証を提案し,正確性と効率のトレードオフを改善する。
論文 参考訳(メタデータ) (2025-05-24T10:26:27Z) - Traversal Verification for Speculative Tree Decoding [15.720388162422978]
投機的復号化は、大きな言語モデルを加速するための有望なアプローチである。
本稿では,新しい投機的復号化アルゴリズムであるトラバーサル検証を紹介する。
提案手法は,既存手法よりも受け入れ長とスループットを継続的に向上することを示す。
論文 参考訳(メタデータ) (2025-05-18T12:51:55Z) - SepLLM: Accelerate Large Language Models by Compressing One Segment into One Separator [65.62084602011596]
大規模言語モデル(LLM)は、自然言語処理タスクの範囲で例外的な性能を示した。
特定の意味のないセパレータトークン(句読点)は意味的に意味のあるトークンと比較して注意点に不均等に寄与する。
SepLLMは,これらのセグメントを圧縮し,冗長なトークンを除去することによって推論を高速化する,プラグアンドプレイフレームワークである。
論文 参考訳(メタデータ) (2024-12-16T18:58:57Z) - BEST-STD: Bidirectional Mamba-Enhanced Speech Tokenization for Spoken Term Detection [8.303512060791736]
スポット項の検出は、フレームレベルの特徴と計算集約的なDTWベースのテンプレートマッチングに依存しているため、しばしば妨げられる。
本稿では,音声を個別の話者に依存しないセマンティックトークンに符号化する手法を提案する。
これにより、テキストベースの検索アルゴリズムによる高速検索が容易になり、語彙外用語を効果的に扱うことができる。
論文 参考訳(メタデータ) (2024-11-21T13:05:18Z) - Parallel Decoding via Hidden Transfer for Lossless Large Language Model Acceleration [54.897493351694195]
本稿では,複数連続するトークンを1つのフォワードパスで同時に復号する,新しい並列復号法,すなわちthithidden Transferを提案する。
加速度測定では,Medusa や Self-Speculative decoding など,単モデル加速技術よりも優れています。
論文 参考訳(メタデータ) (2024-04-18T09:17:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。