論文の概要: S$^4$C: Speculative Sampling with Syntactic and Semantic Coherence for Efficient Inference of Large Language Models
- arxiv url: http://arxiv.org/abs/2506.14158v1
- Date: Tue, 17 Jun 2025 03:38:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-18 17:34:59.315625
- Title: S$^4$C: Speculative Sampling with Syntactic and Semantic Coherence for Efficient Inference of Large Language Models
- Title(参考訳): S$4$C:大規模言語モデルの効率的な推論のための構文的・意味的コヒーレンスを用いた投機的サンプリング
- Authors: Tao He, Guang Huang, Yu Yang, Tianshi Xu, Sicheng Zhao, Guiguang Ding, Pengyang Wang, Feng Tian,
- Abstract要約: 大規模言語モデル(LLM)は、様々な下流タスクにまたがる顕著な推論能力を示す。
その自己回帰的な性質は、相当なレイテンシ推論をもたらし、リアルタイムアプリケーションに課題を提起する。
マルチヘッドドラフトを利用して投機的サンプリングを拡張するSyntactic and Semantic Coherenceフレームワークを提案する。
- 参考スコア(独自算出の注目度): 38.784951111677856
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) exhibit remarkable reasoning capabilities across diverse downstream tasks. However, their autoregressive nature leads to substantial inference latency, posing challenges for real-time applications. Speculative sampling mitigates this issue by introducing a drafting phase followed by a parallel validation phase, enabling faster token generation and verification. Existing approaches, however, overlook the inherent coherence in text generation, limiting their efficiency. To address this gap, we propose a Speculative Sampling with Syntactic and Semantic Coherence (S$^4$C) framework, which extends speculative sampling by leveraging multi-head drafting for rapid token generation and a continuous verification tree for efficient candidate validation and feature reuse. Experimental results demonstrate that S$^4$C surpasses baseline methods across mainstream tasks, offering enhanced efficiency, parallelism, and the ability to generate more valid tokens with fewer computational resources. On Spec-bench benchmarks, S$^4$C achieves an acceleration ratio of 2.26x-2.60x, outperforming state-of-the-art methods.
- Abstract(参考訳): 大規模言語モデル(LLM)は、様々な下流タスクにまたがる顕著な推論能力を示す。
しかし、その自己回帰的な性質は、相当な推論遅延をもたらし、リアルタイムアプリケーションに課題を生じさせる。
投機的サンプリングは、ドラフトフェーズを導入し、続いて並列検証フェーズを導入し、より高速なトークン生成と検証を可能にすることでこの問題を軽減する。
しかし、既存のアプローチは、テキスト生成の固有のコヒーレンスを見落とし、その効率を制限している。
このギャップに対処するため, 高速トークン生成のためのマルチヘッドドラフトと効率的な候補検証と特徴再利用のための連続検証木を用いて, 投機的サンプリングを拡張したS$^4$C(Speculative Smpling with Syntactic and Semantic Coherence)フレームワークを提案する。
実験の結果、S$^4$Cは、効率の向上、並列性、より有効なトークンを少ない計算資源で生成する能力など、主要なタスクにまたがるベースラインメソッドを超越していることが示された。
Spec-benchベンチマークでは、S$^4$Cは2.26x-2.60xの加速比を達成し、最先端の手法より優れている。
関連論文リスト
- Sample Complexity and Representation Ability of Test-time Scaling Paradigms [91.34339030453425]
テスト時間スケーリングのパラダイムは、複雑なタスクにおいて、大きな言語モデル(LLM)の能力を向上した。
本稿では, 自己整合性, ベスト・オブ・n$, 自己補正など, 様々なテストタイム戦略のサンプル効率について検討する。
単一のTransformerアーキテクチャは、ユーザクエリに関連する特定のタスクを事前に知ることなく、複数のタスクを確実に解決することができる。
論文 参考訳(メタデータ) (2025-06-05T17:48:19Z) - Accelerated Test-Time Scaling with Model-Free Speculative Sampling [58.69141724095398]
STAND(Stochastic Adaptive N-gram Drafting)は,新しいモデルフリーな投機的デコード手法である。
従来の自己回帰復号法と比較して,STANDは推論遅延を60~65%削減することを示した。
モデルフリーのアプローチとして、STANDは追加のトレーニングなしで既存の言語モデルに適用できる。
論文 参考訳(メタデータ) (2025-06-05T07:31:18Z) - Fractured Chain-of-Thought Reasoning [61.647243580650446]
完全CoTと解のみのサンプリングを補間する統合推論時間戦略であるフラクチャードサンプリングを導入する。
フラクチャードサンプリングは、Pass@kとトークンの予算に対して、急激なログ線形スケーリングゲインをもたらすため、優れた精度とコストのトレードオフを一貫して達成できることを示す。
論文 参考訳(メタデータ) (2025-05-19T11:30:41Z) - Fast Controlled Generation from Language Models with Adaptive Weighted Rejection Sampling [90.86991492288487]
トークンの制約を評価するのは 違法にコストがかかる
LCDは文字列上のグローバル分布を歪め、ローカル情報のみに基づいてトークンをサンプリングすることができる。
我々のアプローチは最先端のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2025-04-07T18:30:18Z) - Collaborative Speculative Inference for Efficient LLM Inference Serving [22.3288901160418]
CoSineは並列検証から逐次投機復号を分離する新しい投機推論システムである。
同等のリソースコストで、CoSineは23.2%のレイテンシ削減と32.5%のスループット向上を実現している。
論文 参考訳(メタデータ) (2025-03-13T13:03:38Z) - COrAL: Order-Agnostic Language Modeling for Efficient Iterative Refinement [80.18490952057125]
反復改良は、複雑なタスクにおける大規模言語モデル(LLM)の能力を高める効果的なパラダイムとして登場した。
我々はこれらの課題を克服するために、コンテキストワイズ順序非依存言語モデリング(COrAL)を提案する。
当社のアプローチでは、管理可能なコンテキストウィンドウ内で複数のトークン依存関係をモデル化しています。
論文 参考訳(メタデータ) (2024-10-12T23:56:19Z) - Expediting and Elevating Large Language Model Reasoning via Hidden Chain-of-Thought Decoding [14.175444025026508]
大規模言語モデル(LLM)は、チェーン・オブ・シント(CoT)のプロンプトを必要とするタスクにおいて顕著な機能を示した。
完全なCoTプロセスを生成すると、出力シーケンスが大幅に長くなり、推論時の計算コストと遅延が増大する。
セマンティックアライメントによってCoTプロセスを圧縮し、CoT推論の利点を保ちながらより効率的な復号化を可能にする新しい手法を提案する。
論文 参考訳(メタデータ) (2024-09-13T06:29:20Z) - Path-Consistency: Prefix Enhancement for Efficient Inference in LLM [3.309813585671485]
textitpath-consistencyは、自己整合性においてランダムまたはあまり有用なサンプリングからエラーと冗長の両方を緩和する。
textitpath-consistencyは7.8%$から40.5%$までの推論遅延を著しく加速する。
論文 参考訳(メタデータ) (2024-08-25T01:45:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。