論文の概要: Collaborative Speculative Inference for Efficient LLM Inference Serving
- arxiv url: http://arxiv.org/abs/2503.10325v1
- Date: Thu, 13 Mar 2025 13:03:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-14 15:51:01.610845
- Title: Collaborative Speculative Inference for Efficient LLM Inference Serving
- Title(参考訳): 効率的なLLM推論のための協調的投機推論
- Authors: Luyao Gao, Jianchun Liu, Hongli Xu, Liusheng Huang,
- Abstract要約: CoSineは並列検証から逐次投機復号を分離する新しい投機推論システムである。
同等のリソースコストで、CoSineは23.2%のレイテンシ削減と32.5%のスループット向上を実現している。
- 参考スコア(独自算出の注目度): 25.133593066927794
- License:
- Abstract: Speculative inference is a promising paradigm employing small speculative models (SSMs) as drafters to generate draft tokens, which are subsequently verified in parallel by the target large language model (LLM). This approach enhances the efficiency of inference serving by reducing LLM inference latency and costs while preserving generation quality. However, existing speculative methods face critical challenges, including inefficient resource utilization and limited draft acceptance, which constrain their scalability and overall effectiveness. To overcome these obstacles, we present CoSine, a novel speculative inference system that decouples sequential speculative decoding from parallel verification, enabling efficient collaboration among multiple nodes. Specifically, CoSine routes inference requests to specialized drafters based on their expertise and incorporates a confidence-based token fusion mechanism to synthesize outputs from cooperating drafters, ensuring high-quality draft generation. Additionally, CoSine dynamically orchestrates the execution of speculative decoding and verification in a pipelined manner, employing batch scheduling to selectively group requests and adaptive speculation control to minimize idle periods. By optimizing parallel workflows through heterogeneous node collaboration, CoSine balances draft generation and verification throughput in real-time, thereby maximizing resource utilization. Experimental results demonstrate that CoSine achieves superior performance compared to state-of-the-art speculative approaches. Notably, with equivalent resource costs, CoSine achieves up to a 23.2% decrease in latency and a 32.5% increase in throughput compared to baseline methods.
- Abstract(参考訳): 投機推論(英: Speculative Inference)は、投機モデル(SSM)をドラフトとして使用してドラフトトークンを生成する有望なパラダイムであり、その後、ターゲットとする大言語モデル(LLM)によって並列に検証される。
このアプローチは、ジェネレーション品質を維持しつつ、LLM推論レイテンシとコストを低減し、推論サービスの効率を向上させる。
しかし、既存の投機的手法は、非効率な資源利用や、そのスケーラビリティと全体的な有効性を制限する限られたドラフト受け入れなど、重大な課題に直面している。
これらの障害を克服するために,並列検証から逐次投機復号を分離し,複数のノード間の効率的な協調を可能にする新しい投機推論システムであるCoSineを提案する。
特に、CoSineは専門知識に基づいて推論要求を特別なドラフト作成者にルーティングし、信頼性に基づくトークン融合機構を組み込んで、協調するドラフト作成者の出力を合成し、高品質なドラフト生成を保証する。
さらに、CoSineは投機的復号化と検証をパイプライン方式で動的にオーケストレーションし、バッチスケジューリングを使用してリクエストを選択的にグループ化し、アイドル期間を最小限にするためにアダプティブな投機制御を行う。
異種ノードの協調によって並列ワークフローを最適化することにより、CoSineはドラフト生成と検証のスループットをリアルタイムでバランスさせ、リソース利用を最大化する。
実験の結果,CoSineは最先端の投機的手法に比べて優れた性能を示した。
特に、同等のリソースコストで、CoSineは23.2%のレイテンシ低下と32.5%のスループット向上を実現している。
関連論文リスト
- Reward-Guided Speculative Decoding for Efficient LLM Reasoning [80.55186052123196]
Reward-Guided Speculative Decoding (RSD)は,大規模言語モデル(LLM)における推論の効率向上を目的とした新しいフレームワークである。
RSDは、厳密な偏りを強制する既存の投機的復号法とは対照的に、制御されたバイアスをハイリワード出力の優先順位付けに取り入れている。
RSDは,対象モデルのみでの復号化に対して,高い効率向上を実現し,並列復号法よりも高い精度を実現している。
論文 参考訳(メタデータ) (2025-01-31T17:19:57Z) - CoPS: Empowering LLM Agents with Provable Cross-Task Experience Sharing [70.25689961697523]
クロスタスク体験の共有と選択によるシーケンシャル推論を強化する一般化可能なアルゴリズムを提案する。
我々の研究は、既存のシーケンシャルな推論パラダイムのギャップを埋め、タスク間体験の活用の有効性を検証する。
論文 参考訳(メタデータ) (2024-10-22T03:59:53Z) - Boosting Lossless Speculative Decoding via Feature Sampling and Partial Alignment Distillation [8.046705062670096]
損失のない投機的復号化は、ターゲットとする大言語モデル推論を加速する。
FSPAD (Feature Sampling and partial Alignment Distillation for Lossless Speculative Decoding) を提案する。
我々の実験は、ヴィクナ級数とLLaMA3-インストラクト級数で最大かつ最小のモデルにおいて、欲求と非欲求デコーディングの両方を含む。
論文 参考訳(メタデータ) (2024-08-28T06:28:01Z) - FactorLLM: Factorizing Knowledge via Mixture of Experts for Large Language Models [50.331708897857574]
本稿では,高度に訓練された高密度FFNを余分なサブネットワークに分解する新しいアプローチであるFacterLLMを紹介する。
FactorLLMは、最大85%のモデル性能を確保しながら、推論速度を30%以上増加させながら、ソースモデルに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-08-15T16:45:16Z) - Graph-Structured Speculative Decoding [52.94367724136063]
投機的復号化は、大規模言語モデルの推論を加速する有望な手法として登場した。
本稿では, 有向非巡回グラフ(DAG)を応用して, 起案された仮説を管理する革新的な手法を提案する。
我々は1.73$times$から1.96$times$に顕著なスピードアップを観察し、標準投機的復号法を大幅に上回った。
論文 参考訳(メタデータ) (2024-07-23T06:21:24Z) - A Thorough Performance Benchmarking on Lightweight Embedding-based Recommender Systems [67.52782366565658]
State-of-the-art recommender system (RS) は、埋め込みベクトルによって符号化される分類的特徴に依存し、結果として非常に大きな埋め込みテーブルとなる。
軽量埋め込み型RSの繁栄にもかかわらず、評価プロトコルには幅広い多様性が見られる。
本研究では, LERSの性能, 効率, クロスタスク転送性について, 徹底的なベンチマークによる検討を行った。
論文 参考訳(メタデータ) (2024-06-25T07:45:00Z) - Cascade Speculative Drafting for Even Faster LLM Inference [25.642604897018852]
投機的復号化により、大言語モデル(LLM)推論の効率が向上する。
本稿では2種類のカスケードを組み込んだ投機的実行アルゴリズムであるカスケード投機ドラフト(CS Drafting)を紹介する。
CS Draftingは、我々の実験で投機的復号化よりも81%の高速化を実現している。
論文 参考訳(メタデータ) (2023-12-18T18:59:46Z) - An Auction-based Coordination Strategy for Task-Constrained Multi-Agent
Stochastic Planning with Submodular Rewards [7.419725234099728]
既存のタスク調整アルゴリズムはプロセスを無視したり、計算強度に悩まされる。
新たに定式化されたスコア関数を用いた分散オークションベースのコーディネート戦略を提案する。
大規模アプリケーションの実装には,提案手法の近似変種,すなわちDeep Auctionも提案されている。
論文 参考訳(メタデータ) (2022-12-30T10:25:25Z) - Design and Prototyping Distributed CNN Inference Acceleration in Edge
Computing [85.74517957717363]
HALPはエッジコンピューティングにおけるエッジデバイス(ED)間のシームレスなコラボレーションを設計することで推論を加速する。
実験により、分散推論HALPはVGG-16に対して1.7倍の推論加速を達成することが示された。
分散推論HALPを用いたモデル選択は,サービスの信頼性を著しく向上させることができる。
論文 参考訳(メタデータ) (2022-11-24T19:48:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。