論文の概要: Reducing Latency of LLM Search Agent via Speculation-based Algorithm-System Co-Design
- arxiv url: http://arxiv.org/abs/2511.20048v1
- Date: Tue, 25 Nov 2025 08:15:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-26 17:37:04.356815
- Title: Reducing Latency of LLM Search Agent via Speculation-based Algorithm-System Co-Design
- Title(参考訳): 推測に基づくアルゴリズム・システム協調設計によるLLM検索エージェントのレイテンシ低減
- Authors: Zixiao Huang, Wen Zeng, Tianyu Fu, Tengxuan Liu, Yizhou Sun, Ke Hong, Xinhao Yang, Chengchun Liu, Yan Li, Quanlu Zhang, Guohao Dai, Zhenhua Zhu, Yu Wang,
- Abstract要約: LLMベースの検索エージェントは、高いパフォーマンスを実現するが、深刻なレイテンシーに悩まされる。
我々は憶測のレンズを通してこのボトルネックを再考する。
SPAgentは,検索エージェントにおける投機の役割を拡大し,レイテンシを低減するアルゴリズム・システム協調設計フレームワークである。
- 参考スコア(独自算出の注目度): 35.95362310928356
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: LLM-based search agents achieve strong performance but suffer from severe latency, as each step requires serialized LLM reasoning followed by action of tool execution. We revisit this bottleneck through the lens of speculation. While traditional predict-verify speculation paradigm can break serial execution, its benefit remains limited, as it retains the full original workload and adds extra inference overhead. We observe that early agent steps often involve simple evidence-gathering, where correct actions can often be predicted without full reasoning. Building on these observations, we present SPAgent, an algorithm-system co-design framework that expands the role of speculation in search agents to reduce latency. Algorithmically, SPAgent introduces a two-phase adaptive speculation mechanism that selectively omits verification when safe. System-wise, a two-level scheduler regulates speculative requests based on engine load to ensure speculation remains beneficial. We implement SPAgent in real-world systems. Across extensive experimental settings, SPAgent achieves up to $1.65\times$ end-to-end speedup while maintaining same or even achieving higher accuracy, enabling practical deployment of multi-step search agents.
- Abstract(参考訳): LLMベースの検索エージェントは高い性能を得るが、各ステップはシリアライズされたLCM推論とツール実行の動作を必要とするため、厳しいレイテンシに悩まされる。
我々は憶測のレンズを通してこのボトルネックを再考する。
従来の予測検証の投機パラダイムはシリアル実行を壊す可能性があるが、そのメリットは、オリジナルのワークロードを完全に保持し、追加の推論オーバーヘッドを追加するため、制限されている。
初期のエージェントのステップは、しばしば単純なエビデンス収集を伴い、正しい行動は完全な推論なしで予測できる。
これらの観測に基づいて,探索エージェントにおける投機の役割を拡大し,レイテンシを低減するアルゴリズム・システム共同設計フレームワークであるSPAgentを提案する。
アルゴリズム的には、SPAgentは安全なときに検証を選択的に省略する2相適応的推測機構を導入している。
システム面では、二段階スケジューラがエンジン負荷に基づいて投機要求を規制し、投機が有益であることを保証する。
我々は現実世界のシステムにSPAgentを実装している。
広範な実験環境の中で、SPAgentは最大$1.65\times$ end-to-endのスピードアップを実現し、同じ状態を維持したり、さらに高い精度を達成したりすることで、マルチステップ検索エージェントの実践的な展開を可能にした。
関連論文リスト
- Reasoning with Confidence: Efficient Verification of LLM Reasoning Steps via Uncertainty Heads [104.9566359759396]
データ駆動の不確実性スコアに基づくステップレベルの推論検証の軽量な代替案を提案する。
本研究は, LLMの内部状態が不確実性を符号化し, 信頼性の高い検証信号として機能することが示唆された。
論文 参考訳(メタデータ) (2025-11-09T03:38:29Z) - Speculative Actions: A Lossless Framework for Faster Agentic Systems [6.708126506152481]
AIエージェントの実行は遅く、トレーニングや評価、デプロイメントを妨げていることが多い。
マイクロプロセッサにおける投機的実行に着想を得て,より高速なモデルを用いて潜在的行動を予測するフレームワークを提案する。
我々は,このフレームワークを3つのエージェント環境 – ゲーム,eコマース,Web検索,オペレーティングシステム環境のための"ロッキー"拡張 – で評価する。
論文 参考訳(メタデータ) (2025-10-05T21:28:11Z) - Intra-request branch orchestration for efficient LLM reasoning [52.68946975865865]
大規模言語モデル(LLM)は、複雑なタスクの正確性を改善するために、推論時推論アルゴリズムにますます依存している。
それまでの作業は、トークンの使用を減らすことを中心に、多くの場合、正確さを犠牲にしつつ、他のレイテンシ要因を見越すことに重点を置いていた。
本稿では,LLMサービスシステムであるDUCHESSについて,予測によって導かれるリクエスト内ブランチオーケストレーションにより,精度を犠牲にすることなく,コストとレイテンシを低減できるシステムを提案する。
論文 参考訳(メタデータ) (2025-09-29T15:52:08Z) - Speeding up Speculative Decoding via Sequential Approximate Verification [7.754712828900729]
投機的復号法 (SD) はLarge Language Models (LLM) を用いた高速推論手法である。
本稿では,SPRINTERを提案する。SPRINTERは,LLMから生成されたトークンが目標のLLMに受け入れられるかどうかを予測するために訓練された,低複雑さの検証器である。
逐次近似検証を行うことで、SPRINTERは目標のLSMによる検証を必要とせず、トークンが受け入れられないと判断された場合にのみ呼び出される。
論文 参考訳(メタデータ) (2025-02-06T23:10:53Z) - Efficient Inference for Large Language Model-based Generative Recommendation [78.38878421030522]
LLM(Large Language Model)ベースの生成レコメンデーションは目覚ましい成功を収めた。
ジェネレーティブレコメンデーションにSD(Speculative Decoding)を適用すると、トップKアイテムを生成する必要があるため、ユニークな課題が提示される。
我々は,厳密なトップK検証の下でトップKアライメントを最適化する AtSpeed-S というアライメントフレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-07T16:23:36Z) - TurboSpec: Closed-loop Speculation Control System for Optimizing LLM Serving Goodput [37.56866491624234]
大規模言語モデル (LLM) システムは、効率的なサービスを実現するために、同時ユーザー要求をバッチ化する。
本稿では,実行環境を自動的にプロファイリングする投機制御システムTurboSpecを提案する。
さまざまなワークロードとハードウェア構成にまたがって、その効果を実証します。
論文 参考訳(メタデータ) (2024-06-20T07:43:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。