Fugu-MT 論文翻訳(概要): Reducing Latency of LLM Search Agent via Speculation-based Algorithm-System Co-Design

論文の概要: Reducing Latency of LLM Search Agent via Speculation-based Algorithm-System Co-Design

arxiv url: http://arxiv.org/abs/2511.20048v1
Date: Tue, 25 Nov 2025 08:15:17 GMT
ステータス: 翻訳完了
システム内更新日: 2025-11-26 17:37:04.356815
Title: Reducing Latency of LLM Search Agent via Speculation-based Algorithm-System Co-Design
Title（参考訳）: 推測に基づくアルゴリズム・システム協調設計によるLLM検索エージェントのレイテンシ低減
Authors: Zixiao Huang, Wen Zeng, Tianyu Fu, Tengxuan Liu, Yizhou Sun, Ke Hong, Xinhao Yang, Chengchun Liu, Yan Li, Quanlu Zhang, Guohao Dai, Zhenhua Zhu, Yu Wang,
Abstract要約: LLMベースの検索エージェントは、高いパフォーマンスを実現するが、深刻なレイテンシーに悩まされる。我々は憶測のレンズを通してこのボトルネックを再考する。 SPAgentは,検索エージェントにおける投機の役割を拡大し,レイテンシを低減するアルゴリズム・システム協調設計フレームワークである。
参考スコア（独自算出の注目度）: 35.95362310928356
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: LLM-based search agents achieve strong performance but suffer from severe latency, as each step requires serialized LLM reasoning followed by action of tool execution. We revisit this bottleneck through the lens of speculation. While traditional predict-verify speculation paradigm can break serial execution, its benefit remains limited, as it retains the full original workload and adds extra inference overhead. We observe that early agent steps often involve simple evidence-gathering, where correct actions can often be predicted without full reasoning. Building on these observations, we present SPAgent, an algorithm-system co-design framework that expands the role of speculation in search agents to reduce latency. Algorithmically, SPAgent introduces a two-phase adaptive speculation mechanism that selectively omits verification when safe. System-wise, a two-level scheduler regulates speculative requests based on engine load to ensure speculation remains beneficial. We implement SPAgent in real-world systems. Across extensive experimental settings, SPAgent achieves up to $1.65\times$ end-to-end speedup while maintaining same or even achieving higher accuracy, enabling practical deployment of multi-step search agents.
Abstract（参考訳）: LLMベースの検索エージェントは高い性能を得るが、各ステップはシリアライズされたLCM推論とツール実行の動作を必要とするため、厳しいレイテンシに悩まされる。我々は憶測のレンズを通してこのボトルネックを再考する。従来の予測検証の投機パラダイムはシリアル実行を壊す可能性があるが、そのメリットは、オリジナルのワークロードを完全に保持し、追加の推論オーバーヘッドを追加するため、制限されている。初期のエージェントのステップは、しばしば単純なエビデンス収集を伴い、正しい行動は完全な推論なしで予測できる。これらの観測に基づいて,探索エージェントにおける投機の役割を拡大し,レイテンシを低減するアルゴリズム・システム共同設計フレームワークであるSPAgentを提案する。アルゴリズム的には、SPAgentは安全なときに検証を選択的に省略する2相適応的推測機構を導入している。システム面では、二段階スケジューラがエンジン負荷に基づいて投機要求を規制し、投機が有益であることを保証する。我々は現実世界のシステムにSPAgentを実装している。広範な実験環境の中で、SPAgentは最大$1.65\times$ end-to-endのスピードアップを実現し、同じ状態を維持したり、さらに高い精度を達成したりすることで、マルチステップ検索エージェントの実践的な展開を可能にした。

関連論文リスト

Agentic Spatio-Temporal Grounding via Collaborative Reasoning [80.83158605034465]
時間的ビデオグラウンド(Temporal Video Grounding)は、テキストクエリが与えられたビデオ内の対象物または人の時間的チューブを検索することを目的としている。本稿では,STVGの課題に対して,オープンワールドおよびトレーニングフリーシナリオに向けたエージェント時空間グラウンド(ASTG)フレームワークを提案する。具体的には、現代多言語モデル(MLLM)を活用した2つの特殊エージェントSRA(Spatial Reasoning Agent)とTRA(Temporal Reasoning Agent)である。人気のあるベンチマークの実験は、既存の弱教師付きおよびゼロショットアプローチをマージンで上回る提案手法の優位性を実証している。
論文参考訳（メタデータ） (2026-02-10T10:16:27Z)
DLLM Agent: See Farther, Run Faster [94.74432470237817]
拡散大言語モデル(DLLM)は、自己回帰(AR)デコーディングの代替として、魅力的な効率とモデリング特性を持つ。我々は、DLLMとARのバックボーンを同一のエージェントワークフロー内でインスタンス化することで、制御された環境でこれを研究する。 DLLMエージェントはARエージェントよりも平均30%以上速く、場合によっては8倍のスピードアップを達成している。
論文参考訳（メタデータ） (2026-02-07T09:01:18Z)
DLLM-Searcher: Adapting Diffusion Large Language Model for Search Agents [31.08047797205678]
拡散大言語モデル(dLLLLM)は、本質的に並列な復号化機構とフレキシブルな生成パラダイムによって実現され、独特な効率性を示す。サーチエージェントの急速な進歩にもかかわらず、その実践的展開は、1)チャレンジと呼ばれる基本的な制限によって制限される: マルチラウンド推論、ツール呼び出し、ツール応答の連続実行。本稿では,dLLMに基づく検索エージェントの最適化フレームワークを提案する。
論文参考訳（メタデータ） (2026-02-03T09:12:08Z)
Accelerating Multi-modal LLM Gaming Performance via Input Prediction and Mishit Correction [4.323124094061299]
リアルタイムのシーケンシャル制御エージェントは、しばしば推論遅延によってボトルネックとなる。本稿では,TD-MPC2を用いたモデルベース制御に投機的実行の予測理論を適応させるフレームワークを提案する。提案手法は,500から282までの計画推測数を削減し,エンドツーエンドのステップ遅延を25%改善し,リターン率をわずか7.1%に抑えた強い制御性能を維持した。
論文参考訳（メタデータ） (2025-12-19T05:34:52Z)
Reasoning with Confidence: Efficient Verification of LLM Reasoning Steps via Uncertainty Heads [104.9566359759396]
データ駆動の不確実性スコアに基づくステップレベルの推論検証の軽量な代替案を提案する。本研究は, LLMの内部状態が不確実性を符号化し, 信頼性の高い検証信号として機能することが示唆された。
論文参考訳（メタデータ） (2025-11-09T03:38:29Z)
Speculative Actions: A Lossless Framework for Faster Agentic Systems [6.708126506152481]
AIエージェントの実行は遅く、トレーニングや評価、デプロイメントを妨げていることが多い。マイクロプロセッサにおける投機的実行に着想を得て,より高速なモデルを用いて潜在的行動を予測するフレームワークを提案する。我々は,このフレームワークを3つのエージェント環境 – ゲーム,eコマース,Web検索,オペレーティングシステム環境のための"ロッキー"拡張 – で評価する。
論文参考訳（メタデータ） (2025-10-05T21:28:11Z)
Intra-request branch orchestration for efficient LLM reasoning [52.68946975865865]
大規模言語モデル(LLM)は、複雑なタスクの正確性を改善するために、推論時推論アルゴリズムにますます依存している。それまでの作業は、トークンの使用を減らすことを中心に、多くの場合、正確さを犠牲にしつつ、他のレイテンシ要因を見越すことに重点を置いていた。本稿では,LLMサービスシステムであるDUCHESSについて,予測によって導かれるリクエスト内ブランチオーケストレーションにより,精度を犠牲にすることなく,コストとレイテンシを低減できるシステムを提案する。
論文参考訳（メタデータ） (2025-09-29T15:52:08Z)
$\ exttt{SPECS}$: Faster Test-Time Scaling through Speculative Drafts [55.231201692232894]
$textttSPECS$は、投機的デコードにインスパイアされた遅延対応のテスト時間スケーリングメソッドである。我々の結果は、$textttSPECS$matchはビームサーチの精度を上回り、最大$sim$19.1%のレイテンシを削減していることを示している。
論文参考訳（メタデータ） (2025-06-15T05:50:05Z)
Speeding up Speculative Decoding via Sequential Approximate Verification [7.754712828900729]
投機的復号法 (SD) はLarge Language Models (LLM) を用いた高速推論手法である。本稿では,SPRINTERを提案する。SPRINTERは,LLMから生成されたトークンが目標のLLMに受け入れられるかどうかを予測するために訓練された,低複雑さの検証器である。逐次近似検証を行うことで、SPRINTERは目標のLSMによる検証を必要とせず、トークンが受け入れられないと判断された場合にのみ呼び出される。
論文参考訳（メタデータ） (2025-02-06T23:10:53Z)
Efficient Inference for Large Language Model-based Generative Recommendation [78.38878421030522]
LLM(Large Language Model)ベースの生成レコメンデーションは目覚ましい成功を収めた。ジェネレーティブレコメンデーションにSD(Speculative Decoding)を適用すると、トップKアイテムを生成する必要があるため、ユニークな課題が提示される。我々は,厳密なトップK検証の下でトップKアライメントを最適化する AtSpeed-S というアライメントフレームワークを提案する。
論文参考訳（メタデータ） (2024-10-07T16:23:36Z)
TurboSpec: Closed-loop Speculation Control System for Optimizing LLM Serving Goodput [37.56866491624234]
大規模言語モデル (LLM) システムは、効率的なサービスを実現するために、同時ユーザー要求をバッチ化する。本稿では,実行環境を自動的にプロファイリングする投機制御システムTurboSpecを提案する。さまざまなワークロードとハードウェア構成にまたがって、その効果を実証します。
論文参考訳（メタデータ） (2024-06-20T07:43:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。