論文の概要: Stateful Inference for Low-Latency Multi-Agent Tool Calling
- arxiv url: http://arxiv.org/abs/2605.26289v1
- Date: Mon, 25 May 2026 19:27:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:41.382817
- Title: Stateful Inference for Low-Latency Multi-Agent Tool Calling
- Title(参考訳): 低レイテンシマルチエージェントツールコールのためのステートフル推論
- Authors: Victor Norgren,
- Abstract要約: LLMベースのシステムでは,マルチエージェント・ツール・コールが主要なインタラクション・パターンになりつつある。
本稿では,従来のサービスにおける$O(n_t)=ターン当たりのコストを$O(_t)$デルタのみのコストに変換する,ステートフルな推論アーキテクチャを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-agent tool calling is becoming the dominant interaction pattern for LLM-based systems, yet existing inference frameworks treat each tool call as an independent request, re-processing the entire conversation from scratch even though 85-95% of the prompt is unchanged from the previous turn. We present a stateful inference architecture that converts the $O(n_t)$ per-turn cost of conventional serving into an $O(Δ_t)$ delta-only cost: a persistent KV cache lives across turns and advances by ingesting only the new tokens, while a radix prefix cache extends this across interleaved multi-agent traffic and a prompt-lookup speculative decoder accelerates structured output. Against vLLM and SGLang on novel, fully-generated workloads, the reference implementation is $2.1\times$ faster per turn on a 6-turn agentic workflow and $4.2\times$ on the median turn of a 35-turn one, halving end-to-end wall time. The advantage comes from stateful reuse and speculation, not caching.
- Abstract(参考訳): LLMベースのシステムでは,マルチエージェントツールコールが主要なインタラクションパターンになりつつあるが,既存の推論フレームワークでは各ツールコールを独立した要求として扱い,85~95%のプロンプトが前回と変わらないにも関わらず,会話全体をスクラッチから再処理している。
我々は,従来のサービスである$O(n_t)$ per-turnコストを$O(Δ_t)$ delta-onlyコストに変換するステートフル推論アーキテクチャを提案する。
vLLMとSGLangが完全に生成された新しいワークロードに対して、リファレンス実装は、6ターンのエージェントワークフローを1ターンあたり2.1\times$で、35ターンの中央のターンで4.2\times$で、エンドツーエンドの壁時間を半減する。
利点は、キャッシュではなく、ステートフルな再利用と憶測にある。
関連論文リスト
- Speculative Interaction Agents: Building Real-Time Agents with Asynchronous I/O and Speculative Tool Calling [64.40340291543971]
我々は,小さなエッジスケールモデルとのリアルタイムインタラクションを実現するための投機的インタラクションエージェントを提案する。
また、ストリーミング入力と非同期応答を処理するためにモデルを適応させるクロックベースのトレーニング手法を提案する。
このアプローチは、Qwen2.5-3B-InstructとLlama-3.2-3B-Instructモデルを複数のツール呼び出しベンチマークで1.6-2.2$times$ Speedupを提供する。
論文 参考訳(メタデータ) (2026-05-13T11:20:52Z) - Dual-Pool Token-Budget Routing for Cost-Efficient and Reliable LLM Serving [9.457255218406333]
プロダクションvLLMフリートは通常、最悪のコンテキスト長に対して各インスタンスをプロビジョニングする。
実際には、80-95%のリクエストは短いが、長いコンテキストに最適化された設定の下で提供される。
本稿では,同種艦隊を2つの専用プールに分割する軽量ディスパッチ機構であるデュアルプールトークン予算ルーティングを提案する。
論文 参考訳(メタデータ) (2026-04-09T10:47:20Z) - Agentic Compilation: Mitigating the LLM Rerun Crisis for Minimized-Inference-Cost Web Automation [0.0]
Rerun Crisis: トークン支出の線形成長と,実行頻度に対するAPI遅延を特徴付ける。
ブラウザ実行から推論を分離するCompile-and-Executeアーキテクチャを提案する。
論文 参考訳(メタデータ) (2026-04-08T14:22:37Z) - Large Language Models as Optimization Controllers: Adaptive Continuation for SIMP Topology Optimization [4.365822392824561]
本稿では,SIMP最適化のためのオンラインコントローラとして,大規模言語モデルが機能するフレームワークを提案する。
ハードグレーネスゲートは未熟なバイナライゼーションを防止し、メタ最適化ループは第2パスを使用してエージェントの呼び出し周波数を調整する。
エージェントはすべてのベンチマークの最終的なコンプライアンスを達成する:$5.7%$から$-1%、すべてのソリューションが完全にバイナリである。
論文 参考訳(メタデータ) (2026-03-26T07:14:31Z) - Beyond Max Tokens: Stealthy Resource Amplification via Tool Calling Chains in LLM Agents [31.789859492703016]
エージェント・ツール通信ループは、Large Language Model (LLM)エージェントにおけるクリティカルアタックサーフェスである。
既存のDoS(DoS)攻撃は、この新しいパラダイムには効果がない。
正常に完了したタスクのヒントのもと、ツール層で機能するステルスで多ターンの経済DoS攻撃を導入する。
論文 参考訳(メタデータ) (2026-01-16T02:47:45Z) - QuickSilver -- Speeding up LLM Inference through Dynamic Token Halting, KV Skipping, Contextual Token Fusion, and Adaptive Matryoshka Quantization [7.188043811595143]
推論は、大きな言語モデルにおける遅延とエネルギー消費の大部分を占める。
QuickSilverはモジュール型のトークンレベルのフレームワークで、モデルウェイトや構造を変更することなく、推論時のセマンティックアダプティビティを実現する。
論文 参考訳(メタデータ) (2025-06-27T17:10:32Z) - DASA: Delay-Adaptive Multi-Agent Stochastic Approximation [64.32538247395627]
我々は,N$エージェントが並列に動作し,中央サーバと通信することで,一般的な近似問題を高速化することを目的とした設定を考える。
遅延とストラグラーの効果を軽減するために,マルチエージェント近似のための遅延適応アルゴリズムである textttDASA を提案する。
論文 参考訳(メタデータ) (2024-03-25T22:49:56Z) - HiRE: High Recall Approximate Top-$k$ Estimation for Efficient LLM
Inference [68.59839755875252]
HiREは2つの新しいコンポーネントから構成される: (i) (i) (i) (i) (i) (i) (i) (i) (i) (i) (ii) DA-TOP-$k$: 効率的なマルチデバイス近似トップ-k$演算子) (i) (i) (i) (i) (i) (i) (i) DA-TOP-$k$演算子) 。
我々は、10億のパラメータモデルにおいて、HiREがソフトマックスとフィードフォワード層の両方に適用され、ほぼ一致した事前学習と下流の精度を実現し、1台のTPUv5eデバイスで1.47Times$の推論遅延を高速化することを示した。
論文 参考訳(メタデータ) (2024-02-14T18:04:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。