論文の概要: A Policy-Driven Runtime Layer for Agentic LLM Serving
- arxiv url: http://arxiv.org/abs/2605.27744v1
- Date: Tue, 26 May 2026 22:38:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:55.586395
- Title: A Policy-Driven Runtime Layer for Agentic LLM Serving
- Title(参考訳): エージェントLDM実行のためのポリシー駆動実行層
- Authors: Rui Zhang, Chaeeun Kim, Liting Hu,
- Abstract要約: マルチエージェント LLM システムはプロダクションワークロードの主流となっているが、サービススタックは構築されなかった。
このシームは、ポイント修正よりもアーキテクチャの変更によって対処されるのが最善である、と私たちは主張する。
5つの実マルチエージェントワークロードの予備的な結果は、+13から+37ppキャッシュヒットレートリフト、12%から29%低い平均TTFT、6%から14%高いスループットを示す。
- 参考スコア(独自算出の注目度): 6.975319765760388
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-agent LLM systems have become the dominant production workload, but the serving stack was not built for them. The agent framework above knows agent identities, role, schemas, and dispatch structure but never sees an engine-level event; the serving engine below sees every event but knows nothing about agents. A surprising number of cross-cutting policies depend on both: prefix caching, batch shaping, speculative execution, fairness, tool-result memoization, safety enforcement, and more. Each lives in the seam between the two layers and is currently solved by a one-off patch into one neighbor or the other. We argue this seam is best addressed by an architectural change rather than point fixes: insert a third tier, an agent runtime layer, between the framework and the engine, exposing four primitives (observe, score, predict, act) into which any agent-aware policy plugs, with agent identity as the shared coordinate. We map nine concrete policies onto the layer and validate the abstraction in depth on the one with the largest immediate serving-cost lever: KV caching across sessions, instantiated as CacheSage, which learns the per-workload agent transition matrix online and uses it for survival-based eviction and between-step prefetch. Preliminary results on five real multi-agent workloads show +13 to +37 pp cache hit-rate lift, 12% to 29% lower mean TTFT, and 6% to 14% higher throughput over an unmodified serving stack.
- Abstract(参考訳): マルチエージェント LLM システムはプロダクションワークロードの主流となっているが、サービススタックは構築されなかった。
上記のエージェントフレームワークはエージェントのID、ロール、スキーマ、ディスパッチ構造を知っているが、エンジンレベルのイベントを見ることはない。
驚くほど多くの横断的なポリシーは、プレフィックスキャッシング、バッチシェーピング、投機的実行、公正性、ツール-Resultのメモ化、安全執行など、両方に依存します。
それぞれの層は2つの層の間にあり、現在は1対1のパッチで隣同士に解決されている。
第三層、エージェントランタイム層をフレームワークとエンジンの間に挿入し、4つのプリミティブ(オブザーブ、スコア、予測、アクション)を公開し、エージェントが認識するポリシープラグインが共有座標としてエージェントアイデンティティを持つ。
我々は、9つの具体的なポリシーをレイヤにマップし、最も大きな即時サービスコストレバーの抽象化を検証します。セッション間でKVキャッシュを行い、CacheSageとしてインスタンス化します。
5つの実マルチエージェントワークロードの予備的な結果は、+13から+37ppキャッシュヒットレートリフト、12%から29%低い平均TTFT、6%から14%高いスループットを示す。
関連論文リスト
- Multi-agent Collaboration with State Management [21.19345862774123]
複数のエージェントが同時に共有を編集すると、その変更は静かに衝突し、一貫性のないビューは統合の失敗につながる。
既存のマルチエージェントシステムはワークスペース分離(エージェント毎に1つのgitワークツリーなど)を通じてこの問題に対処している。
マルチエージェントコラボレーションのためのSTORM,すなわちSTate-Oriented Managementを提案する。
論文 参考訳(メタデータ) (2026-05-19T23:45:33Z) - Terminus-4B: Can a Smaller Model Replace Frontier LLMs at Agentic Execution Tasks? [3.636948650519796]
スモール言語モデル(SLM)はエージェント端末実行のタスクにおいてフロンティアモデルに匹敵する性能を達成できる。
教師付ファインタニング(SFT)と強化学習(RL)による訓練後Qwen3-4BモデルであるTerminus-4Bを提案する。
Terminus-4Bは、No Subagentベースラインと比較して、メインエージェントのトークン使用量を最大30%削減できることがわかった。
論文 参考訳(メタデータ) (2026-05-04T22:24:24Z) - AgenticCache: Cache-Driven Asynchronous Planning for Embodied AI Agents [3.275342475988451]
実施中のAIエージェントは、計画のための大規模言語モデル(LLM)にますます依存しているが、ステップごとのLSMコールは、深刻なレイテンシとコストを課している。
AgenticCacheは、キャッシュされたプランを再利用し、ステップごとのLCM呼び出しを避けるためのフレームワークです。
AgenticCacheは12構成の平均的なタスク成功率を22%改善し、シミュレーション遅延を65%削減し、トークン使用率を50%削減する。
論文 参考訳(メタデータ) (2026-04-27T04:51:15Z) - OrgAgent: Organize Your Multi-Agent System like a Company [75.47076168155817]
企業スタイルの階層型マルチエージェントフレームワークであるOrgAgentを紹介します。
企業スタイルの階層で組織されたマルチエージェントシステムは、一般的に他の組織構造よりも優れています。
論文 参考訳(メタデータ) (2026-04-01T15:21:14Z) - Anemoi: A Semi-Centralized Multi-agent System Based on Agent-to-Agent Communication MCP server from Coral Protocol [0.7288110873705294]
Anemoi は、Coral Protocol の Agent-to-Agent (A2A) 通信 MCP サーバ上に構築された、半集中型の MAS である。
従来のデザインとは異なり、Anemoiは構造的かつ直接的なエージェント間コラボレーションを可能にし、すべてのエージェントが進捗を監視し、結果を評価し、ボトルネックを特定し、リアルタイムに改善を提案する。
論文 参考訳(メタデータ) (2025-08-23T15:45:10Z) - PC-Agent: A Hierarchical Multi-Agent Collaboration Framework for Complex Task Automation on PC [98.82146219495792]
本稿では,PC-Agentという階層型エージェントフレームワークを提案する。
認識の観点からは,現在のMLLMのスクリーンショットコンテンツに対する認識能力の不十分さを克服するために,アクティブ知覚モジュール(APM)を考案する。
意思決定の観点から、複雑なユーザ命令や相互依存サブタスクをより効果的に扱うために、階層的なマルチエージェント協調アーキテクチャを提案する。
論文 参考訳(メタデータ) (2025-02-20T05:41:55Z) - On the Resilience of LLM-Based Multi-Agent Collaboration with Faulty Agents [58.79302663733703]
大規模言語モデルに基づくマルチエージェントシステムは、専門家エージェントの協力により、様々なタスクにまたがる優れた能力を示している。
不器用なエージェントや悪意のあるエージェントが与える影響 - システム全体のパフォーマンスにおいて、頻繁にタスクでエラーを犯すものは、いまだに過小評価されていない。
本稿では,下流タスクにおける障害要因下での各種システム構造のレジリエンスについて検討する。
論文 参考訳(メタデータ) (2024-08-02T03:25:20Z) - MACRPO: Multi-Agent Cooperative Recurrent Policy Optimization [17.825845543579195]
我々はtextitMulti-Agent Cooperative Recurrent Proximal Policy Optimization (MACRPO) と呼ばれる新しいマルチエージェントアクター批判手法を提案する。
我々は、批評家のネットワークアーキテクチャにおいてリカレント・レイヤを使用し、メタ・トラジェクトリを使用してリカレント・レイヤをトレーニングする新しいフレームワークを提案する。
連続的および離散的な行動空間を持つ3つの挑戦的マルチエージェント環境において,本アルゴリズムの評価を行った。
論文 参考訳(メタデータ) (2021-09-02T12:43:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。