論文の概要: Agent Capsules: Quality-Gated Granularity Control for Multi-Agent LLM Pipelines
- arxiv url: http://arxiv.org/abs/2605.00410v1
- Date: Fri, 01 May 2026 05:08:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-04 17:43:28.853008
- Title: Agent Capsules: Quality-Gated Granularity Control for Multi-Agent LLM Pipelines
- Title(参考訳): エージェントカプセル:マルチエージェントLLMパイプラインの品質保証粒度制御
- Authors: Aninda Ray,
- Abstract要約: Agent Capsulesは、マルチエージェントパイプライン実行を経験的品質制約のある最適化問題として扱う適応実行ランタイムである。
制御された負の結果により、マージされた呼び出しにより多くのコンテキストを注入することで圧縮が軽減される。
フレームワークのエスカレーションはしごは、マージプロンプトを書き換えるのではなく、エージェントごとのディスパッチに移行することで品質を回復する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A multi-agent pipeline with N agents typically issues N LLM calls per run. Merging agents into fewer calls (compound execution) promises token savings, but naively merged calls silently degrade quality through tool loss and prompt compression. We present Agent Capsules, an adaptive execution runtime that treats multi-agent pipeline execution as an optimization problem with empirical quality constraints. The runtime instruments coordination overhead per group, scores composition opportunity, selects among three compound execution strategies, and gates every mode switch on rolling-mean output quality. A controlled negative result confirms that injecting more context into a merged call worsens compression rather than relieving it, so the framework's escalation ladder (standard, then two-phase, then sequential) recovers quality by moving toward per-agent dispatch rather than by rewriting merged prompts. On LLM-judged quality, the controller matches a hand-tuned oracle on every measured (model, group, mode) cell: routing compound whenever the oracle would, and reverting to fine whenever quality would fail the floor, without per-model configuration. Against a hand-crafted LangGraph implementation of a 14-agent competitive intelligence pipeline, Agent Capsules uses 51% fewer fine-mode input tokens and 42% fewer compound-mode input tokens, at +0.020 and +0.017 quality respectively. Against a DSPy implementation of a 5-agent due diligence pipeline, the framework uses 19% fewer tokens than uncompiled DSPy at quality parity, and 68% fewer tokens than MIPROv2 at +0.052 quality. Even before compound mode fires, the runtime delivers efficiency through automatic policy resolution, cache-aligned prompts, and topology-aware context injection, matching both hand-tuned and compile-time baselines without training data or per-pipeline engineering.
- Abstract(参考訳): Nエージェントを持つマルチエージェントパイプラインは通常、実行毎にN LLMコールを発行する。
エージェントをより少ない呼び出し(複合実行)にマージすることでトークンのセーブが保証されるが、ツールの損失によってサイレントに品質が低下し、圧縮が促される。
本稿では,マルチエージェントパイプライン実行を経験的品質制約のある最適化問題として扱う適応実行ランタイムであるAgent Capsulesを提案する。
ランタイム機器は、グループごとのオーバヘッドを調整し、コンポジション機会をスコアし、3つの複合実行戦略の中から選択し、ローリング平均出力品質のすべてのモードスイッチをゲートする。
制御された負の結果により、マージされた呼び出しにより多くのコンテキストを注入すると圧縮が軽減されるため、フレームワークのエスカレーションラグ(標準、次に2フェーズ、シーケンシャル)はマージされたプロンプトを書き換えるのではなく、エージェントごとのディスパッチに移動することで品質を回復する。
LLM-judgedの品質では、コントローラは測定されたすべての(モデル、グループ、モード)セル上の手動のオラクルと一致している。
14エージェントの競合インテリジェンスパイプラインを手作りで実装したLangGraphに対して、Agens Capsulesは51%の微細モード入力トークンと42%の複合モード入力トークンを使用しており、それぞれ+0.020と+0.017である。
5エージェントデュディリジェンスパイプラインのDSPy実装に対して、このフレームワークは、未コンパイルのDSPyよりも19%少ないトークンを、+0.052品質でMIPROv2よりも68%少ないトークンを使用する。
複合モードが発火する前であっても、ランタイムは自動ポリシ解決、キャッシュ整列プロンプト、トポロジ対応コンテキストインジェクションを通じて効率を向上し、データやパイプライン単位のエンジニアリングをトレーニングすることなく、手動およびコンパイル時のベースラインを一致させる。
関連論文リスト
- HiveMind: OS-Inspired Scheduling for Concurrent LLM Agent Workloads [0.0]
モチベーションのインシデントでは、11の並列エージェントのうち3つがコネクションリセットとHTTP 502エラーで死亡しました。
HIVEMINDは5つのOSにインスパイアされたスケジューリングプリミティブを適用し,非協調並列実行による障害モードを除去する透過的なHTTPプロキシである。
論文 参考訳(メタデータ) (2026-04-18T18:59:33Z) - Agent Q-Mix: Selecting the Right Action for LLM Multi-Agent Systems through Reinforcement Learning [68.85408801740228]
協調型マルチエージェント強化学習問題としてトポロジ選択を再構成する強化学習フレームワークである textbfAgent Q-Mix を提案する。
提案手法は,Qmix値分解を用いて分散化された通信決定を学習し,各エージェントがラウンドワイド通信グラフを共同生成する一連の通信行動から選択する。
エージェントQ-Mixは,エージェント故障に対して優れたトークン効率とロバスト性を示しながら,既存手法と比較して高い平均精度を達成する。
論文 参考訳(メタデータ) (2026-04-01T00:38:24Z) - SWE-Pruner: Self-Adaptive Context Pruning for Coding Agents [32.69890220986935]
我々は,コーディングエージェントのための自己適応型コンテキストプルーニングフレームワークであるSWE-Prunerを提案する。
SWE-Prunerは、長いコンテキストに対してタスク対応の適応型プルーニングを実行する。
SWE-Bench Verifiedのようなエージェントタスクで23~54%のトークン削減を実現し、LongCodeQAのようなシングルターンタスクで最大14.84倍の圧縮を実現している。
論文 参考訳(メタデータ) (2026-01-23T13:51:59Z) - Beyond Max Tokens: Stealthy Resource Amplification via Tool Calling Chains in LLM Agents [31.789859492703016]
エージェント・ツール通信ループは、Large Language Model (LLM)エージェントにおけるクリティカルアタックサーフェスである。
既存のDoS(DoS)攻撃は、この新しいパラダイムには効果がない。
正常に完了したタスクのヒントのもと、ツール層で機能するステルスで多ターンの経済DoS攻撃を導入する。
論文 参考訳(メタデータ) (2026-01-16T02:47:45Z) - Multi-Agent LLM Orchestration Achieves Deterministic, High-Quality Decision Support for Incident Response [0.0]
大規模言語モデル(LLM)は、本番システムにおけるインシデント応答を加速することを約束する。
しかし、単一エージェントアプローチは曖昧で使用不能なレコメンデーションを生成する。
コンテナ化されたフレームワークであるMyAntFarm.aiを紹介し、マルチエージェントオーケストレーションがインシデント応答の品質を変えることを示す。
論文 参考訳(メタデータ) (2025-11-19T06:06:11Z) - AgentAsk: Multi-Agent Systems Need to Ask [26.13279490836716]
大規模言語モデル(LLM)上に構築されたマルチエージェントシステムは、協調的な分業による問題解決能力の向上を約束する。
我々はAgentAskを提案する。AgentAskは軽量でプラグ・アンド・プレイの明確化モジュールで、すべてのエージェント間メッセージを潜在的な障害点として扱い、エラーの伝播を抑えるのに必要最小限の質問を挿入する。
AgentAskは、公開マルチエージェント実装の精度と堅牢性を継続的に改善し、オーバーヘッドを最小限に抑え、レイテンシと余分なコストを5%以下に抑える。
論文 参考訳(メタデータ) (2025-10-08T22:36:05Z) - Runaway is Ashamed, But Helpful: On the Early-Exit Behavior of Large Language Model-based Agents in Embodied Environments [54.67512489842682]
大規模言語モデル(LLM)は、複雑な実施環境において、強力な計画と意思決定能力を示す。
LLMをベースとしたエージェントの早期退避行動を探究する第一歩を踏み出す。
論文 参考訳(メタデータ) (2025-05-23T08:23:36Z) - SOPBench: Evaluating Language Agents at Following Standard Operating Procedures and Constraints [59.645885492637845]
SOPBenchは、各サービス固有のSOPコードプログラムを実行可能な関数の有向グラフに変換する評価パイプラインである。
提案手法では,各サービス固有のSOPコードプログラムを実行可能関数の有向グラフに変換し,自然言語SOP記述に基づいてこれらの関数を呼び出しなければならない。
我々は18の先行モデルを評価し、上位モデルでさえタスクが困難であることを示す。
論文 参考訳(メタデータ) (2025-03-11T17:53:02Z) - MALT: Improving Reasoning with Multi-Agent LLM Training [67.76186488361685]
MALT(Multi-Agent LLM Training)は、推論プロセスを生成、検証、改善ステップに分割する、新しいポストトレーニング戦略である。
MATH、GSM8K、CSQAでは、MALTは、それぞれ15.66%、7.42%、9.40%の相対的な改善で同じベースラインLLMを上回っている。
論文 参考訳(メタデータ) (2024-12-02T19:30:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。