論文の概要: AgenTracer: Who Is Inducing Failure in the LLM Agentic Systems?
- arxiv url: http://arxiv.org/abs/2509.03312v1
- Date: Wed, 03 Sep 2025 13:42:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 21:40:46.533352
- Title: AgenTracer: Who Is Inducing Failure in the LLM Agentic Systems?
- Title(参考訳): AgenTracer: LLMエージェントシステムで障害を起こすのは誰か?
- Authors: Guibin Zhang, Junhao Wang, Junjie Chen, Wangchunshu Zhou, Kun Wang, Shuicheng Yan,
- Abstract要約: AgenTracer-8Bは、マルチグラニュラ強化学習で訓練された軽量障害トレーサである。
Who&Whenベンチマークでは、AgenTracer-8BはGemini-2.5-ProやClaude-4-Sonnetのような巨大なLLMを最大18.18%上回っている。
AgenTracer-8BはMetaGPTやMAASのような市販のマルチエージェントシステムに4.8-14.2%の性能向上をもたらす。
- 参考スコア(独自算出の注目度): 71.21547572568655
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Model (LLM)-based agentic systems, often comprising multiple models, complex tool invocations, and orchestration protocols, substantially outperform monolithic agents. Yet this very sophistication amplifies their fragility, making them more prone to system failure. Pinpointing the specific agent or step responsible for an error within long execution traces defines the task of agentic system failure attribution. Current state-of-the-art reasoning LLMs, however, remain strikingly inadequate for this challenge, with accuracy generally below 10%. To address this gap, we propose AgenTracer, the first automated framework for annotating failed multi-agent trajectories via counterfactual replay and programmed fault injection, producing the curated dataset TracerTraj. Leveraging this resource, we develop AgenTracer-8B, a lightweight failure tracer trained with multi-granular reinforcement learning, capable of efficiently diagnosing errors in verbose multi-agent interactions. On the Who&When benchmark, AgenTracer-8B outperforms giant proprietary LLMs like Gemini-2.5-Pro and Claude-4-Sonnet by up to 18.18%, setting a new standard in LLM agentic failure attribution. More importantly, AgenTracer-8B delivers actionable feedback to off-the-shelf multi-agent systems like MetaGPT and MaAS with 4.8-14.2% performance gains, empowering self-correcting and self-evolving agentic AI.
- Abstract(参考訳): 大規模言語モデル(LLM)ベースのエージェントシステムは、複数のモデル、複雑なツール呼び出し、オーケストレーションプロトコルから構成されることが多く、モノリシックなエージェントよりもはるかに優れています。
しかし、この高度化によって、その脆弱さが増幅され、システム障害がより難しくなります。
長い実行トレース内でエラーの原因となる特定のエージェントやステップをピンポイントすることで、エージェントシステム障害の原因となるタスクを定義します。
しかし、現在の最先端の推論 LLM は、この課題に対して驚くほど不十分であり、一般的には10%以下である。
このギャップに対処するために、我々はAgenTracerを提案する。AgenTracerは、失敗するマルチエージェントトラジェクトリを、反ファクトリプレイとプログラムされたフォールトインジェクションによってアノテートする最初の自動化フレームワークで、キュレートされたデータセットTracerTrajを生成する。
このリソースを活用することで、冗長なマルチエージェントインタラクションにおけるエラーを効率的に診断できる、多粒性強化学習で訓練された軽量障害トレーサであるAgenTracer-8Bを開発した。
Who&Whenのベンチマークでは、AgenTracer-8BはGemini-2.5-ProやClaude-4-Sonnetのような巨大なLLMを最大18.18%上回り、LLMのエージェント障害属性に新たな標準を設定した。
さらに重要なのは、AgenTracer-8BはMetaGPTやMAASといった市販のマルチエージェントシステムに対して4.8-14.2%のパフォーマンス向上を実現し、自己修正と自己進化型エージェントAIの強化を実現していることだ。
関連論文リスト
- AgentSight: System-Level Observability for AI Agents Using eBPF [10.37440633887049]
既存のツールは、エージェントの高レベルな意図(LSMプロンプトを介して)または低レベルな行動(例えば、システムコール)を観察するが、これら2つのビューを関連付けることはできない。
AgentOpsはハイブリッドアプローチを使用して,このセマンティックギャップをブリッジする,AgentOpsオブザーバビリティフレームワークです。
AgentSightはTLS暗号化されたLLMトラフィックをインターセプトしてセマンティックインテントを抽出し、カーネルイベントを監視してシステム全体の効果を観察し、これら2つのストリームをプロセス境界を越えて因果的に関連付ける。
論文 参考訳(メタデータ) (2025-08-02T01:43:39Z) - Which Agent Causes Task Failures and When? On Automated Failure Attribution of LLM Multi-Agent Systems [50.29939179830491]
LLMマルチエージェントシステムにおける障害帰属は、まだ調査が過小評価されており、労働集約的である。
本稿では,3つの自動故障帰属手法の開発と評価を行い,その欠点と欠点を要約する。
最良の方法は、障害に応答するエージェントを特定する際に53.5%の精度を達成するが、故障の特定には14.2%しか役に立たない。
論文 参考訳(メタデータ) (2025-04-30T23:09:44Z) - MALT: Improving Reasoning with Multi-Agent LLM Training [66.9481561915524]
MALT(Multi-Agent LLM Training)は、推論プロセスを生成、検証、改善ステップに分割する、新しいポストトレーニング戦略である。
MATH、GSM8K、CSQAでは、MALTは、それぞれ15.66%、7.42%、9.40%の相対的な改善で同じベースラインLLMを上回っている。
論文 参考訳(メタデータ) (2024-12-02T19:30:36Z) - AgentMonitor: A Plug-and-Play Framework for Predictive and Secure Multi-Agent Systems [43.333567687032904]
AgentMonitorはエージェントレベルで統合されたフレームワークで、インプットとアウトプットをキャプチャし、回帰モデルをトレーニングしてタスクのパフォーマンスを予測する統計に変換する。
さらに、悪意のあるエージェントによるセキュリティリスクに対処し、ネガティブな影響を軽減し、MASセキュリティを強化するために、リアルタイムの修正を適用することができる。
論文 参考訳(メタデータ) (2024-08-27T11:24:38Z) - DS-Agent: Automated Data Science by Empowering Large Language Models with Case-Based Reasoning [56.887047551101574]
大規模言語モデル(LLM)エージェントとケースベース推論(CBR)を利用した新しいフレームワークであるDS-Agentを提案する。
開発段階では、DS-AgentはCBRフレームワークに従い、自動イテレーションパイプラインを構築する。
デプロイメントの段階では、DS-Agentは、シンプルなCBRパラダイムで低リソースのデプロイメントステージを実装し、LCMの基本能力に対する需要を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-27T12:26:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。