論文の概要: TraceSIR: A Multi-Agent Framework for Structured Analysis and Reporting of Agentic Execution Traces
- arxiv url: http://arxiv.org/abs/2603.00623v1
- Date: Sat, 28 Feb 2026 12:33:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.297176
- Title: TraceSIR: A Multi-Agent Framework for Structured Analysis and Reporting of Agentic Execution Traces
- Title(参考訳): TraceSIR: エージェント実行トレースの構造解析とレポートのためのマルチエージェントフレームワーク
- Authors: Shu-Xun Yang, Cunxiang Wang, Haoke Zhang, Wenbo Yu, Lindong Wu, Jiayi Gui, Dayong Yang, Yukuo Cen, Zhuoer Feng, Bosi Wen, Yidong Wang, Lucen Zhong, Jiamin Ren, Linfeng Zhang, Jie Tang,
- Abstract要約: 本稿では,エージェント実行トレースの構造化解析と報告を行うフレームワークであるTraceSIRを提案する。
TraceSIRはStructureAgent、InsightAgent、ReportAgentの3つの特殊エージェントをコーディネートする。
実験により、TraceSIRは一貫して一貫性があり、情報的で、行動可能なレポートを生成することが示された。
- 参考スコア(独自算出の注目度): 32.4073751390339
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Agentic systems augment large language models with external tools and iterative decision making, enabling complex tasks such as deep research, function calling, and coding. However, their long and intricate execution traces make failure diagnosis and root cause analysis extremely challenging. Manual inspection does not scale, while directly applying LLMs to raw traces is hindered by input length limits and unreliable reasoning. Focusing solely on final task outcomes further discards critical behavioral information required for accurate issue localization. To address these issues, we propose TraceSIR, a multi-agent framework for structured analysis and reporting of agentic execution traces. TraceSIR coordinates three specialized agents: (1) StructureAgent, which introduces a novel abstraction format, TraceFormat, to compress execution traces while preserving essential behavioral information; (2) InsightAgent, which performs fine-grained diagnosis including issue localization, root cause analysis, and optimization suggestions; (3) ReportAgent, which aggregates insights across task instances and generates comprehensive analysis reports. To evaluate TraceSIR, we construct TraceBench, covering three real-world agentic scenarios, and introduce ReportEval, an evaluation protocol for assessing the quality and usability of analysis reports aligned with industry needs. Experiments show that TraceSIR consistently produces coherent, informative, and actionable reports, significantly outperforming existing approaches across all evaluation dimensions. Our project and video are publicly available at https://github.com/SHU-XUN/TraceSIR.
- Abstract(参考訳): エージェントシステムは、外部ツールと反復的な意思決定で大きな言語モデルを拡張し、ディープリサーチ、関数呼び出し、コーディングといった複雑なタスクを可能にする。
しかし、その長く複雑な実行トレースは、失敗の診断と根本原因分析を極めて困難にしている。
手動検査はスケールしないが、LLMを生のトレースに直接適用することは、入力長制限と信頼性の低い推論によって妨げられる。
最終作業結果のみに焦点をあてることで、正確な課題ローカライゼーションに必要な重要な行動情報が破棄される。
これらの問題に対処するために,エージェント実行トレースの構造化解析とレポートのためのマルチエージェントフレームワークであるTraceSIRを提案する。
TraceSIRは,(1)新しい抽象形式であるTraceFormatを導入し,本質的な行動情報を保持しつつ,実行トレースを圧縮するStructureAgent,(2)問題ローカライゼーション,根本原因分析,最適化提案などのきめ細かい診断を行うInsightAgent,(3)タスクインスタンス全体で洞察を集約し,包括的な分析レポートを生成するReportAgentの3つの特殊エージェントをコーディネートする。
TraceSIRを評価するために、TraceBenchを構築し、3つの現実世界のエージェントシナリオをカバーし、業界のニーズに沿った分析レポートの品質とユーザビリティを評価するための評価プロトコルReportEvalを導入する。
実験により、TraceSIRは一貫性があり、情報的で、行動可能なレポートを一貫して生成し、すべての評価次元において既存のアプローチよりも大幅に優れていることが示された。
私たちのプロジェクトとビデオはhttps://github.com/SHU-XUN/TraceSIR.comで公開されています。
関連論文リスト
- Agentic Observability: Automated Alert Triage for Adobe E-Commerce [0.0]
本稿では,Adobeのeコマースインフラ内に展開されるエージェント可観測性フレームワークについて述べる。
このフレームワークは、ReActパラダイムを使用して、自動で警告トリアージを実行する。
以上の結果から,エージェントAIは三重化遅延のオーダー・オブ・マグニチュード低減と,分解能のステップ・チェンジを可能にした。
論文 参考訳(メタデータ) (2026-01-31T20:20:02Z) - The Why Behind the Action: Unveiling Internal Drivers via Agentic Attribution [63.61358761489141]
LLM(Large Language Model)ベースのエージェントは、カスタマーサービス、Webナビゲーション、ソフトウェアエンジニアリングといった現実世界のアプリケーションで広く使われている。
本稿では,タスク結果に関係なく,エージェントの動作を駆動する内部要因を識別する,テキスト汎用エージェント属性のための新しいフレームワークを提案する。
標準ツールの使用やメモリ誘起バイアスのような微妙な信頼性リスクなど、さまざまなエージェントシナリオでフレームワークを検証する。
論文 参考訳(メタデータ) (2026-01-21T15:22:21Z) - TAAF: A Trace Abstraction and Analysis Framework Synergizing Knowledge Graphs and LLMs [3.2839783281320085]
本稿では,TAAF(Trace Abstraction and Analysis Framework)について紹介する。
LLMは、クエリ固有のサブグラフを解釈して自然言語の質問に答え、手動検査の必要性を減らす。
実験の結果、TAAFは解答精度を最大31.2%向上させ、特にマルチホップおよび因果推論タスクにおいて改善した。
論文 参考訳(メタデータ) (2026-01-06T01:04:05Z) - PRInTS: Reward Modeling for Long-Horizon Information Seeking [74.14496236655911]
PRInTS(PRInTS)は、二重機能で訓練された生成型PRMである。
PRInTSは,オープンソースモデルと特殊エージェントの情報検索能力を向上させる。
論文 参考訳(メタデータ) (2025-11-24T17:09:43Z) - Understanding Code Agent Behaviour: An Empirical Study of Success and Failure Trajectories [10.751728274263536]
本稿では,エージェントのトラジェクトリ,すなわちソフトウェア問題の解決に際し,エージェントが行うステップを捉えた実行トレースについて,実証的研究を行う。
我々は、SWE-Benchベンチマークで、最先端の3つのコードエージェント(OpenHands、SWE-agent、Prometheus)の軌跡を分析し、成功と失敗の両方について検討した。
論文 参考訳(メタデータ) (2025-10-31T18:58:13Z) - AgentRouter: A Knowledge-Graph-Guided LLM Router for Collaborative Multi-Agent Question Answering [51.07491603393163]
tAgentは知識グラフ誘導ルーティング問題としてマルチエージェントQAを定式化するフレームワークである。
エージェントアウトプットのソフトな監督と重み付けされた集約を活用することで、エージェントは多様なエージェントの相補的な強みを捉える、原則化された協調スキームを学ぶ。
論文 参考訳(メタデータ) (2025-10-06T23:20:49Z) - MCP-Orchestrated Multi-Agent System for Automated Disinformation Detection [84.75972919995398]
本稿では,関係抽出を用いてニュース記事の偽情報を検出するマルチエージェントシステムを提案する。
提案したエージェントAIシステムは、(i)機械学習エージェント(ロジスティック回帰)、(ii)Wikipedia知識チェックエージェント、(iv)Webスクラッドデータアナライザの4つのエージェントを組み合わせる。
その結果、マルチエージェントアンサンブルはF1スコア0.964で95.3%の精度を達成し、個々のエージェントや従来のアプローチよりも大幅に優れていた。
論文 参考訳(メタデータ) (2025-08-13T19:14:48Z) - AgentArmor: Enforcing Program Analysis on Agent Runtime Trace to Defend Against Prompt Injection [14.522205401511727]
大きな言語モデル(LLM)エージェントは、自然言語推論と外部ツールの実行を組み合わせることで、さまざまな問題を解決するための強力な新しいパラダイムを提供する。
本研究では,エージェントランタイムトレースを解析可能なセマンティクスを用いた構造化プログラムとして扱う新しい知見を提案する。
本稿では,エージェントトレースをグラフ中間表現に基づく構造化プログラム依存表現に変換するプログラム解析フレームワークであるAgentArmorを提案する。
論文 参考訳(メタデータ) (2025-08-02T07:59:34Z) - Deep Research Agents: A Systematic Examination And Roadmap [109.53237992384872]
Deep Research (DR) エージェントは複雑な多ターン情報研究タスクに取り組むように設計されている。
本稿では,DRエージェントを構成する基礎技術とアーキテクチャコンポーネントの詳細な分析を行う。
論文 参考訳(メタデータ) (2025-06-22T16:52:48Z) - ThinkGeo: Evaluating Tool-Augmented Agents for Remote Sensing Tasks [64.86209459039313]
ThinkGeoは、構造化ツールの使用とマルチステップ計画を通じて、リモートセンシングタスクにおけるツール拡張エージェントを評価するために設計されたエージェントベンチマークである。
我々はReActスタイルの対話ループを実装し,486 個の構造化エージェントタスク上でのオープンソース LLM とクローズドソース LLM の両方を1,773 個の専門家が検証した推論ステップで評価する。
分析の結果、ツールの精度とモデル間の計画整合性に顕著な相違が明らかになった。
論文 参考訳(メタデータ) (2025-05-29T17:59:38Z) - TRAIL: Trace Reasoning and Agentic Issue Localization [5.025960714013197]
この研究は、エージェントワークフロートレースに対する堅牢でダイナミックな評価方法の必要性を明確に示している。
我々は,この分類法を用いて構築され,確立されたエージェント・ベンチマークに基づいて構築された148個の大型人名跡(TRAIL)について述べる。
生態学的妥当性を確保するため,単一エージェントシステムとマルチエージェントシステムの両方のトレースをキュレートする。
論文 参考訳(メタデータ) (2025-05-13T14:55:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。