論文の概要: AgentFixer: From Failure Detection to Fix Recommendations in LLM Agentic Systems
- arxiv url: http://arxiv.org/abs/2603.29848v1
- Date: Wed, 18 Feb 2026 14:55:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-06 02:36:13.153823
- Title: AgentFixer: From Failure Detection to Fix Recommendations in LLM Agentic Systems
- Title(参考訳): AgentFixer: LLMエージェントシステムにおけるエラー検出からレコメンデーションの修正まで
- Authors: Hadar Mulian, Sergey Zeltyn, Ido Levy, Liane Galanti, Avi Yaeli, Segev Shlomov,
- Abstract要約: フレームワークには15の障害検出ツールと2つの根本原因分析モジュールが含まれている。
軽量なルールベースのチェックとLDM-as-a-judgeアセスメントを統合し、構造化インシデント検出、分類、修復をサポートする。
我々は、このフレームワークをIBM CUGAに適用し、AppWorldとWebArenaベンチマークのパフォーマンスを評価した。
- 参考スコア(独自算出の注目度): 7.429835301272413
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce a comprehensive validation framework for LLM-based agentic systems that provides systematic diagnosis and improvement of reliability failures. The framework includes fifteen failure-detection tools and two root-cause analysis modules that jointly uncover weaknesses across input handling, prompt design, and output generation. It integrates lightweight rule-based checks with LLM-as-a-judge assessments to support structured incident detection, classification, and repair. We applied the framework to IBM CUGA, evaluating its performance on the AppWorld and WebArena benchmarks. The analysis revealed recurrent planner misalignments, schema violations, brittle prompt dependencies, and more. Based on these insights, we refined both prompting and coding strategies, maintaining CUGA's benchmark results while enabling mid-sized models such as Llama 4 and Mistral Medium to achieve notable accuracy gains, substantially narrowing the gap with frontier models. Beyond quantitative validation, we conducted an exploratory study that fed the framework's diagnostic outputs and agent description into an LLM for self-reflection and prioritization. This interactive analysis produced actionable insights on recurring failure patterns and focus areas for improvement, demonstrating how validation itself can evolve into an agentic, dialogue-driven process. These results show a path toward scalable, quality assurance, and adaptive validation in production agentic systems, offering a foundation for more robust, interpretable, and self-improving agentic architectures.
- Abstract(参考訳): LLMに基づくエージェントシステムの総合的検証フレームワークを導入し,信頼性障害の体系的診断と改善を行う。
このフレームワークには、15の障害検出ツールと2つのルート原因分析モジュールが含まれており、入力処理、プロンプト設計、出力生成の弱点を共同で発見する。
軽量なルールベースのチェックとLDM-as-a-judgeアセスメントを統合し、構造化インシデント検出、分類、修復をサポートする。
我々は、このフレームワークをIBM CUGAに適用し、AppWorldとWebArenaベンチマークのパフォーマンスを評価した。
この分析では、繰り返し発生するプランナーのミスアライメント、スキーマ違反、不安定なプロンプト依存関係などを明らかにした。
これらの知見に基づき、我々はプロンプトとコーディング戦略の両方を洗練させ、CUGAのベンチマーク結果を維持しながら、Llama 4やMistral Mediumのような中規模のモデルで顕著な精度向上を実現し、フロンティアモデルとのギャップを大幅に狭めました。
定量的検証の他に,自己回帰と優先順位付けのためのLLMにフレームワークの診断出力とエージェント記述を供給した探索的研究を行った。
このインタラクティブな分析は、繰り返し発生する障害パターンに関する実用的な洞察を与え、改善のための領域に焦点を当て、バリデーション自体がエージェント駆動の対話駆動プロセスにどのように進化するかを実証した。
これらの結果は、プロダクションエージェントシステムにおけるスケーラビリティ、品質保証、適応検証への道を示し、より堅牢で、解釈可能で、自己改善型のエージェントアーキテクチャの基礎を提供する。
関連論文リスト
- Automated Self-Testing as a Quality Gate: Evidence-Driven Release Management for LLM Applications [51.56484100374058]
我々は,エビデンスに基づくリリース決定を伴う品質ゲートを導入する自動自己テストフレームワークを提案する。
内部展開型多エージェント対話型AIシステムの縦型ケーススタディにより,本フレームワークの評価を行った。
論文 参考訳(メタデータ) (2026-03-13T20:44:15Z) - Case-Aware LLM-as-a-Judge Evaluation for Enterprise-Scale RAG Systems [0.0]
企業向けマルチターンRAGシステムのためのケースアウェア LLM-as-a-Judge 評価フレームワークを提案する。
このフレームワークは、検索品質を分離する8つの運用上の基準を使用して、各ターンを評価し、忠実度、答えユーティリティ、精度の整合性、ケース/ワークフローアライメントを判定する。
論文 参考訳(メタデータ) (2026-02-23T21:37:06Z) - Metacognitive Self-Correction for Multi-Agent System via Prototype-Guided Next-Execution Reconstruction [58.51530390018909]
大規模言語モデルに基づくマルチエージェントシステムは、協調的な問題解決において優れているが、エラーのカスケードには脆弱である。
我々は,MASにリアルタイム,教師なし,ステップレベルの誤り検出と自己補正を付与するメタ認知フレームワークMASCを提案する。
論文 参考訳(メタデータ) (2025-10-16T05:35:37Z) - A Comprehensive Survey on Benchmarks and Solutions in Software Engineering of LLM-Empowered Agentic System [56.40989626804489]
この調査は、Large Language Modelsを使ったソフトウェアエンジニアリングに関する、最初の総合的な分析を提供する。
本稿では,150以上の最近の論文をレビューし,(1)素早い,微調整,エージェントベースのパラダイムに分類した解法,(2)コード生成,翻訳,修復などのタスクを含むベンチマークという2つの重要な側面に沿った分類法を提案する。
論文 参考訳(メタデータ) (2025-10-10T06:56:50Z) - AgentCompass: Towards Reliable Evaluation of Agentic Workflows in Production [4.031479494871582]
本稿では,エージェントパイプラインのデプロイ後監視と推論に特化して設計された,最初の評価フレームワークであるAgentを紹介する。
Agentは、主要なメトリクスに関する最先端の結果を達成すると同時に、人間のアノテーションで見逃された重要な問題を明らかにする。
論文 参考訳(メタデータ) (2025-09-18T05:59:04Z) - CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward [50.97588334916863]
評価と結果報酬のための正確で堅牢な軽量検証モデルであるCompassVerifierを開発した。
数学、知識、多種多様な推論タスクにまたがる多分野の能力を示し、様々な答えの型を処理する能力を示す。
我々は,複数のデータソースから収集したモデル出力からなるVerifierBenchベンチマークを導入し,メタエラーパターンを手動で解析してCompassVerifierを強化する。
論文 参考訳(メタデータ) (2025-08-05T17:55:24Z) - Retrieval is Not Enough: Enhancing RAG Reasoning through Test-Time Critique and Optimization [58.390885294401066]
Retrieval-augmented Generation (RAG) は知識基底型大規模言語モデル(LLM)を実現するためのパラダイムとして広く採用されている。
RAGパイプラインは、モデル推論が得られた証拠と整合性を維持するのに失敗することが多く、事実上の矛盾や否定的な結論につながる。
批判駆動アライメント(CDA)に基づく新しい反復的枠組みであるAlignRAGを提案する。
AlignRAG-autoは、動的に洗練を終了し、批判的な反復回数を事前に指定する必要がなくなる自律的な変種である。
論文 参考訳(メタデータ) (2025-04-21T04:56:47Z) - Towards a Probabilistic Framework for Analyzing and Improving LLM-Enabled Software [0.0]
大規模言語モデル(LLM)対応システムは、ソフトウェア工学において重要な課題である。
本稿では,これらのシステムを体系的に解析し,改善するための確率的枠組みを提案する。
論文 参考訳(メタデータ) (2025-01-10T22:42:06Z) - An Empirical Study on LLM-based Agents for Automated Bug Fixing [8.660251517380779]
大規模な言語モデル (LLM) と LLM ベースのエージェントが自動的にバグを修正するために適用されている。
自動バグ修正のためのSWE-bench Verifiedベンチマークにおいて,6つの修復システムについて検討した。
論文 参考訳(メタデータ) (2024-11-15T14:19:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。