論文の概要: Willful Disobedience: Automatically Detecting Failures in Agentic Traces
- arxiv url: http://arxiv.org/abs/2603.23806v1
- Date: Wed, 25 Mar 2026 00:33:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-26 21:06:11.073245
- Title: Willful Disobedience: Automatically Detecting Failures in Agentic Traces
- Title(参考訳): Willful disobedience: エージェントトレースの障害を自動的に検出する
- Authors: Reshabh K Sharma, Shraddha Barke, Benjamin Zorn,
- Abstract要約: AgentPexはエージェントトレースを体系的に評価するAIツールである。
エージェントプロンプトとシステム命令から振る舞いルールを抽出し、これらの仕様を使用してコンプライアンスのトレースを自動的に評価する。
我々は、通信、小売、航空会社の顧客サービスにおいて、AgentPexを2ベンチから424のトレースで評価した。
- 参考スコア(独自算出の注目度): 2.2365938060262356
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: AI agents are increasingly embedded in real software systems, where they execute multi-step workflows through multi-turn dialogue, tool invocations, and intermediate decisions. These long execution histories, called agentic traces, make validation difficult. Outcome-only benchmarks can miss critical procedural failures, such as incorrect workflow routing, unsafe tool usage, or violations of prompt-specified rules. This paper presents AgentPex, an AI-powered tool designed to systematically evaluate agentic traces. AgentPex extracts behavioral rules from agent prompts and system instructions, then uses these specifications to automatically evaluate traces for compliance. We evaluate AgentPex on 424 traces from τ2-bench across models in telecom, retail, and airline customer service. Our results show that AgentPex distinguishes agent behavior across models and surfaces specification violations that are not captured by outcome-only scoring. It also provides fine-grained analysis by domain and metric, enabling developers to understand agent strengths and weaknesses at scale.
- Abstract(参考訳): AIエージェントは、マルチターン対話、ツール呼び出し、中間決定を通じて、マルチステップワークフローを実行する、実際のソフトウェアシステムにますます組み込まれています。
エージェントトレースと呼ばれるこれらの長い実行履歴は、検証を困難にしている。
アウトカムのみのベンチマークでは、不正なワークフロールーティング、安全でないツールの使用、プロンプト指定されたルール違反など、重要な手続き上の障害を見逃す可能性がある。
本稿ではエージェントトレースを体系的に評価するAIツールであるAgentPexを提案する。
AgentPexはエージェントプロンプトとシステム命令から振る舞いルールを抽出し、これらの仕様を使用してコンプライアンスのトレースを自動的に評価する。
我々は、通信、小売、航空会社の顧客サービスにおいて、τ2ベンチから424トレースのAgentPexを評価した。
結果から,AgentPexは,結果のみのスコアリングによって取得されない仕様違反を,モデルとサーフェス間のエージェント動作を区別することがわかった。
また、ドメインとメトリックによるきめ細かい分析を提供し、開発者は大規模にエージェントの強度と弱点を理解することができる。
関連論文リスト
- AgentTrace: Causal Graph Tracing for Root Cause Analysis in Deployed Multi-Agent Systems [0.0]
本稿では,デプロイされたマルチエージェントAIシステムにおけるポストホック障害診断のための軽量因果トレースフレームワークであるAgentTraceを紹介する。
AgentTraceは、実行ログから因果グラフを再構築し、エラー発生から後方にトレースし、解釈可能な構造信号と位置信号を使って候補根本原因をランク付けする。
この結果から,因果トレースはエージェントシステムの信頼性と信頼性を向上させるための実践的な基盤となることが示唆された。
論文 参考訳(メタデータ) (2026-03-16T00:46:44Z) - AgentProcessBench: Diagnosing Step-Level Process Quality in Tool-Using Agents [50.481033105867205]
我々はAgentProcessBenchを紹介した。AgentProcessBenchは、現実的なツール拡張トラジェクトリにおけるステップレベルの有効性を評価するための最初のベンチマークである。
ベンチマークは、1,000の多様な軌跡と8,509の人間ラベル付きステップアノテーションと89.1%のアノテーション間合意で構成されている。
探索をキャプチャする3つのラベリングスキームと、ラベルのあいまいさを減らすためのエラー伝搬ルールを備えている。
論文 参考訳(メタデータ) (2026-03-15T16:13:58Z) - TraceSIR: A Multi-Agent Framework for Structured Analysis and Reporting of Agentic Execution Traces [32.4073751390339]
本稿では,エージェント実行トレースの構造化解析と報告を行うフレームワークであるTraceSIRを提案する。
TraceSIRはStructureAgent、InsightAgent、ReportAgentの3つの特殊エージェントをコーディネートする。
実験により、TraceSIRは一貫して一貫性があり、情報的で、行動可能なレポートを生成することが示された。
論文 参考訳(メタデータ) (2026-02-28T12:33:24Z) - SkillJect: Automating Stealthy Skill-Based Prompt Injection for Coding Agents with Trace-Driven Closed-Loop Refinement [120.52289344734415]
エージェントスキルに適したステルスプロンプトインジェクションのための自動フレームワークを提案する。
フレームワークは、明示的なステルス制約の下でインジェクションスキルを合成するアタックエージェント、インジェクションされたスキルを使用してタスクを実行するコードエージェント、アクショントレースをログする評価エージェントの3つのエージェントでクローズドループを形成する。
本手法は,現実的な環境下で高い攻撃成功率を達成する。
論文 参考訳(メタデータ) (2026-02-15T16:09:48Z) - AgentRx: Diagnosing AI Agent Failures from Execution Trajectories [9.61742219198197]
構造化されたAPI、インシデント管理、オープンなWeb/ファイルタスクにまたがる115の障害トラジェクトリのベンチマークをリリースする。
各トラジェクトリには、臨界障害ステップと、基底理論から派生したクロスドメイン障害分類のカテゴリが注釈付けされている。
本稿では,ドメインに依存しない自動診断フレームワークであるAgentRXについて述べる。
論文 参考訳(メタデータ) (2026-02-02T18:54:07Z) - The Why Behind the Action: Unveiling Internal Drivers via Agentic Attribution [63.61358761489141]
LLM(Large Language Model)ベースのエージェントは、カスタマーサービス、Webナビゲーション、ソフトウェアエンジニアリングといった現実世界のアプリケーションで広く使われている。
本稿では,タスク結果に関係なく,エージェントの動作を駆動する内部要因を識別する,テキスト汎用エージェント属性のための新しいフレームワークを提案する。
標準ツールの使用やメモリ誘起バイアスのような微妙な信頼性リスクなど、さまざまなエージェントシナリオでフレームワークを検証する。
論文 参考訳(メタデータ) (2026-01-21T15:22:21Z) - The Bitter Lesson of Diffusion Language Models for Agentic Workflows: A Comprehensive Reality Check [54.08619694620588]
本稿では,2つの異なるエージェントパラダイムであるEmbodied AgentsとTool-Calling AgentsにまたがるdLLMの包括的評価を行う。
Agentboard と BFCL では,現在の dLLM が信頼できるエージェントバックボーンとして機能しないという,"ビットレッスン" が報告されている。
論文 参考訳(メタデータ) (2026-01-19T11:45:39Z) - AgentArmor: Enforcing Program Analysis on Agent Runtime Trace to Defend Against Prompt Injection [14.522205401511727]
大きな言語モデル(LLM)エージェントは、自然言語推論と外部ツールの実行を組み合わせることで、さまざまな問題を解決するための強力な新しいパラダイムを提供する。
本研究では,エージェントランタイムトレースを解析可能なセマンティクスを用いた構造化プログラムとして扱う新しい知見を提案する。
本稿では,エージェントトレースをグラフ中間表現に基づく構造化プログラム依存表現に変換するプログラム解析フレームワークであるAgentArmorを提案する。
論文 参考訳(メタデータ) (2025-08-02T07:59:34Z) - SOPBench: Evaluating Language Agents at Following Standard Operating Procedures and Constraints [59.645885492637845]
SOPBenchは、各サービス固有のSOPコードプログラムを実行可能な関数の有向グラフに変換する評価パイプラインである。
提案手法では,各サービス固有のSOPコードプログラムを実行可能関数の有向グラフに変換し,自然言語SOP記述に基づいてこれらの関数を呼び出しなければならない。
我々は18の先行モデルを評価し、上位モデルでさえタスクが困難であることを示す。
論文 参考訳(メタデータ) (2025-03-11T17:53:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。