論文の概要: AgentAssay: Token-Efficient Regression Testing for Non-Deterministic AI Agent Workflows
- arxiv url: http://arxiv.org/abs/2603.02601v1
- Date: Tue, 03 Mar 2026 04:59:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-04 21:38:10.642335
- Title: AgentAssay: Token-Efficient Regression Testing for Non-Deterministic AI Agent Workflows
- Title(参考訳): AgentAssay: 非決定論的AIエージェントワークフローのためのトークン効率の良い回帰テスト
- Authors: Varun Pratap Bhardwaj,
- Abstract要約: AgentAssayは、非決定論的AIエージェントを回帰テストするための最初のトークン効率のよいフレームワークである。
厳密な統計保証を維持しながら78-100%のコスト削減を実現している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Autonomous AI agents are deployed at unprecedented scale, yet no principled methodology exists for verifying that an agent has not regressed after changes to its prompts, tools, models, or orchestration logic. We present AgentAssay, the first token-efficient framework for regression testing non-deterministic AI agent workflows, achieving 78-100% cost reduction while maintaining rigorous statistical guarantees. Our contributions include: (1) stochastic three-valued verdicts (PASS/FAIL/INCONCLUSIVE) grounded in hypothesis testing; (2) five-dimensional agent coverage metrics; (3) agent-specific mutation testing operators; (4) metamorphic relations for agent workflows; (5) CI/CD deployment gates as statistical decision procedures; (6) behavioral fingerprinting that maps execution traces to compact vectors, enabling multivariate regression detection; (7) adaptive budget optimization calibrating trial counts to behavioral variance; and (8) trace-first offline analysis enabling zero-cost testing on production traces. Experiments across 5 models (GPT-5.2, Claude Sonnet 4.6, Mistral-Large-3, Llama-4-Maverick, Phi-4), 3 scenarios, and 7,605 trials demonstrate that behavioral fingerprinting achieves 86% detection power where binary testing has 0%, SPRT reduces trials by 78%, and the full pipeline achieves 100% cost savings through trace-first analysis. Implementation: 20,000+ lines of Python, 751 tests, 10 framework adapters.
- Abstract(参考訳): 自律型AIエージェントは前例のない規模でデプロイされるが、プロンプト、ツール、モデル、オーケストレーションロジックの変更後にエージェントが回帰していないことを検証するための原則化された方法論は存在しない。
非決定論的AIエージェントワークフローを回帰テストする最初のトークン効率フレームワークであるAgenAssayについて,厳密な統計的保証を維持しつつ,78-100%のコスト削減を実現した。
提案手法は,(1)確率的3値検証(PASS/FAIL/INCONCLUSIVE),(2)5次元エージェントカバレッジメトリクス,(3)エージェント固有の変異テスト演算子,(4)エージェントワークフローのメタモルフィックな関係,(5)CI/CDデプロイメントゲートを統計的決定手順として用いたこと,(6)コンパクトベクトルにトレースされた実行をマップする行動指紋化,(7)多変量回帰検出を可能にすること,(8)動作分散による試行数を調整する適応的予算最適化,(8)生産トレースのゼロコストテストを可能にするトレースファーストオフライン分析などである。
5つのモデル(GPT-5.2、Claude Sonnet 4.6、Mistral-Large-3、Llama-4-Maverick、Phi-4)、3つのシナリオ、7,605の試行では、バイナリテストが0%、SPRTが78%、完全なパイプラインがトレースファースト分析によって100%のコスト削減を実現している。
実装: 2万行以上のPython、751のテスト、10のフレームワークアダプタ。
関連論文リスト
- When Agents Disagree With Themselves: Measuring Behavioral Consistency in LLM-Based Agents [0.0]
ReActスタイルのエージェントは、同じ入力でも平均10回の実行毎に2.0--4.2の異なるアクションシーケンスを生成する。
一貫性のある動作を持つタスクは80-92%の精度を達成するが、一貫性のないタスクは25-60%しか達成しない。
この結果から,実行中の動作の整合性を監視することにより,早期のエラー検出とエージェント信頼性の向上が期待できることがわかった。
論文 参考訳(メタデータ) (2026-02-12T06:15:14Z) - Information Fidelity in Tool-Using LLM Agents: A Martingale Analysis of the Model Context Protocol [69.11739400975445]
モデルコンテキストプロトコル(MCP)エージェントにおけるエラー蓄積を解析するための最初の理論的枠組みを紹介する。
累積歪みが線形成長と高確率偏差を$O(sqrtT)$で表すことを示す。
主な発見は、意味重み付けは歪みを80%減らし、周期的再接地は、エラー制御の約9ステップごとに十分である。
論文 参考訳(メタデータ) (2026-02-10T21:08:53Z) - On Randomness in Agentic Evals [6.177270420667714]
エージェントシステムは、エージェントがタスクを解決するために環境と対話するベンチマークで評価される。
ほとんどの論文では、タスク毎にひとつの実行から計算されたpass@1スコアが報告されている。
単一ランパス@1推定値は、どのランが選択されたかによって2.2から6.0ポイント異なる。
論文 参考訳(メタデータ) (2026-02-06T19:49:13Z) - Replayable Financial Agents: A Determinism-Faithfulness Assurance Harness for Tool-Using LLM Agents [0.7699235580548228]
LLMエージェントは、規制監査のリプレイに苦労する: トランザクションフラグ付き決定を同じ入力で再現するように要求された場合、ほとんどのデプロイメントは一貫性のある結果を返すことができません。
本稿では,金融サービスに展開するツール利用エージェントにおけるトラジェクティブ決定性およびエビデンス条件の忠実度を測定するためのフレームワークであるDFAHを紹介する。
論文 参考訳(メタデータ) (2026-01-17T19:47:55Z) - SWE-RM: Execution-free Feedback For Software Engineering Agents [61.86380395896069]
実行ベースフィードバックは、テストタイムスケーリング(TTS)と強化学習(RL)を通じて、コーディングエージェントの開発に広く利用されている。
対照的に、報酬モデルによる実行不要なフィードバックは、単体テストケースに依存することなく、よりきめ細かい信号を提供することができる。
SWE-RMは,30Bの合計パラメータと3Bのアクティベートされた3Bの混合実験アーキテクチャを採用した,正確で堅牢な報酬モデルである。
論文 参考訳(メタデータ) (2025-12-26T08:26:18Z) - Towards a Science of Scaling Agent Systems [79.64446272302287]
エージェント評価の定義を定式化し,エージェント量,コーディネーション構造,モデル,タスク特性の相互作用として,スケーリング法則を特徴付ける。
協調指標を用いて予測モデルを導出し,R2=0をクロスバリデーションし,未知のタスク領域の予測を可能にする。
ツールコーディネーショントレードオフ: 固定的な計算予算の下では, ツールヘビータスクはマルチエージェントのオーバーヘッドから不均衡に悩まされ, 2) 能力飽和: 調整が減少または負のリターンを, 単一エージェントのベースラインが45%を超えると達成できる。
論文 参考訳(メタデータ) (2025-12-09T06:52:21Z) - E-valuator: Reliable Agent Verifiers with Sequential Hypothesis Testing [7.984665398116918]
ブラックボックス検証器のスコアを偽アラームレートの証明可能な制御で決定ルールに変換する方法であるe-valuatorを導入する。
評価者は、エージェントの軌道のすべてのステップで統計的に有効であるシーケンシャルな仮説テストを開発するために、プロセスからのツールに基づいて構築される。
E-valuatorは6つのデータセットと3つのエージェントをまたいだ他の戦略よりも高い統計的パワーとより良い誤報率制御を提供することを示す。
論文 参考訳(メタデータ) (2025-12-02T05:59:18Z) - Impatient Users Confuse AI Agents: High-fidelity Simulations of Human Traits for Testing Agents [58.00130492861884]
TraitBasisは、AIエージェントを体系的にストレステストするための軽量でモデルに依存しない方法である。
TraitBasisは、ステアブルなユーザ特性に対応するアクティベーション空間で方向を学習する。
We observed on average a 2%-30% performance degradation on $tau$-Trait across frontier model。
論文 参考訳(メタデータ) (2025-10-06T05:03:57Z) - Adaptive Monitoring and Real-World Evaluation of Agentic AI Systems [3.215065407261898]
大規模言語モデルと外部ツールを組み合わせたマルチエージェントシステムは、研究機関からハイテイクドメインへと急速に移行している。
この「先進的な」続編は、アルゴリズムのインスタンス化や経験的な証拠を提供することで、そのギャップを埋める。
AMDMは擬似ゴールドリフトで異常検出遅延を12.3秒から5.6秒に減らし、偽陽性率を4.5%から0.9%に下げる。
論文 参考訳(メタデータ) (2025-08-28T15:52:49Z) - Runaway is Ashamed, But Helpful: On the Early-Exit Behavior of Large Language Model-based Agents in Embodied Environments [54.67512489842682]
大規模言語モデル(LLM)は、複雑な実施環境において、強力な計画と意思決定能力を示す。
LLMをベースとしたエージェントの早期退避行動を探究する第一歩を踏み出す。
論文 参考訳(メタデータ) (2025-05-23T08:23:36Z) - AegisLLM: Scaling Agentic Systems for Self-Reflective Defense in LLM Security [74.22452069013289]
AegisLLMは、敵の攻撃や情報漏洩に対する協調的なマルチエージェント防御である。
テスト時のエージェント推論システムのスケーリングは,モデルの有用性を損なうことなく,ロバスト性を大幅に向上させることを示す。
アンラーニングやジェイルブレイクを含む主要な脅威シナリオに対する総合的な評価は、AegisLLMの有効性を示している。
論文 参考訳(メタデータ) (2025-04-29T17:36:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。