論文の概要: Agent-Testing Agent: A Meta-Agent for Automated Testing and Evaluation of Conversational AI Agents
- arxiv url: http://arxiv.org/abs/2508.17393v1
- Date: Sun, 24 Aug 2025 15:02:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:45.500244
- Title: Agent-Testing Agent: A Meta-Agent for Automated Testing and Evaluation of Conversational AI Agents
- Title(参考訳): エージェントテストエージェント:会話型AIエージェントの自動テストと評価のためのメタエージェント
- Authors: Sameer Komoravolu, Khalil Mrini,
- Abstract要約: 本稿では,静的コード解析,デザイナの尋問,文献マイニング,ペルソナ駆動の対人テスト生成を組み合わせたメタエージェントであるAgent-Testing Agent(ATA)を提案する。
各対話はLLM-as-a-Judge (LAAJ)ルーブリックでスコアされ、その後の試験をエージェントの最も弱い能力に向けて操るために使用される。
- 参考スコア(独自算出の注目度): 2.3429263075112288
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLM agents are increasingly deployed to plan, retrieve, and write with tools, yet evaluation still leans on static benchmarks and small human studies. We present the Agent-Testing Agent (ATA), a meta-agent that combines static code analysis, designer interrogation, literature mining, and persona-driven adversarial test generation whose difficulty adapts via judge feedback. Each dialogue is scored with an LLM-as-a-Judge (LAAJ) rubric and used to steer subsequent tests toward the agent's weakest capabilities. On a travel planner and a Wikipedia writer, the ATA surfaces more diverse and severe failures than expert annotators while matching severity, and finishes in 20--30 minutes versus ten-annotator rounds that took days. Ablating code analysis and web search increases variance and miscalibration, underscoring the value of evidence-grounded test generation. The ATA outputs quantitative metrics and qualitative bug reports for developers. We release the full methodology and open-source implementation for reproducible agent testing: https://github.com/KhalilMrini/Agent-Testing-Agent
- Abstract(参考訳): LLMエージェントは、ツールで計画、検索、書き込みするためにますますデプロイされているが、評価は静的ベンチマークと小さな人間の研究に依存している。
本稿では,静的コード解析,デザイナ尋問,文献マイニング,ペルソナ駆動型対人テスト生成を組み合わせたメタエージェントであるAgent-Testing Agent(ATA)を提案する。
各対話はLLM-as-a-Judge (LAAJ)ルーブリックでスコアされ、その後の試験をエージェントの最も弱い能力に向けて操るために使用される。
旅行プランナーとウィキペディアのライターでは、ATAは専門家のアノテーターよりも多様で深刻な障害を表面化し、厳しさを合わせながら20~30分で終了し、数日かかる10のアノテーターラウンドに対して終了する。
コード解析とWeb検索を非難することで、分散と誤校正が増加し、エビデンスベースのテスト生成の価値が強調される。
ATAは、開発者のために定量的メトリクスと質的なバグレポートを出力する。
我々は再現可能なエージェントテストのための完全な方法論とオープンソース実装をリリースした。
関連論文リスト
- Which Agent Causes Task Failures and When? On Automated Failure Attribution of LLM Multi-Agent Systems [50.29939179830491]
LLMマルチエージェントシステムにおける障害帰属は、まだ調査が過小評価されており、労働集約的である。
本稿では,3つの自動故障帰属手法の開発と評価を行い,その欠点と欠点を要約する。
最良の方法は、障害に応答するエージェントを特定する際に53.5%の精度を達成するが、故障の特定には14.2%しか役に立たない。
論文 参考訳(メタデータ) (2025-04-30T23:09:44Z) - AgentRewardBench: Evaluating Automatic Evaluations of Web Agent Trajectories [59.214178488091584]
我々は,LLM審査員によるWebエージェント評価の有効性を評価する最初のベンチマークであるAgentRewardBenchを提案する。
ベンチマークを用いて,12名のLLM審査員を評価し,全てのベンチマークでLLMが排他的でないことを発見した。
また、一般的なベンチマークで使用されるルールベースの評価は、Webエージェントの成功率を過小評価する傾向にあることも見出した。
論文 参考訳(メタデータ) (2025-04-11T19:49:22Z) - Defining and Detecting the Defects of the Large Language Model-based Autonomous Agents [31.126001253902416]
本研究は,LLMエージェントの欠陥の同定と検出に焦点を当てた最初の研究である。
StackOverflowから6,854件の関連記事を収集し分析し、8種類のエージェント欠陥を定義しました。
以上の結果から,Agentableの総合精度は88.79%,リコール率は91.03%であった。
論文 参考訳(メタデータ) (2024-12-24T11:54:14Z) - AutoPenBench: Benchmarking Generative Agents for Penetration Testing [42.681170697805726]
本稿では,自動貫入試験における生成エージェント評価のためのオープンベンチマークであるAutoPenBenchを紹介する。
エージェントが攻撃しなければならない脆弱性のあるシステムを表す33のタスクを含む包括的フレームワークを提案する。
完全自律型と半自律型という2つのエージェントアーキテクチャをテストすることで,AutoPenBenchのメリットを示す。
論文 参考訳(メタデータ) (2024-10-04T08:24:15Z) - Dissecting Adversarial Robustness of Multimodal LM Agents [70.2077308846307]
我々は、VisualWebArena上に現実的な脅威モデルを用いて、200の敵タスクと評価スクリプトを手動で作成する。
我々は,クロボックスフロンティアLMを用いた最新のエージェントを,リフレクションやツリーサーチを行うエージェントを含む,壊すことに成功している。
AREを使用して、新しいコンポーネントの追加に伴うロバスト性の変化を厳格に評価しています。
論文 参考訳(メタデータ) (2024-06-18T17:32:48Z) - MLAgentBench: Evaluating Language Agents on Machine Learning Experimentation [96.71370747681078]
我々は,CIFAR-10におけるモデル性能の改善から,BabyLMのような最近の研究課題まで,13のタスクからなるMLAgentBenchを紹介した。
各タスクに対して、エージェントはファイルの読み書き、コードの実行、出力の検査などのアクションを実行することができる。
我々は、Claude v1.0、Claude v2.1、Claude v3 Opus、GPT-4、GPT-4-turbo、Gemini-Pro、Mixtralに基づいてベンチマークエージェントをベンチマークし、Claude v3 Opusエージェントが成功率の点で最高であることを示す。
論文 参考訳(メタデータ) (2023-10-05T04:06:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。