論文の概要: Can Agent Benchmarks Support Their Scores? Evidence-Supported Bounds for Interactive-Agent Evaluation
- arxiv url: http://arxiv.org/abs/2605.10448v1
- Date: Mon, 11 May 2026 12:20:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.799062
- Title: Can Agent Benchmarks Support Their Scores? Evidence-Supported Bounds for Interactive-Agent Evaluation
- Title(参考訳): エージェントベンチマークはスコアをサポートできるか?インタラクティブエージェント評価のためのエビデンス対応境界
- Authors: Shanshan Gao, Liyi Zhou,
- Abstract要約: インタラクティブエージェントベンチマークは、結果チェックを通じてエージェントの実行をバイナリ結果にマッピングする。
これらのチェックは、表面レベル信号に依存するか、エージェントの実際のアクションパスをキャプチャできない。
既存のベンチマークに対して、結果エビデンスレポート層を導入します。
- 参考スコア(独自算出の注目度): 8.049844623361725
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Interactive agent benchmarks map an agent run to a binary outcome through outcome checks. When these checks rely on surface level signals or fail to capture the agent's actual action path, they cannot reliably determine whether the run succeeded. For example, a benchmark task may ask whether Alice's shipping address was changed, while the outcome check only verifies that the agent clicked "Save." This does not guarantee that the intended state change occurred, since the agent may have modified the wrong record. Treating such a run as successful therefore makes the reported score misleading. Benchmark quality thus depends not only on task design, but also on the reliability of outcome detection. We address this problem by introducing an outcome evidence reporting layer for existing benchmarks, without modifying their tasks, agents, or evaluators. The layer performs three functions. First, before scoring, it specifies which stored artifacts are required to verify the claimed outcome for each case. Second, it applies a locked checklist to each completed run and assigns one of three evidence labels: Evidence Pass, Evidence Fail, or Unknown. Third, it reports evidence supported score bounds that quantify uncertainty arising from Unknown cases. Rather than silently counting, discarding, or hiding uncertain cases inside a single aggregate success rate, the framework keeps them explicitly visible. We evaluate the outcome evidence layer on five public benchmarks: ANDROIDWORLD, AGENTDOJO, APPWORLD, tau3 bench retail, and MINIWOB. The resulting reports separate several empirically distinct failure modes.
- Abstract(参考訳): インタラクティブエージェントベンチマークは、結果チェックを通じてエージェントの実行をバイナリ結果にマッピングする。
これらのチェックが表面レベル信号に依存したり、エージェントの実際のアクションパスを捕捉できない場合、実行が成功したかどうかを確実に決定できない。
例えば、ベンチマークタスクはアリスの発送先が変更されたかどうかを問うことができ、結果チェックはエージェントが「セーブ」をクリックしたことを確かめるのみである。
これは、エージェントが間違ったレコードを変更した可能性があるため、意図した状態変更が発生することを保証しない。
そのため、そのようなランを成功として扱うことは、報告されたスコアを誤解させる。
したがって、ベンチマークの品質はタスク設計だけでなく、結果検出の信頼性にも依存する。
既存のベンチマークに対して,タスクやエージェント,評価対象を変更することなく,結果エビデンスレポート層を導入することで,この問題に対処する。
層は3つの機能を実行する。
まず、スコアを付ける前に、各ケースの要求された結果を検証するためにどのストアドアーティファクトが必要かを指定する。
第二に、完了した各実行毎にロックされたチェックリストを適用し、エビデンスパス、エビデンスフェイル、または未知の3つのエビデンスラベルのうちの1つを割り当てる。
第3に、未知のケースから生じる不確実性を定量化するスコア境界を支持する証拠を報告している。
単一の集合的な成功率の中で、静かに数えたり、破棄したり、不確実なケースを隠したりするのではなく、フレームワークは明確にそれらを可視化する。
ANDROIDWORLD, AgentDOJO, APPWORLD, tau3 bench retail, MINIWOBの5つの公開ベンチマークで結果エビデンス層を評価した。
その結果得られた報告は、いくつかの経験的に異なる障害モードを分離した。
関連論文リスト
- Ambig-DS: A Benchmark for Task-Framing Ambiguity in Data-Science Agents [2.3488056916440856]
既存のベンチマークでは、エージェントがタスクが不明確かどうかを無視して、パイプラインが動作しているかどうかをスコア付けしている。
本稿では,予測対象曖昧さと評価対象曖昧さの2つの診断スイートであるAmbig-DSを紹介する。
すべてのタスクに対して、元の完全に指定されたバージョンと、コントロールされた編集によって生成されるあいまいなバリエーションをペアにします。
論文 参考訳(メタデータ) (2026-05-10T18:34:12Z) - When Stored Evidence Stops Being Usable: Scale-Conditioned Evaluation of Agent Memory [4.425240080125479]
本稿では,エビデンス保存型成長下でのエージェントメモリのスケールコンディション評価プロトコルを提案する。
各クエリに対して、タスクエビデンスが固定され、無関係なセッションが追加される。
このプロトコルはエージェントメモリトラジェクトリをログし、4つの診断結果を報告する。
論文 参考訳(メタデータ) (2026-05-08T06:22:31Z) - BUILD-AND-FIND: An Effort-Aware Protocol for Evaluating Agent-Managed Codebases [0.0]
BUILD-AND-FINDは、下流エージェントが生成されたリポジトリから意図した選択を復元できるかどうかを評価するプロトコルである。
各タスクに対して、ビルダーは隠されたリポジトリの仕様を見て、仕様に書かれた複数選択の質問バンクを作成します。
このプロトコルは、行動の正しさをアーティファクト側のリカバリから切り離し、リカバリの正確性、再現性、実装のカバレッジ、検査の労力を報告します。
論文 参考訳(メタデータ) (2026-05-07T12:35:27Z) - Claw-Eval: Toward Trustworthy Evaluation of Autonomous Agents [66.97968363332465]
エージェントベンチマークの3つのギャップに対処するエンドツーエンド評価スイートであるClaw-Evalを紹介した。
Claw-Evalは3つのグループにまたがる9つのカテゴリにまたがる300の人間検証タスクで構成されている。
すべてのエージェントアクションは、3つの独立したエビデンスチャネルを通じて記録される。
論文 参考訳(メタデータ) (2026-04-07T17:43:18Z) - Beyond Task Completion: Revealing Corrupt Success in LLM Agents through Procedure-Aware Evaluation [2.102846336724103]
プロシージャ・アウェア・アセスメント(PAE)は、エージェント・プロシージャを構造化された観察として形式化するフレームワークである。
タウベンチにおける言語モデル(LLM)に基づくエージェントの評価を行った。
論文 参考訳(メタデータ) (2026-03-03T15:47:41Z) - A Coin Flip for Safety: LLM Judges Fail to Reliably Measure Adversarial Robustness [57.510025257780306]
既存の検証プロトコルは、レッドチーム固有の分散シフトを考慮できないことを示す。
我々は、より一貫して判断可能な振る舞いのベンチマークであるReliableBenchと、判断失敗を公開するために設計されたデータセットであるJiceStressTestを提案する。
論文 参考訳(メタデータ) (2026-02-04T15:13:35Z) - SpatialBench-UC: Uncertainty-Aware Evaluation of Spatial Prompt Following in Text-to-Image Generation [0.0]
SpaceBench-UCは、ペアの空間関係を再現可能な小さなベンチマークである。
ベンチマークパッケージ、バージョン付きプロンプト、ピン付き構成、サンプルごとのチェッカー出力、レポートテーブルをリリースします。
安定拡散1.5, SD 1.5 BoxDiff, SD 1.4 GLIGENの3つのベースラインについて検討した。
論文 参考訳(メタデータ) (2026-01-19T23:37:10Z) - DoVer: Intervention-Driven Auto Debugging for LLM Multi-Agent Systems [48.971606069204825]
DoVerは、大規模言語モデル(LLM)ベースのマルチエージェントシステムのための介入駆動デバッグフレームワークである。
ターゲットの介入を通じて、アクティブな検証によって仮説生成を増強する。
DoVerは失敗試験の18~28%を成功させ、最大16%のマイルストーンを達成し、失敗仮説の30~60%を検証または否定する。
論文 参考訳(メタデータ) (2025-12-07T09:23:48Z) - ImpossibleBench: Measuring LLMs' Propensity of Exploiting Test Cases [58.411135609139855]
タスク完了のための「ショートカット」は、大規模言語モデルの信頼性評価と展開に重大なリスクをもたらす。
我々は,LLMエージェントがテストケースを利用するための正当性を測定するベンチマークフレームワークであるImpossibleBenchを紹介する。
実践的なフレームワークとして、ImpossibleBenchは単なる評価ではなく、汎用的なツールである。
論文 参考訳(メタデータ) (2025-10-23T06:58:32Z) - Where LLM Agents Fail and How They can Learn From Failures [62.196870049524364]
大規模言語モデル(LLM)エージェントは、複雑なマルチステップタスクの解決において有望であることを示す。
単一ルート原因エラーがその後の決定を通じて伝播する、障害のカスケードに対する脆弱性を増幅する。
現在のシステムは、モジュール的で体系的な方法でエージェントエラーを包括的に理解できるフレームワークを欠いている。
AgentErrorTaxonomyは、メモリ、リフレクション、計画、アクション、システムレベルの操作にまたがる障害モードのモジュール分類である。
論文 参考訳(メタデータ) (2025-09-29T18:20:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。