論文の概要: An Executable Benchmarking Suite for Tool-Using Agents
- arxiv url: http://arxiv.org/abs/2605.11030v1
- Date: Sun, 10 May 2026 21:24:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 21:48:56.316598
- Title: An Executable Benchmarking Suite for Tool-Using Agents
- Title(参考訳): ツール利用エージェントのための実行可能なベンチマークスイート
- Authors: Zhiqing Zhong, Zhijing Ye, Jiamin Wang, Xiaodong Yu,
- Abstract要約: このスイートは、WebArena Verified、SWE-GymスライスとSWE-bench互換の検証、および一般的なワークロードアダプタを介してMiniWoB++を接続する。
承認されたエビデンスには、レイテンシ、無効動作、パッチ生成コスト、検証済みメタデータ、リプレイバインディング、そして1つの監査可能な契約下での証明が記録されている。
- 参考スコア(独自算出の注目度): 3.5322131912413908
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Closed-loop tool-using agents are increasingly evaluated in executable web, code, and micro-task environments, but benchmark reports often conflate workloads, action-generating drivers, and the evidence admitted for systems-facing claims. We present an executable benchmarking suite that makes these objects explicit under a shared evidence-admission contract. The suite connects WebArena Verified, a SWE-Gym slice with SWE-bench-compatible verification, and MiniWoB++ through common workload adapters, task manifests, event schemas, replay/freeze policy, declared drivers, and reporting pipelines. In the canonical release, the gate separates paper-facing evidence from preflight, fixture, smoke, and diagnostic rows while preserving non-admitted artifacts for audit and onboarding. The admitted evidence records latency, invalid-action behavior, patch-generation cost, verifier metadata, replay bindings, and provenance under one auditable contract. The gate is decision-relevant rather than merely clerical: in a separate WebArena Verified controller study, clean-baseline and medium live-stressed evaluation select different fixed controller variants under the same workload and admission contract. The release is scoped as a benchmarking suite and admitted evidence, not a new agent policy, model leaderboard, backend comparison, or autonomous SWE-bench solver.
- Abstract(参考訳): クローズドループツール使用エージェントは、実行可能なWeb、コード、マイクロタスク環境においてますます評価されているが、ベンチマークレポートでは、ワークロード、アクション生成ドライバ、システムに直面するクレームの証拠が説明されることが多い。
共有エビデンス・アミッション契約の下でこれらのオブジェクトを明示する実行可能なベンチマークスイートを提案する。
このスイートは、WebArena Verified、SWE-GymスライスとSWE-bench互換の検証、共通ワークロードアダプタ、タスクマニフェスト、イベントスキーマ、リプレイ/フリーズポリシ、宣言されたドライバ、レポートパイプラインを通じてMiniWoB++を接続する。
標準リリースでは、ゲートは紙面のエビデンスをプレフライ、フィクスチャ、煙、診断行から切り離し、監査や乗船のための非許可のアーティファクトを保存する。
承認されたエビデンスには、レイテンシ、無効動作、パッチ生成コスト、検証済みメタデータ、リプレイバインディング、そして1つの監査可能な契約下での証明が記録されている。
WebArena Verified controller studyでは、クリーンベースラインと中級ライブストレッシング評価が、同じ作業負荷と入場契約の下で異なる固定コントローラの変種を選択する。
このリリースはベンチマークスイートとしてスコープされ、新たなエージェントポリシやモデルリーダボード、バックエンド比較、自律的なSWE-benchソルバなどではなく、エビデンスを認めた。
関連論文リスト
- Can Agent Benchmarks Support Their Scores? Evidence-Supported Bounds for Interactive-Agent Evaluation [8.049844623361725]
インタラクティブエージェントベンチマークは、結果チェックを通じてエージェントの実行をバイナリ結果にマッピングする。
これらのチェックは、表面レベル信号に依存するか、エージェントの実際のアクションパスをキャプチャできない。
既存のベンチマークに対して、結果エビデンスレポート層を導入します。
論文 参考訳(メタデータ) (2026-05-11T12:20:15Z) - SARC: A Governance-by-Architecture Framework for Agentic AI Systems [0.0]
エージェントAIシステムは、ツール、サブエージェント、外部サービスを通じてますます機能するが、ガバナンスコントロールは、プロンプト、ダッシュボード、ポストホックドキュメンテーションにアタッチされることが多い。
SARCは、制約をステート、アクションスペース、報酬と共に第一級の仕様オブジェクトとして扱うツール使用エージェントのためのランタイムガバナンスアーキテクチャである。
SARCは厳密な述語の下でゼロのハードコントラスト違反を実行し、その宣言されたPAAのスロットリング応答は、ポリシー・アズ・コードのみと比較して、ソフトウインドウのオーバーアーを89.5%削減する。
論文 参考訳(メタデータ) (2026-05-08T13:34:36Z) - Test Before You Deploy: Governing Updates in the LLM Supply Chain [3.6704226968275253]
大規模言語モデル(LLM)は、ソフトウェアシステムの中核的な依存関係としてますます使われています。
LLMは明示的なバージョン変更なしにプロバイダ側の更新を通じて継続的に進化する。
本稿では,3つのコンポーネントをベースとしたデプロイメントサイドガバナンスフレームワークを提案する。
論文 参考訳(メタデータ) (2026-04-30T12:32:13Z) - IMPACT-CYCLE: A Contract-Based Multi-Agent System for Claim-Level Supervisory Correction of Long-Video Semantic Memory [73.22944697933603]
既存のパイプラインは不透明でエンドツーエンドの出力を生成し、検査の中間状態は公開しない。
IMPACT-Cycleは,マルチモーダル反復クレームレベルのメンテナンスとして,長時間ビデオ理解を再構築するマルチエージェントシステムである。
論文 参考訳(メタデータ) (2026-04-22T03:03:33Z) - AJ-Bench: Benchmarking Agent-as-a-Judge for Environment-Aware Evaluation [71.49152943451328]
我々は,AJ-Benchベンチマークを導入し,ドメイン検索,データシステム,グラフィカルユーザインタフェースの3つの領域にまたがるエージェント・アズ・ア・Judgeを評価する。
実験ではLLM-as-a-Judgeベースラインよりも一貫したパフォーマンス向上を示し、エージェントベースの検証においてかなりオープンな課題を明らかにした。
論文 参考訳(メタデータ) (2026-04-20T13:23:38Z) - A Trace-Based Assurance Framework for Agentic AI Orchestration: Contracts, Testing, and Governance [0.22940141855172028]
本稿では,Large Language Models (LLM) を用いたエージェントAIシステムの保証フレームワークを提案する。
実行は、明示的なステップとトレースコントラクトを備えたメッセージ・アクション・トレース(MAT)として実装される。
このフレームワークは、有界摂動に対する予算付き反例探索として定式化されたストレステストを含む。
論文 参考訳(メタデータ) (2026-03-18T10:23:48Z) - DEP: A Decentralized Large Language Model Evaluation Protocol [51.3646001384887]
分散評価プロトコル(Decentralized Evaluation Protocol, DEP)は、分散化されているが統一され、標準化された評価フレームワークである。
ユーザ、LLM、ベンチマークを分離することで、DEPはモジュラー、プラグ・アンド・プレイの評価を可能にする。
我々は,ブレークポイントの再開,同時要求,混雑制御などの機能をサポートするプロトコル互換ツールキットであるDEP Toolkitを開発した。
論文 参考訳(メタデータ) (2026-03-01T16:10:16Z) - OpenPort Protocol: A Security Governance Specification for AI Agent Tool Access [11.289770127178882]
本稿では,セキュアなサーバサイドゲートウェイを通じてアプリケーションツールを公開するためのガバナンスファースト仕様であるOpenPort Protocolを紹介する。
OpenPortは、認可に依存した発見、機械操作可能なテキストタグによる安定した応答エンベロープ、および統合証明書、スコープ化されたパーミッション、ABACスタイルのポリシー制約を組み合わせた認可モデルを定義する。
書き込み操作のために、OpenPortは、ドラフト作成とヒューマンレビューのデフォルトとなるリスクゲートライフサイクルを規定し、明示的なポリシーの下でタイムバウンド自動実行をサポートし、事前のインパクトバインディングやイデペント性を含むリスクの高い保護を強制する。
論文 参考訳(メタデータ) (2026-02-22T05:16:40Z) - ImpossibleBench: Measuring LLMs' Propensity of Exploiting Test Cases [58.411135609139855]
タスク完了のための「ショートカット」は、大規模言語モデルの信頼性評価と展開に重大なリスクをもたらす。
我々は,LLMエージェントがテストケースを利用するための正当性を測定するベンチマークフレームワークであるImpossibleBenchを紹介する。
実践的なフレームワークとして、ImpossibleBenchは単なる評価ではなく、汎用的なツールである。
論文 参考訳(メタデータ) (2025-10-23T06:58:32Z) - DRIFT: Dynamic Rule-Based Defense with Injection Isolation for Securing LLM Agents [52.92354372596197]
大規模言語モデル(LLM)は、強力な推論と計画能力のため、エージェントシステムの中心となってきています。
この相互作用は、外部ソースからの悪意のある入力がエージェントの振る舞いを誤解させる可能性がある、インジェクション攻撃のリスクも引き起こす。
本稿では,信頼に値するエージェントシステムのための動的ルールベースの分離フレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-13T05:01:09Z) - CANTXSec: A Deterministic Intrusion Detection and Prevention System for CAN Bus Monitoring ECU Activations [53.036288487863786]
物理ECUアクティベーションに基づく最初の決定論的侵入検知・防止システムであるCANTXSecを提案する。
CANバスの古典的な攻撃を検知・防止し、文献では調査されていない高度な攻撃を検知する。
物理テストベッド上での解法の有効性を実証し,攻撃の両クラスにおいて100%検出精度を達成し,100%のFIAを防止した。
論文 参考訳(メタデータ) (2025-05-14T13:37:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。