Fugu-MT 論文翻訳(概要): Agent-Diff: Benchmarking LLM Agents on Enterprise API Tasks via Code Execution with State-Diff-Based Evaluation

論文の概要: Agent-Diff: Benchmarking LLM Agents on Enterprise API Tasks via Code Execution with State-Diff-Based Evaluation

arxiv url: http://arxiv.org/abs/2602.11224v1
Date: Wed, 11 Feb 2026 13:31:18 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-13 21:07:25.467927
Title: Agent-Diff: Benchmarking LLM Agents on Enterprise API Tasks via Code Execution with State-Diff-Based Evaluation
Title（参考訳）: Agent-Diff: ステートディフに基づく評価によるコード実行によるエンタープライズAPIタスク上のLLMエージェントのベンチマーク
Authors: Hubert M. Pysklo, Artem Zhuravel, Patrick D. Watson,
Abstract要約: Agent-Diffは、エージェント言語モデル(LLM)を、外部API経由でコードを実行する現実世界のタスクで評価するためのベンチマークフレームワークである。エンタープライズソフトウェアを利用する224のタスクにまたがる9つのLLMのベンチマークを提供する。また、ベンチマークパフォーマンスにおけるAPIドキュメントへのアクセスの寄与を評価するために、アブレーション実験によるフレームワークの堅牢性を評価する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We present Agent-Diff, a novel benchmarking framework for evaluating agentic Large Language Models (LLMs) on real-world tasks that execute code via external APIs. Agentic LLM performance varies due to differences in models, external tool access, prompt structures, and agentic frameworks. Benchmarks must make fundamental trade-offs between a sandboxed approach that controls for variation in software environments and more ecologically valid approaches employing real services. Agent-Diff attempts to capture the desirable features of both of these approaches by including access to the real API interfaces for software services while sandboxing the environment in which calls are made, processed, and evaluated. This approach relies on two key innovations. The first is a novel state-diff contract, which separates process from outcome - rather than fuzzy trace or parameter matching, we define task success as whether the expected change in environment state was achieved. The second is a novel sandbox that provides a standardized scripting layer that all models use to execute code against external APIs (Slack, Box, Linear, Google Calendar). Thus, we can evaluate different agentic LLMs against a standardized set of contracts using a unified sandbox while still evaluating their performance on real-world service interfaces. Using the Agent-Diff framework, we provide benchmarks for nine LLMs across 224 tasks utilizing enterprise software workflows. In addition, we evaluate the robustness of the framework with ablation experiments to assess the contribution of access to API documentation on benchmark performance. Code and data: https://github.com/agent-diff-bench/agent-diff.
Abstract（参考訳）: 本稿では,エージェント言語モデル(LLM)を外部API経由でコードを実行する実世界のタスク上で評価するための新しいベンチマークフレームワークであるAgent-Diffを紹介する。エージェントLDMのパフォーマンスは、モデル、外部ツールアクセス、プロンプト構造、エージェントフレームワークの違いによって異なる。ベンチマークは、ソフトウェア環境の変化を制御するサンドボックスのアプローチと、実際のサービスを利用するより生態学的に有効なアプローチとの間に、根本的なトレードオフをしなければならない。 Agent-Diffは、コールが作成、処理、評価される環境をサンドボックス化しながら、ソフトウェアサービスの実際のAPIインターフェースへのアクセスを含めることで、両方のアプローチの望ましい特徴を捉えようとしている。このアプローチは2つの重要なイノベーションに依存します。ファジィトレースやパラメータマッチングではなく、タスクの成功を、環境状態の変化が達成されたかどうかとして定義する。 2つ目は、すべてのモデルが外部API(Slack、Box、Linear、Google Calendar)に対してコードを実行するために使用する標準化されたスクリプト層を提供する、新しいサンドボックスである。したがって、サンドボックスを統一して標準化された契約集合に対して異なるエージェントLSMを評価でき、実際のサービスインターフェース上での性能を評価できる。 Agent-Diffフレームワークを使用して、エンタープライズソフトウェアワークフローを利用した224タスクにわたる9つのLCMのベンチマークを提供する。さらに,ベンチマーク性能に関するAPIドキュメンテーションへのアクセスの寄与を評価するために,アブレーション実験によるフレームワークの堅牢性を評価する。コードとデータ:https://github.com/agent-diff-bench/agent-diff。

関連論文リスト

ISO-Bench: Can Coding Agents Optimize Real-World Inference Workloads? [0.8749675983608171]
実世界の推論タスクでその能力をテストするためのコーディングエージェントのベンチマークであるISO-Benchを紹介する。統合プルリクエストから54のタスクをキュレートし、測定可能なパフォーマンスを改善しました。
論文参考訳（メタデータ） (2026-02-23T08:37:53Z)
ABC-Bench: Benchmarking Agentic Backend Coding in Real-World Development [72.4729759618632]
本稿では,現実的かつ実行可能なワークフロー内でエージェントバックエンドコーディングを評価するベンチマークであるABC-Benchを紹介する。オープンソースリポジトリから8つの言語と19のフレームワークにまたがる224の実践的なタスクをキュレートしました。我々の評価は、最先端モデルでさえ、これらの総合的なタスクに対して信頼性の高いパフォーマンスを提供するのに苦労していることを示している。
論文参考訳（メタデータ） (2026-01-16T08:23:52Z)
Open Agent Specification (Agent Spec): A Unified Representation for AI Agents [10.685555728094338]
我々はAIエージェントとエージェントを定義する宣言型言語Open Agent Specification(Agent Spec)を紹介する。 Agent Specは、コンポーネント、コントロールとデータフローのセマンティクス、スキーマの共通セットを定義し、エージェントを一度定義し、異なるランタイム間で実行できるようにする。
論文参考訳（メタデータ） (2025-10-05T12:26:42Z)
Agent4FaceForgery: Multi-Agent LLM Framework for Realistic Face Forgery Detection [108.5042835056188]
この作業では,2つの基本的な問題に対処するため,Agent4FaceForgeryを導入している。人間の偽造の多様な意図と反復的なプロセスを捉える方法。ソーシャルメディアの偽造に付随する複雑な、しばしば敵対的な、テキストと画像のインタラクションをモデル化する方法。
論文参考訳（メタデータ） (2025-09-16T01:05:01Z)
MCPEval: Automatic MCP-based Deep Evaluation for AI Agent Models [76.72220653705679]
我々は、エンドツーエンドタスク生成とインテリジェントエージェントの深い評価を自動化するオープンソースのフレームワークであるMCPEvalを紹介する。 MCPEvalはメトリクスを標準化し、ネイティブエージェントツールとシームレスに統合し、評価パイプラインを構築するための手作業を排除する。実世界の5つのドメインにまたがる実証的な結果から、ニュアンスのある、ドメイン固有のパフォーマンスを明らかにする効果が示された。
論文参考訳（メタデータ） (2025-07-17T05:46:27Z)
Evaluating LLMs on Sequential API Call Through Automated Test Generation [10.621357661774244]
StateGenは、シーケンシャルなAPIインタラクションを含む多様なコーディングタスクを生成するように設計された、自動化されたフレームワークである。 3つの代表的なシナリオにまたがる120の検証済みのテストケースを含むベンチマークであるStateEvalを構築します。実験の結果、StateGenは挑戦的で現実的なAPI指向のタスクを効果的に生成できることを確認した。
論文参考訳（メタデータ） (2025-07-13T03:52:51Z)
What Limits Virtual Agent Application? OmniBench: A Scalable Multi-Dimensional Benchmark for Essential Virtual Agent Capabilities [56.646832992178105]
我々は、制御可能な複雑性のタスクを合成するための自動パイプラインを備えたクロスプラットフォームグラフベースのベンチマークであるOmniBenchを紹介した。 OmniEvalは、サブタスクレベルの評価、グラフベースのメトリクス、および10機能にわたる包括的なテストを含む多次元評価フレームワークである。我々のデータセットには、20のシナリオにわたる36万のグラフ構造化タスクが含まれており、人間の受け入れ率は91%に達する。
論文参考訳（メタデータ） (2025-06-10T15:59:38Z)
Mobile-Bench-v2: A More Realistic and Comprehensive Benchmark for VLM-based Mobile Agents [33.899782380901314]
VLMベースのモバイルエージェントは、スマートフォンのGUIやXML構造化テキストと対話できることから、ますます人気が高まっている。既存のオンラインベンチマークは、動的環境変化による安定した報酬信号を得るのに苦労している。 Mobile-Bench-v2は共通タスク分割を含み、オフラインのマルチパス評価によってエージェントがステップ報酬を得る能力を評価する。
論文参考訳（メタデータ） (2025-05-17T07:58:34Z)
A Framework for Testing and Adapting REST APIs as LLM Tools [11.757827071584737]
大きな言語モデル(LLM)は、外部ツールで複雑なタスクを実行する自律エージェントを構築するために、ますます使われています。現在のベンチマークではこれらの課題を見落としており、エージェント駆動自動化のためのAPI準備性の評価のギャップが残っている。 LLMエージェント用のPythonツールとしてラップされたエンタープライズAPIを体系的に評価するテストフレームワークを提案する。
論文参考訳（メタデータ） (2025-04-22T02:52:08Z)
Are You Getting What You Pay For? Auditing Model Substitution in LLM APIs [71.7892165868749]
LLM(Commercial Large Language Model) APIは基本的な信頼の問題を生み出します。ユーザーは特定のモデルに課金するが、プロバイダが忠実に提供できることを保証することはない。我々は,このモデル置換問題を定式化し,現実的な逆条件下での検出方法を評価する。我々は,信頼された実行環境(TEE)を実用的で堅牢なソリューションとして使用し,評価する。
論文参考訳（メタデータ） (2025-04-07T03:57:41Z)
SOPBench: Evaluating Language Agents at Following Standard Operating Procedures and Constraints [59.645885492637845]
SOPBenchは、各サービス固有のSOPコードプログラムを実行可能な関数の有向グラフに変換する評価パイプラインである。提案手法では,各サービス固有のSOPコードプログラムを実行可能関数の有向グラフに変換し,自然言語SOP記述に基づいてこれらの関数を呼び出しなければならない。我々は18の先行モデルを評価し、上位モデルでさえタスクが困難であることを示す。
論文参考訳（メタデータ） (2025-03-11T17:53:02Z)
Reinforcement Learning for Long-Horizon Interactive LLM Agents [56.9860859585028]
インタラクティブデジタルエージェント(IDA)は、ステートフルなデジタル環境のAPIを利用して、ユーザの要求に応じてタスクを実行する。対象環境で直接IDAを訓練する強化学習(RL)手法を提案する。我々は、近似ポリシー最適化のデータおよびメモリ効率の亜種である LOOP を導出する。
論文参考訳（メタデータ） (2025-02-03T18:35:42Z)
CRAB: Cross-environment Agent Benchmark for Multimodal Language Model Agents [49.68117560675367]
Crabは、クロス環境タスクをサポートするように設計された最初のベンチマークフレームワークである。私たちのフレームワークは複数のデバイスをサポートし、Pythonインターフェースで簡単に任意の環境に拡張できます。実験の結果、GPT-4oの1剤が38.01%の最高完成率を達成することが示された。
論文参考訳（メタデータ） (2024-07-01T17:55:04Z)
ShortcutsBench: A Large-Scale Real-world Benchmark for API-based Agents [7.166156709980112]
textscShortcutsBenchは、実世界の複雑なタスクを解決するためのAPIベースのエージェントの包括的な評価のためのベンチマークである。 textscShortcutsBenchには、Apple Inc.の豊富な実際のAPI、洗練されたユーザクエリ、人間のアノテーションによる高品質なアクションシーケンス、詳細なパラメータフィリング値、システムやユーザから必要な入力を要求するパラメータが含まれている。
論文参考訳（メタデータ） (2024-06-28T08:45:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。