論文の概要: AutomationBench
- arxiv url: http://arxiv.org/abs/2604.18934v1
- Date: Tue, 21 Apr 2026 00:14:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-22 22:41:49.548538
- Title: AutomationBench
- Title(参考訳): AutomationBench
- Authors: Daniel Shepard, Robin Salimans,
- Abstract要約: ソフトウェア自動化のための既存のAIベンチマークは、アプリケーション間調整、自律的なAPI発見、ポリシー順守を組み合わせたことはめったにない。
AutomationBenchは、企業が実際に必要とするエージェント能力に対して、現在のモデルがどこにあるかを示す、挑戦的で現実的な指標を提供する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing AI benchmarks for software automation rarely combine cross-application coordination, autonomous API discovery, and policy adherence. Real business workflows demand all three: a single task may span a CRM, inbox, calendar, and messaging platform - requiring the agent to find the right endpoints, follow a policy document, and write correct data to each system. To address this gap, we introduce AutomationBench, a benchmark for evaluating AI agents on cross-application workflow orchestration via REST APIs. Drawing on real workflow patterns from Zapier's platform, tasks span Sales, Marketing, Operations, Support, Finance, and HR domains. Agents must discover relevant endpoints themselves, follow layered business rules, and navigate environments with irrelevant and sometimes misleading records. Grading is programmatic and end-state only: whether the correct data ended up in the right systems. Even the best frontier models currently score below 10%. AutomationBench provides a challenging, realistic measure of where current models stand relative to the agentic capabilities businesses actually need.
- Abstract(参考訳): ソフトウェア自動化のための既存のAIベンチマークは、アプリケーション間調整、自律的なAPI発見、ポリシー順守を組み合わせたことはめったにない。
単一のタスクはCRM、受信箱、カレンダ、メッセージングプラットフォームにまたがる可能性がある - エージェントが適切なエンドポイントを見つけ、ポリシー文書をフォローし、各システムに正しいデータを書き込む必要がある。
このギャップに対処するため、REST API経由でのアプリケーション間ワークフローオーケストレーションにおけるAIエージェントの評価のためのベンチマークであるAutomanceBenchを紹介します。
Zapier氏のプラットフォームの実際のワークフローパターンに基づいて、セールス、マーケティング、オペレーション、サポート、ファイナンス、HRドメインにまたがるタスクを描画する。
エージェントは、関連するエンドポイント自体を発見し、階層化されたビジネスルールに従い、無関係で時には誤解を招くようなレコードで環境をナビゲートする必要があります。
グラディングはプログラム的で最終状態のみであり、正しいデータが正しいシステムで終わるかどうかである。
現在最高のフロンティアモデルでさえ10%以下だ。
AutomationBenchは、企業が実際に必要とするエージェント能力に対して、現在のモデルがどこにあるかを示す、挑戦的で現実的な指標を提供する。
関連論文リスト
- SAGE: A Service Agent Graph-guided Evaluation Benchmark [27.342044311161654]
本稿では,SAGE(Service Agent Graph-Guided Evaluation)を提案する。
SAGEは構造化されていないSOPを動的ダイアロググラフに形式化し、論理的コンプライアンスの正確な検証を可能にする。
また、モデルが論理的失敗にもかかわらず丁寧な会話ファサードを維持する現象である「共感回復」も観察する。
論文 参考訳(メタデータ) (2026-04-10T12:55:23Z) - AgentSkiller: Scaling Generalist Agent Intelligence through Semantically Integrated Cross-Domain Data Synthesis [30.512393568258105]
大規模言語モデルエージェントは、ツールを介して現実世界の問題を解決する可能性を実証するが、汎用的な知性は、質の低い長期データによってボトルネックとなる。
本稿では,現実的なセマンティックなドメイン間でのマルチターンインタラクションデータを合成する,完全に自動化されたフレームワークであるAgentSkillerを提案する。
論文 参考訳(メタデータ) (2026-02-10T03:21:42Z) - ABC-Bench: Benchmarking Agentic Backend Coding in Real-World Development [72.4729759618632]
本稿では,現実的かつ実行可能なワークフロー内でエージェントバックエンドコーディングを評価するベンチマークであるABC-Benchを紹介する。
オープンソースリポジトリから8つの言語と19のフレームワークにまたがる224の実践的なタスクをキュレートしました。
我々の評価は、最先端モデルでさえ、これらの総合的なタスクに対して信頼性の高いパフォーマンスを提供するのに苦労していることを示している。
論文 参考訳(メタデータ) (2026-01-16T08:23:52Z) - GOAT: A Training Framework for Goal-Oriented Agent with Tools [16.5275883251462]
大規模言語モデル(LLM)は、インタラクティブエージェントとして機能するために、最近、従来のテキスト生成を超えて拡張されている。
本研究では,人間のアノテーションを含まない環境下でのLDMエージェントの微調整を可能にする新しいトレーニングフレームワークGOATを提案する。
広範な実験により,GOAT学習エージェントは,複数の既存の目標指向ベンチマークにおいて最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2025-10-14T07:14:50Z) - SCUBA: Salesforce Computer Use Benchmark [63.66753028386581]
SCUBAは、Salesforceプラットフォーム内の顧客関係管理(CRM)上のコンピュータ利用エージェントを評価するために設計されたベンチマークである。
SCUBAには、実際のユーザインタビューから派生した300のタスクインスタンスが含まれており、3つの主要なペルソナ、プラットフォーム管理者、セールス担当者、サービスエージェントで構成されている。
ゼロショット設定とデモ拡張設定の両方で、多様なエージェントのセットをベンチマークします。
論文 参考訳(メタデータ) (2025-09-30T16:48:49Z) - FieldWorkArena: Agentic AI Benchmark for Real Field Work Tasks [52.47895046206854]
FieldWorkArenaは、現実世界のフィールドワークをターゲットにしたエージェントAIのベンチマークである。
本稿では、エージェントAIが現実世界の作業環境ベンチマークのために持つべき新しいアクション空間を定義する。
論文 参考訳(メタデータ) (2025-05-26T08:21:46Z) - OfficeBench: Benchmarking Language Agents across Multiple Applications for Office Automation [51.27062359412488]
Officeの自動化は、ワークフローでルーチンタスクを自動的に終了することで、人間の生産性を著しく向上させる。
OfficeBenchは、現実的なオフィスにおけるオフィスタスクに対処する現在のLLMエージェントの能力を評価するための、最初のオフィス自動化ベンチマークの1つです。
各タスクにカスタマイズした評価手法を適用すると、GPT-4 Omniは47.00%の最高パス率を達成し、オフィスタスクの処理に優れた性能を示した。
論文 参考訳(メタデータ) (2024-07-26T19:27:17Z) - Spider2-V: How Far Are Multimodal Agents From Automating Data Science and Engineering Workflows? [73.81908518992161]
我々は、プロのデータサイエンスとエンジニアリングに焦点を当てた最初のマルチモーダルエージェントベンチマークであるSpider2-Vを紹介する。
Spider2-Vは、本物のコンピュータ環境における現実世界のタスクを特徴とし、20のエンタープライズレベルのプロフェッショナルアプリケーションを組み込んでいる。
これらのタスクは、エンタープライズデータソフトウェアシステムにおいて、コードを書き、GUIを管理することで、マルチモーダルエージェントがデータ関連のタスクを実行する能力を評価する。
論文 参考訳(メタデータ) (2024-07-15T17:54:37Z) - ShortcutsBench: A Large-Scale Real-world Benchmark for API-based Agents [7.166156709980112]
textscShortcutsBenchは、実世界の複雑なタスクを解決するためのAPIベースのエージェントの包括的な評価のためのベンチマークである。
textscShortcutsBenchには、Apple Inc.の豊富な実際のAPI、洗練されたユーザクエリ、人間のアノテーションによる高品質なアクションシーケンス、詳細なパラメータフィリング値、システムやユーザから必要な入力を要求するパラメータが含まれている。
論文 参考訳(メタデータ) (2024-06-28T08:45:02Z) - Semantic API Alignment: Linking High-level User Goals to APIs [6.494714497852088]
既存のライブラリを使った要件エンジニアリングから実装まで,複数のステップにまたがるビジョンを提示する。
このアプローチは、セマンティックAPIアライメント(SEAL)と呼ばれ、ユーザの高レベルな目標と1つ以上のAPIの特定の機能とのギャップを埋めることを目的としています。
論文 参考訳(メタデータ) (2024-05-07T11:54:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。