論文の概要: SOP-Bench: Complex Industrial SOPs for Evaluating LLM Agents
- arxiv url: http://arxiv.org/abs/2506.08119v1
- Date: Mon, 09 Jun 2025 18:20:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-11 15:11:40.361331
- Title: SOP-Bench: Complex Industrial SOPs for Evaluating LLM Agents
- Title(参考訳): SOP-Bench:LLM剤評価のための複合産業用SOP
- Authors: Subhrangshu Nandi, Arghya Datta, Nikhil Vichare, Indranil Bhattacharya, Huzefa Raja, Jing Xu, Shayan Ray, Giuseppe Carenini, Abhi Srivastava, Aaron Chan, Man Ho Woo, Amar Kandola, Brandon Theresa, Francesco Carbone,
- Abstract要約: 大規模言語モデル(LLM)は、目覚ましい汎用推論と問題解決能力を示している。
LLMは、標準動作手順の厳格な遵守を要求する複雑な長期水平実行に苦慮している。
SOP-Benchは10の産業ドメインにわたる1,800以上のタスクのベンチマークである。
- 参考スコア(独自算出の注目度): 16.08820954102608
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Large Language Models (LLMs) demonstrate impressive general-purpose reasoning and problem-solving abilities. However, they struggle with executing complex, long-horizon workflows that demand strict adherence to Standard Operating Procedures (SOPs), a critical requirement for real-world industrial automation. Despite this need, there is a lack of public benchmarks that reflect the complexity, structure, and domain-specific nuances of SOPs. To address this, we present three main contributions. First, we introduce a synthetic data generation framework to create realistic, industry-grade SOPs that rigorously test the planning, reasoning, and tool-use capabilities of LLM-based agents. Second, using this framework, we develop SOP-Bench, a benchmark of over 1,800 tasks across 10 industrial domains, each with APIs, tool interfaces, and human-validated test cases. Third, we evaluate two prominent agent architectures: Function-Calling and ReAct Agents, on SOP-Bench, observing average success rates of only 27% and 48%, respectively. Remarkably, when the tool registry is much larger than necessary, agents invoke incorrect tools nearly 100% of the time. These findings underscore a substantial gap between current agentic capabilities of LLMs and the demands of automating real-world SOPs. Performance varies significantly by task and domain, highlighting the need for domain-specific benchmarking and architectural choices before deployment. SOP-Bench is publicly available at http://sop-bench.s3-website-us-west-2.amazonaws.com/. We also release the prompts underpinning the data generation framework to support new domain-specific SOP benchmarks. We invite the community to extend SOP-Bench with SOPs from their industrial domains.
- Abstract(参考訳): 大規模言語モデル(LLM)は、目覚ましい汎用推論と問題解決能力を示している。
しかし、彼らは、現実世界の産業自動化にとって重要な要件であるSOP(Standard Operating Procedures)の厳格な遵守を要求する複雑な長期ワークフローの実行に苦労している。
このようなニーズにもかかわらず、SOPの複雑さ、構造、ドメイン固有のニュアンスを反映する公開ベンチマークが欠如している。
これに対処するため、主な貢献は3つある。
まず, LLMをベースとしたエージェントの計画, 推論, ツール使用能力を厳格にテストする, リアルで業界レベルのSOPを作成するための合成データ生成フレームワークを紹介する。
第2に、このフレームワークを使用して、API、ツールインターフェース、人為的なテストケースを備えた10の産業ドメインにわたる1,800以上のタスクのベンチマークであるSOP-Benchを開発します。
第3に,SOP-Bench上では,SOP-CallingとReAct Agentsの2つの顕著なエージェントアーキテクチャを評価し,平均成功率は27%と48%であった。
注目すべきは、ツールレジストリが必要以上に大きい場合、エージェントが不正なツールをほぼ100%呼び出すことだ。
これらの結果は、LLMの現在のエージェント能力と現実世界のSOPの自動化の要求との間に大きなギャップがあることを裏付けるものである。
パフォーマンスはタスクとドメインによって大きく異なり、デプロイ前にドメイン固有のベンチマークとアーキテクチャの選択の必要性を強調している。
SOP-Benchはhttp://sop-bench.s3-website-us-west-2.amazonaws.com/で公開されている。
また、新しいドメイン固有のSOPベンチマークをサポートするために、データ生成フレームワークの基盤となるプロンプトもリリースします。
我々は、SOP-Benchを産業領域からSOPに拡張するようコミュニティに呼びかける。
関連論文リスト
- ThinkGeo: Evaluating Tool-Augmented Agents for Remote Sensing Tasks [54.52092001110694]
ThinkGeoは、構造化ツールの使用とマルチステップ計画を通じて、リモートセンシングタスクにおけるツール拡張エージェントを評価するために設計されたベンチマークである。
ThinkGeoは、ツール-インタラクションのパラダイムにインスパイアされたもので、さまざまな現実世界のアプリケーションにまたがる人間のクエリを含んでいる。
分析の結果、ツールの精度とモデル間の計画整合性に顕著な相違が明らかになった。
論文 参考訳(メタデータ) (2025-05-29T17:59:38Z) - AGENTIF: Benchmarking Instruction Following of Large Language Models in Agentic Scenarios [51.46347732659174]
LLM(Large Language Models)は、現実世界のエージェントアプリケーションにおいて高度な機能を示す。
AgentIFは、エージェントシナリオでLLM命令に従う能力を体系的に評価する最初のベンチマークである。
論文 参考訳(メタデータ) (2025-05-22T17:31:10Z) - DMind Benchmark: Toward a Holistic Assessment of LLM Capabilities across the Web3 Domain [6.275468311396066]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて印象的なパフォーマンスを達成した。
DMind Benchmarkは、9つの重要なサブフィールドをカバーする総合的なWeb3指向評価スイートである。
評価対象はChatGPT, Claude, DeepSeek, Gemini, Grok, Qwenなど26モデルである。
論文 参考訳(メタデータ) (2025-04-18T16:40:39Z) - OmniNova:A General Multimodal Agent Framework [0.5439020425819]
特殊なツールを備えた大規模言語モデル(LLM)は、インテリジェントな自動化システムに新たな機会をもたらす。
OmniNovaはモジュール型のマルチエージェント自動化フレームワークで、言語モデルとWeb検索、クローリング、コード実行機能といった特殊なツールを組み合わせる。
論文 参考訳(メタデータ) (2025-03-25T19:21:01Z) - SOP-Agent: Empower General Purpose AI Agent with Domain-Specific SOPs [9.117180930298813]
汎用AIエージェントは、ドメイン固有の知識と人間の専門知識を効率的に活用するのに苦労する。
ドメイン固有のエージェントを構築するための新しいフレームワークであるSOP-agent(Standard Operational Procedure-Guided Agent)を紹介する。
SOPエージェントは優れた汎用性を示し、汎用エージェントフレームワークよりも優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-01-16T06:14:58Z) - Top General Performance = Top Domain Performance? DomainCodeBench: A Multi-domain Code Generation Benchmark [38.14474956762422]
DomainCodeBenchは、12のソフトウェアアプリケーションドメインと15のプログラミング言語にわたる大規模言語モデル(LLM)を評価するために設計されたベンチマークである。
トップ・ジェネラル・ドメイン・モデルは特定のアプリケーション・ドメインで一貫して排他的でないことが分かりました。
ドメイン固有の知識による拡張プロンプトは、パフォーマンスを約38.17%向上させる。
論文 参考訳(メタデータ) (2024-12-24T17:56:08Z) - AutoPT: How Far Are We from the End2End Automated Web Penetration Testing? [54.65079443902714]
LLMによって駆動されるPSMの原理に基づく自動浸透試験エージェントであるAutoPTを紹介する。
以上の結果から, AutoPT は GPT-4o ミニモデル上でのベースラインフレームワーク ReAct よりも優れていた。
論文 参考訳(メタデータ) (2024-11-02T13:24:30Z) - ShortcutsBench: A Large-Scale Real-world Benchmark for API-based Agents [7.166156709980112]
textscShortcutsBenchは、実世界の複雑なタスクを解決するためのAPIベースのエージェントの包括的な評価のためのベンチマークである。
textscShortcutsBenchには、Apple Inc.の豊富な実際のAPI、洗練されたユーザクエリ、人間のアノテーションによる高品質なアクションシーケンス、詳細なパラメータフィリング値、システムやユーザから必要な入力を要求するパラメータが含まれている。
論文 参考訳(メタデータ) (2024-06-28T08:45:02Z) - Enhancing Open-Domain Task-Solving Capability of LLMs via Autonomous Tool Integration from GitHub [79.31134731122462]
オープンドメインのタスク解決能力を評価するためにOpenActベンチマークを導入します。
我々は,オープンドメインの進化するクエリに,GitHubから専門ツールを自律的に統合することで対処できる,新しいLLMベースのエージェントシステムであるOpenAgentを紹介する。
論文 参考訳(メタデータ) (2023-12-28T15:47:30Z) - Domain-Expanded ASTE: Rethinking Generalization in Aspect Sentiment Triplet Extraction [67.54420015049732]
Aspect Sentiment Triplet extract (ASTE) は感情分析における課題であり、人間の感情に対するきめ細かい洞察を提供することを目的としている。
既存のベンチマークは2つのドメインに限定されており、目に見えないドメイン上でのモデルパフォーマンスを評価しない。
各種ドメインのサンプルに注釈を付けることでドメイン拡張ベンチマークを導入し,ドメイン内設定とドメイン外設定の両方でモデルの評価を可能にする。
論文 参考訳(メタデータ) (2023-05-23T18:01:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。