論文の概要: SOP-Maze: Evaluating Large Language Models on Complicated Business Standard Operating Procedures
- arxiv url: http://arxiv.org/abs/2510.08942v1
- Date: Fri, 10 Oct 2025 02:47:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 00:38:48.021248
- Title: SOP-Maze: Evaluating Large Language Models on Complicated Business Standard Operating Procedures
- Title(参考訳): SOP-Maze: 複雑なビジネス標準運用手順に基づく大規模言語モデルの評価
- Authors: Jiaming Wang, Zhe Tang, Yilin Jin, Peng Ding, Xiaoyu Li, Xuezhi Cao,
- Abstract要約: 大規模言語モデル(LLM)はドメイン固有のエージェントとして広くデプロイされている。
実世界のビジネスデータから構築したベンチマークであるSOP-Mazeを提案する。
大規模な実験により、最先端のほぼ全てのモデルがSOP-Mazeと競合していることが判明した。
- 参考スコア(独自算出の注目度): 10.868853536476317
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As large language models (LLMs) are widely deployed as domain-specific agents, many benchmarks have been proposed to evaluate their ability to follow instructions and make decisions in real-world scenarios. However, business scenarios often involve complex standard operating procedures (SOPs), and the evaluation of LLM capabilities in such contexts has not been fully explored. To bridge this gap, we propose SOP-Maze, a benchmark constructed from real-world business data and adapted into a collection of 397 tasks from 23 complex SOP scenarios. We further categorize SOP tasks into two broad classes: Lateral Root System (LRS), representing wide-option tasks that demand precise selection; and Heart Root System (HRS), which emphasizes deep logical reasoning with complex branches. Extensive experiments reveal that nearly all state-of-the-art models struggle with SOP-Maze. We conduct a comprehensive analysis and identify three key error categories: (i) route blindness: difficulty following procedures; (ii) conversational fragility: inability to handle real dialogue nuances; and (iii) calculation errors: mistakes in time or arithmetic reasoning under complex contexts. The systematic study explores LLM performance across SOP tasks that challenge both breadth and depth, offering new insights for improving model capabilities. We have open-sourced our work on https://github.com/ADoublLEN/SOP-Maze.
- Abstract(参考訳): 大規模言語モデル(LLM)はドメイン固有のエージェントとして広くデプロイされているため、実際のシナリオにおいて命令に従う能力や決定を行う能力を評価するために多くのベンチマークが提案されている。
しかし、ビジネスシナリオには複雑な標準的操作手順(SOP)が伴うことが多く、そのような状況下でのLLM機能の評価は十分に検討されていない。
このギャップを埋めるために、現実世界のビジネスデータから構築され、23の複雑なSOPシナリオから397のタスクの集合に適応したベンチマークであるSOP-Mazeを提案する。
さらに、SOPタスクを、正確な選択を必要とするワイドオプションタスクを表すラテラルルートシステム(LRS)と、複雑な分岐による深い論理的推論を強調するハートルートシステム(HRS)の2つの幅広いクラスに分類する。
大規模な実験により、最先端のほぼ全てのモデルがSOP-Mazeと競合していることが判明した。
包括的な分析を行い、3つの重要なエラーカテゴリを特定します。
一 経路盲人:手続きの難しさ
(二)会話の脆弱性:実際の対話ニュアンスを扱えないこと、
三 計算誤差:複雑な文脈下での時間的誤り又は算術的推論。
体系的な研究は、SOPタスク全体でのLLMパフォーマンスを探求し、モデル機能を改善するための新しい洞察を提供する。
私たちはhttps://github.com/ADoublLEN/SOP-Maze.comの作業をオープンソース化しました。
関連論文リスト
- MSCoRe: A Benchmark for Multi-Stage Collaborative Reasoning in LLM Agents [7.339769470891067]
MSCoReは、自動車、医薬品、エレクトロニクス、エネルギー分野のシナリオにまたがる126696ドメイン固有のQAインスタンスからなる新しいベンチマークである。
商用モデルはすべてのタスクやシナリオで最高に機能するが、ROUGEのスコアの顕著な差は、単純なタスクと複雑なタスクの間にある。
MSCoReは、LLMエージェントの多段階推論を評価し改善するための、コミュニティにとって価値のある新しいリソースを提供する。
論文 参考訳(メタデータ) (2025-09-22T11:36:16Z) - How Good are Foundation Models in Step-by-Step Embodied Reasoning? [79.15268080287505]
身体的エージェントは、安全で空間的に整合性があり、文脈に根ざした決定をしなければならない。
大規模マルチモーダルモデルの最近の進歩は、視覚的理解と言語生成において有望な能力を示している。
私たちのベンチマークには、10のタスクと8のエボディメントにまたがる詳細なステップバイステップ推論を備えた1.1k以上のサンプルが含まれています。
論文 参考訳(メタデータ) (2025-09-18T17:56:30Z) - Large Language Models and Operations Research: A Structured Survey [9.208082097215314]
大規模言語モデル(LLM)は、意味理解、構造化生成、推論制御を通じて制限に対処する可能性を示している。
LLMは、自然言語記述を数学的モデルや実行可能なコードに変換し、ベンチマークを生成し、アルゴリズムを進化させ、最適化タスクに取り組むことができる。
論文 参考訳(メタデータ) (2025-09-18T01:52:19Z) - Towards Adaptive ML Benchmarks: Web-Agent-Driven Construction, Domain Expansion, and Metric Optimization [8.356074728041202]
TAM Benchは、エンドツーエンドの機械学習タスクで大規模言語モデル(LLM)を評価するためのベンチマークである。
3つの重要なイノベーションは、ブラウザの自動化とLLMベースのタスク獲得システムである。
150のキュレートされたAutoMLタスクに基づいて、異なるサイズのベンチマークサブセットを3つ構築する。
論文 参考訳(メタデータ) (2025-09-11T10:10:48Z) - EIFBENCH: Extremely Complex Instruction Following Benchmark for Large Language Models [64.70546873396624]
大規模言語モデル(LLM)を評価するためのEIFBENCH(Extremely Complex Instruction following Benchmark)を提案する。
EIFBENCHにはマルチタスクシナリオが含まれており、多様なタスクタイプを同時に総合的に評価することができる。
また,LLMのマルチタスクワークフローを正確に満たす能力を高めるために,セグメントポリシー最適化(SegPO)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-06-10T02:39:55Z) - Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More? [54.667202878390526]
長文言語モデル(LCLM)は、従来、検索システムやデータベースといった外部ツールに依存していたタスクへのアプローチに革命をもたらす可能性がある。
実世界のタスクのベンチマークであるLOFTを導入し、文脈内検索と推論においてLCLMの性能を評価するために設計された数百万のトークンを出力する。
以上の結果からLCLMは,これらのタスクを明示的に訓練したことがないにも関わらず,最先端の検索システムやRAGシステムと競合する驚くべき能力を示した。
論文 参考訳(メタデータ) (2024-06-19T00:28:58Z) - Can Large Language Models Understand Real-World Complex Instructions? [54.86632921036983]
大型言語モデル(LLM)は人間の指示を理解することができるが、複雑な命令には耐えられない。
既存のベンチマークでは、LLMが複雑な命令を理解する能力を評価するには不十分である。
複雑な命令を体系的に追従するLSMの能力を評価するためのベンチマークであるCellOを提案する。
論文 参考訳(メタデータ) (2023-09-17T04:18:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。