論文の概要: WONDERBREAD: A Benchmark for Evaluating Multimodal Foundation Models on Business Process Management Tasks
- arxiv url: http://arxiv.org/abs/2406.13264v2
- Date: Fri, 11 Oct 2024 00:06:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-14 13:30:18.686963
- Title: WONDERBREAD: A Benchmark for Evaluating Multimodal Foundation Models on Business Process Management Tasks
- Title(参考訳): WONDERBREAD:ビジネスプロセス管理タスクにおけるマルチモーダルファンデーションモデルの評価ベンチマーク
- Authors: Michael Wornow, Avanika Narayan, Ben Viggiano, Ishan S. Khare, Tathagat Verma, Tibor Thompson, Miguel Angel Fuentes Hernandez, Sudharsan Sundar, Chloe Trujillo, Krrish Chawla, Rongfei Lu, Justin Shen, Divya Nagaraj, Joshua Martinez, Vardhan Agrawal, Althea Hudson, Nigam H. Shah, Christopher Re,
- Abstract要約: 既存のMLベンチマークには、ビジネスプロセス管理(BPM)タスクのモデルを評価するのに必要なアノテーションの深さと多様性が欠けている。
我々のベンチマークでは、最先端のFMはドキュメンテーションを自動的に生成できるが、ワークフロー補完のよりきめ細かい検証に向けてその知識を再適用するのに苦労している。
- 参考スコア(独自算出の注目度): 11.701910903349201
- License:
- Abstract: Existing ML benchmarks lack the depth and diversity of annotations needed for evaluating models on business process management (BPM) tasks. BPM is the practice of documenting, measuring, improving, and automating enterprise workflows. However, research has focused almost exclusively on one task - full end-to-end automation using agents based on multimodal foundation models (FMs) like GPT-4. This focus on automation ignores the reality of how most BPM tools are applied today - simply documenting the relevant workflow takes 60% of the time of the typical process optimization project. To address this gap we present WONDERBREAD, the first benchmark for evaluating multimodal FMs on BPM tasks beyond automation. Our contributions are: (1) a dataset containing 2928 documented workflow demonstrations; (2) 6 novel BPM tasks sourced from real-world applications ranging from workflow documentation to knowledge transfer to process improvement; and (3) an automated evaluation harness. Our benchmark shows that while state-of-the-art FMs can automatically generate documentation (e.g. recalling 88% of the steps taken in a video demonstration of a workflow), they struggle to re-apply that knowledge towards finer-grained validation of workflow completion (F1 < 0.3). We hope WONDERBREAD encourages the development of more "human-centered" AI tooling for enterprise applications and furthers the exploration of multimodal FMs for the broader universe of BPM tasks. We publish our dataset and experiments here: https://github.com/HazyResearch/wonderbread
- Abstract(参考訳): 既存のMLベンチマークには、ビジネスプロセス管理(BPM)タスクのモデルを評価するのに必要なアノテーションの深さと多様性が欠けている。
BPMはエンタープライズワークフローの文書化、測定、改善、自動化のプラクティスです。
GPT-4のようなマルチモーダル・ファンデーション・モデル(FM)に基づくエージェントを用いたエンドツーエンドの自動化。
関連したワークフローの文書化は、典型的なプロセス最適化プロジェクトの60%の時間を要する。
このギャップに対処するため、私たちはWONDERBREADというBPMタスクにおけるマルチモーダルFMを評価するための最初のベンチマークを紹介します。
1)ドキュメント化されたワークフローのデモを含むデータセット、(2)ワークフローのドキュメントから知識の伝達、プロセスの改善まで、現実世界のアプリケーションから得られた6つの新しいBPMタスク、(3)自動評価ハーネス。
我々のベンチマークでは、最先端のFMは自動的にドキュメンテーションを生成することができるが(例えば、ワークフローのデモビデオにおけるステップの88%をリコールする)、ワークフロー完了のよりきめ細かい検証(F1 < 0.3)への知識の再適用に苦労している。
WONDERBREADは、エンタープライズアプリケーションのためのより「人間中心の」AIツールの開発を奨励し、BPMタスクのより広い宇宙のためのマルチモーダルFMの探索をさらに進めることを願っています。
データセットと実験はこちらで公開しています。
関連論文リスト
- WorkflowLLM: Enhancing Workflow Orchestration Capability of Large Language Models [105.46456444315693]
ワークフローオーケストレーションにおける大規模言語モデルの能力を高めるための,データ中心のフレームワークであるLLMを提案する。
最初は106,763のサンプルで大規模な微調整Benchを構築し、28のカテゴリにわたる83のアプリケーションから1,503のAPIをカバーしている。
LlamaLlamaは複雑なAPIをオーケストレーションする能力を示しながら、優れた一般化性能を実現している。
論文 参考訳(メタデータ) (2024-11-08T09:58:02Z) - Benchmarking Agentic Workflow Generation [80.74757493266057]
複数面シナリオと複雑なグラフワークフロー構造を備えた統合ワークフロー生成ベンチマークであるWorFBenchを紹介する。
また,サブシーケンスとサブグラフマッチングアルゴリズムを利用したシステム評価プロトコルWorFEvalを提案する。
我々は、生成されたタスクが下流のタスクを強化し、推論中により少ない時間で優れたパフォーマンスを達成することができることを観察する。
論文 参考訳(メタデータ) (2024-10-10T12:41:19Z) - OfficeBench: Benchmarking Language Agents across Multiple Applications for Office Automation [51.27062359412488]
Officeの自動化は、ワークフローでルーチンタスクを自動的に終了することで、人間の生産性を著しく向上させる。
OfficeBenchは、現実的なオフィスにおけるオフィスタスクに対処する現在のLLMエージェントの能力を評価するための、最初のオフィス自動化ベンチマークの1つです。
各タスクにカスタマイズした評価手法を適用すると、GPT-4 Omniは47.00%の最高パス率を達成し、オフィスタスクの処理に優れた性能を示した。
論文 参考訳(メタデータ) (2024-07-26T19:27:17Z) - Spider2-V: How Far Are Multimodal Agents From Automating Data Science and Engineering Workflows? [73.81908518992161]
我々は、プロのデータサイエンスとエンジニアリングに焦点を当てた最初のマルチモーダルエージェントベンチマークであるSpider2-Vを紹介する。
Spider2-Vは、本物のコンピュータ環境における現実世界のタスクを特徴とし、20のエンタープライズレベルのプロフェッショナルアプリケーションを組み込んでいる。
これらのタスクは、エンタープライズデータソフトウェアシステムにおいて、コードを書き、GUIを管理することで、マルチモーダルエージェントがデータ関連のタスクを実行する能力を評価する。
論文 参考訳(メタデータ) (2024-07-15T17:54:37Z) - Machine learning in business process management: A systematic literature review [0.0]
機械学習(ML)は、明示的にプログラムすることなく、データに基づいてコンピュータプログラムを作成するアルゴリズムを提供する。
MLを使用する3つの頻繁な例は、予測による意思決定のサポート、正確なプロセスモデルの検出、リソース割り当ての改善である。
この研究は、BPMでMLがどのように使われているかについて、初めての徹底的なレビューである。
論文 参考訳(メタデータ) (2024-05-26T01:12:24Z) - Automating the Enterprise with Foundation Models [15.708380634503467]
ECLAIRは、最小限の人的監督でエンタープライズを自動化するシステムである。
オープンな課題として、人間とAIのコラボレーション、検証、自己改善を取り上げます。
論文 参考訳(メタデータ) (2024-05-03T23:25:15Z) - Accelerated Cloud for Artificial Intelligence (ACAI) [24.40451195277244]
我々は、エンドツーエンドのクラウドベースの機械学習プラットフォームであるAccelerated Cloud for AI (ACAI)を提案する。
ACAIは、インデックス付き、ラベル付き、検索可能なデータのクラウドストレージと、自動リソースプロビジョニング、ジョブスケジューリング、実験追跡を可能にする。
自動プロビジョン装置は1.7倍のスピードアップと39%のコスト削減を実現し,典型的なMLのユースケースにおいて,ML科学者の実験時間を20%短縮することを示した。
論文 参考訳(メタデータ) (2024-01-30T07:09:48Z) - TaskBench: Benchmarking Large Language Models for Task Automation [82.2932794189585]
タスク自動化における大規模言語モデル(LLM)の機能を評価するためのフレームワークであるTaskBenchを紹介する。
具体的には、タスクの分解、ツールの選択、パラメータ予測を評価する。
提案手法は, 自動構築と厳密な人的検証を組み合わせることで, 人的評価との整合性を確保する。
論文 参考訳(メタデータ) (2023-11-30T18:02:44Z) - MME: A Comprehensive Evaluation Benchmark for Multimodal Large Language Models [73.86954509967416]
マルチモーダル言語モデル(MLLM)は、マルチモーダルタスクを実行するために強力なLLMに依存している。
本稿では,MLLM 評価ベンチマーク MME について述べる。
知覚能力と認知能力の両方を合計14のサブタスクで測定する。
論文 参考訳(メタデータ) (2023-06-23T09:22:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。