論文の概要: OfficeBench: Benchmarking Language Agents across Multiple Applications for Office Automation
- arxiv url: http://arxiv.org/abs/2407.19056v1
- Date: Fri, 26 Jul 2024 19:27:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-30 20:02:28.873853
- Title: OfficeBench: Benchmarking Language Agents across Multiple Applications for Office Automation
- Title(参考訳): OfficeBench: Office自動化のための複数のアプリケーションにわたる言語エージェントのベンチマーク
- Authors: Zilong Wang, Yuedong Cui, Li Zhong, Zimin Zhang, Da Yin, Bill Yuchen Lin, Jingbo Shang,
- Abstract要約: Officeの自動化は、ワークフローでルーチンタスクを自動的に終了することで、人間の生産性を著しく向上させる。
OfficeBenchは、現実的なオフィスにおけるオフィスタスクに対処する現在のLLMエージェントの能力を評価するための、最初のオフィス自動化ベンチマークの1つです。
各タスクにカスタマイズした評価手法を適用すると、GPT-4 Omniは47.00%の最高パス率を達成し、オフィスタスクの処理に優れた性能を示した。
- 参考スコア(独自算出の注目度): 51.27062359412488
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Office automation significantly enhances human productivity by automatically finishing routine tasks in the workflow. Beyond the basic information extraction studied in much of the prior document AI literature, the office automation research should be extended to more realistic office tasks which require to integrate various information sources in the office system and produce outputs through a series of decision-making processes. We introduce OfficeBench, one of the first office automation benchmarks for evaluating current LLM agents' capability to address office tasks in realistic office workflows. OfficeBench requires LLM agents to perform feasible long-horizon planning, proficiently switch between applications in a timely manner, and accurately ground their actions within a large combined action space, based on the contextual demands of the workflow. Applying our customized evaluation methods on each task, we find that GPT-4 Omni achieves the highest pass rate of 47.00%, demonstrating a decent performance in handling office tasks. However, this is still far below the human performance and accuracy standards required by real-world office workflows. We further observe that most issues are related to operation redundancy and hallucinations, as well as limitations in switching between multiple applications, which may provide valuable insights for developing effective agent frameworks for office automation.
- Abstract(参考訳): Officeの自動化は、ワークフローでルーチンタスクを自動的に終了することで、人間の生産性を著しく向上させる。
従来のAI文献の多くで研究されている基本的な情報抽出以外にも、オフィス自動化の研究は、オフィスシステムに様々な情報ソースを統合し、一連の意思決定プロセスを通じてアウトプットを生成する必要がある、より現実的なオフィスタスクにまで拡張されるべきである。
私たちは、オフィスワークフローにおけるオフィスタスクに対処する現在のLLMエージェントの能力を評価するための最初のオフィス自動化ベンチマークであるOfficeBenchを紹介します。
OfficeBench は LLM エージェントに対して,実行可能な長期計画の実行,タイムリーにアプリケーションの切り替え,ワークフローのコンテキスト要求に基づいて,大規模な複合アクション空間内でのアクションの正確なグラウンドなどを要求する。
各タスクにカスタマイズした評価手法を適用すると、GPT-4 Omniは47.00%の最高パス率を達成し、オフィスタスクの処理に優れた性能を示した。
しかし、これは現実世界のオフィスワークフローに必要な人的パフォーマンスと精度の基準よりはるかに低い。
さらに、ほとんどの問題は、運用の冗長性と幻覚、および複数のアプリケーション間の切り替えの制限に関連しており、オフィス自動化のための効果的なエージェントフレームワークを開発する上で貴重な洞察を提供する可能性があることを観察する。
関連論文リスト
- Benchmarking Agentic Workflow Generation [80.74757493266057]
複数面シナリオと複雑なグラフワークフロー構造を備えた統合ワークフロー生成ベンチマークであるWorFBenchを紹介する。
また,サブシーケンスとサブグラフマッチングアルゴリズムを利用したシステム評価プロトコルWorFEvalを提案する。
我々は、生成されたタスクが下流のタスクを強化し、推論中により少ない時間で優れたパフォーマンスを達成することができることを観察する。
論文 参考訳(メタデータ) (2024-10-10T12:41:19Z) - Spider2-V: How Far Are Multimodal Agents From Automating Data Science and Engineering Workflows? [73.81908518992161]
我々は、プロのデータサイエンスとエンジニアリングに焦点を当てた最初のマルチモーダルエージェントベンチマークであるSpider2-Vを紹介する。
Spider2-Vは、本物のコンピュータ環境における現実世界のタスクを特徴とし、20のエンタープライズレベルのプロフェッショナルアプリケーションを組み込んでいる。
これらのタスクは、エンタープライズデータソフトウェアシステムにおいて、コードを書き、GUIを管理することで、マルチモーダルエージェントがデータ関連のタスクを実行する能力を評価する。
論文 参考訳(メタデータ) (2024-07-15T17:54:37Z) - Assessing and Verifying Task Utility in LLM-Powered Applications [28.41607905656699]
大規模言語モデル(LLM)は、エージェント間のコラボレーションを促進し、人間の日常的なタスクを支援するアプリケーションの増加につながっている。
このことは、特にアプリケーションの機能とエンドユーザのニーズの整合性を確保することによって、LLMベースのアプリケーションのユーティリティを検証する必要性を強調している。
AgentEvalは,アプリケーション固有の目的に合わせた一連の基準を自動提案することで,ユーティリティ検証プロセスを簡素化する新しいフレームワークである。
論文 参考訳(メタデータ) (2024-05-03T15:26:27Z) - WorkArena: How Capable Are Web Agents at Solving Common Knowledge Work Tasks? [83.19032025950986]
本稿では,Webブラウザを介してソフトウェアと対話する大規模言語モデルベースエージェントについて検討する。
WorkArenaは、広く使用されているServiceNowプラットフォームに基づく33のタスクのベンチマークである。
BrowserGymは、そのようなエージェントの設計と評価のための環境である。
論文 参考訳(メタデータ) (2024-03-12T14:58:45Z) - Towards better Human-Agent Alignment: Assessing Task Utility in
LLM-Powered Applications [37.047117782796064]
AgentEvalはユーティリティ検証プロセスをシンプルにするために設計されたフレームワークである。
本稿では,量子化器の研究の堅牢性について包括的に分析する。
論文 参考訳(メタデータ) (2024-02-14T08:46:15Z) - The Foundations of Computational Management: A Systematic Approach to
Task Automation for the Integration of Artificial Intelligence into Existing
Workflows [55.2480439325792]
本稿では,タスク自動化の体系的アプローチである計算管理を紹介する。
この記事では、ワークフロー内でAIを実装するプロセスを開始するための、ステップバイステップの手順を3つ紹介する。
論文 参考訳(メタデータ) (2024-02-07T01:45:14Z) - TaskBench: Benchmarking Large Language Models for Task Automation [82.2932794189585]
タスク自動化における大規模言語モデル(LLM)の機能を評価するためのフレームワークであるTaskBenchを紹介する。
具体的には、タスクの分解、ツールの選択、パラメータ予測を評価する。
提案手法は, 自動構築と厳密な人的検証を組み合わせることで, 人的評価との整合性を確保する。
論文 参考訳(メタデータ) (2023-11-30T18:02:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。