論文の概要: WorkBench: a Benchmark Dataset for Agents in a Realistic Workplace Setting
- arxiv url: http://arxiv.org/abs/2405.00823v2
- Date: Sat, 3 Aug 2024 12:41:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-06 22:45:03.978942
- Title: WorkBench: a Benchmark Dataset for Agents in a Realistic Workplace Setting
- Title(参考訳): WorkBench: 現実的な職場環境におけるエージェントのベンチマークデータセット
- Authors: Olly Styles, Sam Miller, Patricio Cerda-Mardini, Tanaya Guha, Victor Sanchez, Bertie Vidgen,
- Abstract要約: 職場環境でタスクを実行するエージェントの能力を評価するためのベンチマークデータセットであるWorkBenchを紹介した。
WorkBenchにはサンドボックス環境があり、5つのデータベース、26のツール、690のタスクがある。
各タスクの正しい結果はユニークで曖昧で、堅牢で自動化された評価を可能にします。
- 参考スコア(独自算出の注目度): 26.524398054436766
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce WorkBench: a benchmark dataset for evaluating agents' ability to execute tasks in a workplace setting. WorkBench contains a sandbox environment with five databases, 26 tools, and 690 tasks. These tasks represent common business activities, such as sending emails and scheduling meetings. The tasks in WorkBench are challenging as they require planning, tool selection, and often multiple actions. If a task has been successfully executed, one (or more) of the database values may change. The correct outcome for each task is unique and unambiguous, which allows for robust, automated evaluation. We call this key contribution outcome-centric evaluation. We evaluate five existing ReAct agents on WorkBench, finding they successfully complete as few as 3% of tasks (Llama2-70B), and just 43% for the best-performing (GPT-4). We further find that agents' errors can result in the wrong action being taken, such as an email being sent to the wrong person. WorkBench reveals weaknesses in agents' ability to undertake common business activities, raising questions about their use in high-stakes workplace settings. WorkBench is publicly available as a free resource at https://github.com/olly-styles/WorkBench.
- Abstract(参考訳): 職場環境でタスクを実行するエージェントの能力を評価するベンチマークデータセットであるWorkBenchを紹介した。
WorkBenchにはサンドボックス環境があり、5つのデータベース、26のツール、690のタスクがある。
これらのタスクは、メールの送信や会議のスケジューリングなど、一般的なビジネス活動を表す。
WorkBenchのタスクは、計画、ツールの選択、そしてしばしば複数のアクションを必要とするため、難しい。
あるタスクがうまく実行された場合、データベースの値の1つ(またはそれ以上)が変更される可能性がある。
各タスクの正しい結果はユニークで曖昧で、堅牢で自動化された評価を可能にします。
私たちはこの重要な貢献を成果中心の評価と呼びます。
既存の5つのReActエージェントをWorkBench上で評価したところ、タスクの3%(Llama2-70B)が完了し、最高のパフォーマンス(GPT-4)は43%に過ぎなかった。
さらに、エージェントのエラーは、間違った人にメールが送られるなど、間違ったアクションをとられる可能性があることに気付きました。
WorkBenchは、エージェントが共通のビジネス活動を行う能力の弱点を明らかにする。
WorkBenchはhttps://github.com/olly-styles/WorkBench.comで無料リソースとして公開されている。
関連論文リスト
- MATCH POLICY: A Simple Pipeline from Point Cloud Registration to Manipulation Policies [25.512068008948603]
MATCH POLICYは、高精度なピックと配置タスクを解決するパイプラインである。
アクション推論をポイントクラウド登録タスクに転送する。
非常に高いサンプル効率と、目に見えない構成への一般化性を実現する。
論文 参考訳(メタデータ) (2024-09-23T20:09:43Z) - OfficeBench: Benchmarking Language Agents across Multiple Applications for Office Automation [51.27062359412488]
Officeの自動化は、ワークフローでルーチンタスクを自動的に終了することで、人間の生産性を著しく向上させる。
OfficeBenchは、現実的なオフィスにおけるオフィスタスクに対処する現在のLLMエージェントの能力を評価するための、最初のオフィス自動化ベンチマークの1つです。
各タスクにカスタマイズした評価手法を適用すると、GPT-4 Omniは47.00%の最高パス率を達成し、オフィスタスクの処理に優れた性能を示した。
論文 参考訳(メタデータ) (2024-07-26T19:27:17Z) - PyBench: Evaluating LLM Agent on various real-world coding tasks [13.347173063163138]
PyBenchは、現実世界のタスクの5つの主要なカテゴリをカバーするベンチマークで、10種類以上のファイルをカバーする。
我々の評価は、現在のオープンソースLLMがこれらのタスクに苦戦していることを示している。
微調整された8Bサイズモデル: textbfPyLlama3はPyBench上でエキサイティングなパフォーマンスを実現します。
論文 参考訳(メタデータ) (2024-07-23T15:23:14Z) - TroVE: Inducing Verifiable and Efficient Toolboxes for Solving
Programmatic Tasks [75.1781376169951]
言語モデル(LM)は、プログラムを書くことで、テーブルや画像に関する質問に答えるといったタスクを解くことができる。
人間の労力を使わずにより良いソリューションを実現するために、コードLMに再利用可能な高レベル関数のキュレートを依頼する。
本稿では,関数の検証と効率的なツールボックスを誘導するトレーニング不要なTROVEを提案する。
論文 参考訳(メタデータ) (2024-01-23T16:03:17Z) - TaskBench: Benchmarking Large Language Models for Task Automation [82.2932794189585]
タスク自動化における大規模言語モデル(LLM)の機能を評価するためのフレームワークであるTaskBenchを紹介する。
具体的には、タスクの分解、ツールの選択、パラメータ予測を評価する。
提案手法は, 自動構築と厳密な人的検証を組み合わせることで, 人的評価との整合性を確保する。
論文 参考訳(メタデータ) (2023-11-30T18:02:44Z) - MLAgentBench: Evaluating Language Agents on Machine Learning Experimentation [96.71370747681078]
我々は,CIFAR-10におけるモデル性能の改善から,BabyLMのような最近の研究課題まで,13のタスクからなるMLAgentBenchを紹介した。
各タスクに対して、エージェントはファイルの読み書き、コードの実行、出力の検査などのアクションを実行することができる。
我々は、Claude v1.0、Claude v2.1、Claude v3 Opus、GPT-4、GPT-4-turbo、Gemini-Pro、Mixtralに基づいてベンチマークエージェントをベンチマークし、Claude v3 Opusエージェントが成功率の点で最高であることを示す。
論文 参考訳(メタデータ) (2023-10-05T04:06:12Z) - From Zero to Hero: Examining the Power of Symbolic Tasks in Instruction
Tuning [33.98287680876623]
命令付きタスクの微調整言語モデルは、目に見えないタスクへのゼロショットの一般化を促進する可能性を示している。
シンボリックタスクを用いることで,命令のチューニングをシンプルかつ効果的に行う方法を提案する。
論文 参考訳(メタデータ) (2023-04-17T05:29:42Z) - Challenging BIG-Bench Tasks and Whether Chain-of-Thought Can Solve Them [108.54545521369688]
我々は,BIG-Bench Hard (BBH) と呼ばれる,BIG-Benchタスクに挑戦する23のスイートに焦点を当てる。
BBHタスクへのチェーン・オブ・シント(CoT)の適用により、PaLMは23タスクのうち10タスクにおいて平均的な人間レータ性能を上回り、Codexは23タスクのうち17タスクにおいて平均的な人間レータ性能を上回ります。
論文 参考訳(メタデータ) (2022-10-17T17:08:26Z) - Task Compass: Scaling Multi-task Pre-training with Task Prefix [122.49242976184617]
既存の研究では、大規模教師付きタスクによるマルチタスク学習がタスク間の負の効果に悩まされていることが示されている。
タスク間の関係を探索するために,タスクプレフィックスガイド付きマルチタスク事前学習フレームワークを提案する。
我々のモデルは、幅広いタスクの強力な基盤バックボーンとして機能するだけでなく、タスク関係を分析するための探索ツールとしても実現可能である。
論文 参考訳(メタデータ) (2022-10-12T15:02:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。