論文の概要: WorkBench: a Benchmark Dataset for Agents in a Realistic Workplace Setting
- arxiv url: http://arxiv.org/abs/2405.00823v1
- Date: Wed, 1 May 2024 19:07:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-03 20:32:52.681126
- Title: WorkBench: a Benchmark Dataset for Agents in a Realistic Workplace Setting
- Title(参考訳): WorkBench: 現実的な職場環境におけるエージェントのベンチマークデータセット
- Authors: Olly Styles, Sam Miller, Patricio Cerda-Mardini, Tanaya Guha, Victor Sanchez, Bertie Vidgen,
- Abstract要約: 職場環境でタスクを実行するエージェントの能力を評価するためのベンチマークデータセットであるWorkBenchを紹介した。
WorkBenchにはサンドボックス環境があり、5つのデータベース、26のツール、690のタスクがある。
各タスクの正しい結果はユニークで曖昧で、堅牢で自動化された評価を可能にします。
- 参考スコア(独自算出の注目度): 26.524398054436766
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce WorkBench: a benchmark dataset for evaluating agents' ability to execute tasks in a workplace setting. WorkBench contains a sandbox environment with five databases, 26 tools, and 690 tasks. These tasks represent common business activities, such as sending emails and scheduling meetings. The tasks in WorkBench are challenging as they require planning, tool selection, and often multiple actions. If a task has been successfully executed, one (or more) of the database values may change. The correct outcome for each task is unique and unambiguous, which allows for robust, automated evaluation. We call this key contribution outcome-centric evaluation. We evaluate five existing ReAct agents on WorkBench, finding they successfully complete as few as 3% of tasks (Llama2-70B), and just 43% for the best-performing (GPT-4). We further find that agents' errors can result in the wrong action being taken, such as an email being sent to the wrong person. WorkBench reveals weaknesses in agents' ability to undertake common business activities, raising questions about their use in high-stakes workplace settings. WorkBench is publicly available as a free resource at https://github.com/olly-styles/WorkBench.
- Abstract(参考訳): 職場環境でタスクを実行するエージェントの能力を評価するベンチマークデータセットであるWorkBenchを紹介した。
WorkBenchにはサンドボックス環境があり、5つのデータベース、26のツール、690のタスクがある。
これらのタスクは、メールの送信や会議のスケジューリングなど、一般的なビジネス活動を表す。
WorkBenchのタスクは、計画、ツールの選択、そしてしばしば複数のアクションを必要とするため、難しい。
あるタスクがうまく実行された場合、データベースの値の1つ(またはそれ以上)が変更される可能性がある。
各タスクの正しい結果はユニークで曖昧で、堅牢で自動化された評価を可能にします。
私たちはこの重要な貢献を成果中心の評価と呼びます。
既存の5つのReActエージェントをWorkBench上で評価したところ、タスクの3%(Llama2-70B)が完了し、最高のパフォーマンス(GPT-4)は43%に過ぎなかった。
さらに、エージェントのエラーは、間違った人にメールが送られるなど、間違ったアクションをとられる可能性があることに気付きました。
WorkBenchは、エージェントが共通のビジネス活動を行う能力の弱点を明らかにする。
WorkBenchはhttps://github.com/olly-styles/WorkBench.comで無料リソースとして公開されている。
関連論文リスト
- PyBench: Evaluating LLM Agent on various real-world coding tasks [28.77625186796185]
PyBenchは、現実世界のタスクの5つの主要なカテゴリをカバーするベンチマークで、10種類以上のファイルをカバーする。
我々の評価は、現在のオープンソースLLMがこれらのタスクに苦戦していることを示している。
微調整された8Bサイズモデル: textbfPyLlama3はPyBench上でエキサイティングなパフォーマンスを実現します。
論文 参考訳(メタデータ) (2024-07-23T15:23:14Z) - TroVE: Inducing Verifiable and Efficient Toolboxes for Solving
Programmatic Tasks [75.1781376169951]
言語モデル(LM)は、プログラムを書くことで、テーブルや画像に関する質問に答えるといったタスクを解くことができる。
人間の労力を使わずにより良いソリューションを実現するために、コードLMに再利用可能な高レベル関数のキュレートを依頼する。
本稿では,関数の検証と効率的なツールボックスを誘導するトレーニング不要なTROVEを提案する。
論文 参考訳(メタデータ) (2024-01-23T16:03:17Z) - TaskBench: Benchmarking Large Language Models for Task Automation [85.3879908356586]
タスク自動化における大規模言語モデルの能力を評価するためにTaskBenchを導入します。
高品質な評価データセットを生成するために,ツールグラフの概念を導入する。
また,タスク分解,ツールの実行,パラメータ予測など,さまざまな側面からLCMの能力を評価するためのTaskEvalを提案する。
論文 参考訳(メタデータ) (2023-11-30T18:02:44Z) - Work State-Centric AI Agents: Design, Implementation, and Management of
Cognitive Work Threads [6.920979776722456]
本稿では,タスク実行中の状態を記録・反映するために,作業ノートを用いた作業状態中心型AIエージェントモデルを提案する。
本稿では、タスク監視のためのワーカースレッド、タスクの分解と計画のためのプランナーモジュール、サブタスクを実行するためのエグゼクタモジュールを特徴とするモデルのアーキテクチャを詳述する。
論文 参考訳(メタデータ) (2023-11-16T05:21:25Z) - MLAgentBench: Evaluating Language Agents on Machine Learning Experimentation [96.71370747681078]
我々は,CIFAR-10におけるモデル性能の改善から,BabyLMのような最近の研究課題まで,13のタスクからなるMLAgentBenchを紹介した。
各タスクに対して、エージェントはファイルの読み書き、コードの実行、出力の検査などのアクションを実行することができる。
我々は、Claude v1.0、Claude v2.1、Claude v3 Opus、GPT-4、GPT-4-turbo、Gemini-Pro、Mixtralに基づいてベンチマークエージェントをベンチマークし、Claude v3 Opusエージェントが成功率の点で最高であることを示す。
論文 参考訳(メタデータ) (2023-10-05T04:06:12Z) - TaskWeb: Selecting Better Source Tasks for Multi-task NLP [76.03221609799931]
ペアワイズタスク転送によるタスク関係の認識は、新しいターゲットタスクの学習に役立つ1つ以上のソースタスクの選択を改善する。
私たちはTaskWebを使って、新しいターゲットタスクの学習にソースタスクを使うことの利点を推定し、マルチタスクトレーニングに有用なトレーニングタスクのサブセットを選択する。
本手法は,ソースタスクの総合ランキングとトップk精度をそれぞれ10%,トップk精度を38%向上させる。
論文 参考訳(メタデータ) (2023-05-22T17:27:57Z) - From Zero to Hero: Examining the Power of Symbolic Tasks in Instruction
Tuning [33.98287680876623]
命令付きタスクの微調整言語モデルは、目に見えないタスクへのゼロショットの一般化を促進する可能性を示している。
シンボリックタスクを用いることで,命令のチューニングをシンプルかつ効果的に行う方法を提案する。
論文 参考訳(メタデータ) (2023-04-17T05:29:42Z) - Challenging BIG-Bench Tasks and Whether Chain-of-Thought Can Solve Them [108.54545521369688]
我々は,BIG-Bench Hard (BBH) と呼ばれる,BIG-Benchタスクに挑戦する23のスイートに焦点を当てる。
BBHタスクへのチェーン・オブ・シント(CoT)の適用により、PaLMは23タスクのうち10タスクにおいて平均的な人間レータ性能を上回り、Codexは23タスクのうち17タスクにおいて平均的な人間レータ性能を上回ります。
論文 参考訳(メタデータ) (2022-10-17T17:08:26Z) - Task Compass: Scaling Multi-task Pre-training with Task Prefix [122.49242976184617]
既存の研究では、大規模教師付きタスクによるマルチタスク学習がタスク間の負の効果に悩まされていることが示されている。
タスク間の関係を探索するために,タスクプレフィックスガイド付きマルチタスク事前学習フレームワークを提案する。
我々のモデルは、幅広いタスクの強力な基盤バックボーンとして機能するだけでなく、タスク関係を分析するための探索ツールとしても実現可能である。
論文 参考訳(メタデータ) (2022-10-12T15:02:04Z) - Treating Crowdsourcing as Examination: How to Score Tasks and Online
Workers? [7.403065976821757]
我々は、その能力に基づいて労働者を4つのタイプとしてモデル化しようと試みている。
作業者の能力は主に中堅な作業に基づいて評価し, 作業者からの回答の重みを減らし, スパマーからの回答を修正した。
論文 参考訳(メタデータ) (2022-04-26T05:15:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。