Fugu-MT 論文翻訳(概要): WorkBench: a Benchmark Dataset for Agents in a Realistic Workplace Setting

論文の概要: WorkBench: a Benchmark Dataset for Agents in a Realistic Workplace Setting

arxiv url: http://arxiv.org/abs/2405.00823v1
Date: Wed, 1 May 2024 19:07:03 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-03 20:32:52.681126
Title: WorkBench: a Benchmark Dataset for Agents in a Realistic Workplace Setting
Title（参考訳）: WorkBench: 現実的な職場環境におけるエージェントのベンチマークデータセット
Authors: Olly Styles, Sam Miller, Patricio Cerda-Mardini, Tanaya Guha, Victor Sanchez, Bertie Vidgen,
Abstract要約: 職場環境でタスクを実行するエージェントの能力を評価するためのベンチマークデータセットであるWorkBenchを紹介した。 WorkBenchにはサンドボックス環境があり、5つのデータベース、26のツール、690のタスクがある。各タスクの正しい結果はユニークで曖昧で、堅牢で自動化された評価を可能にします。
参考スコア（独自算出の注目度）: 26.524398054436766
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We introduce WorkBench: a benchmark dataset for evaluating agents' ability to execute tasks in a workplace setting. WorkBench contains a sandbox environment with five databases, 26 tools, and 690 tasks. These tasks represent common business activities, such as sending emails and scheduling meetings. The tasks in WorkBench are challenging as they require planning, tool selection, and often multiple actions. If a task has been successfully executed, one (or more) of the database values may change. The correct outcome for each task is unique and unambiguous, which allows for robust, automated evaluation. We call this key contribution outcome-centric evaluation. We evaluate five existing ReAct agents on WorkBench, finding they successfully complete as few as 3% of tasks (Llama2-70B), and just 43% for the best-performing (GPT-4). We further find that agents' errors can result in the wrong action being taken, such as an email being sent to the wrong person. WorkBench reveals weaknesses in agents' ability to undertake common business activities, raising questions about their use in high-stakes workplace settings. WorkBench is publicly available as a free resource at https://github.com/olly-styles/WorkBench.
Abstract（参考訳）: 職場環境でタスクを実行するエージェントの能力を評価するベンチマークデータセットであるWorkBenchを紹介した。 WorkBenchにはサンドボックス環境があり、5つのデータベース、26のツール、690のタスクがある。これらのタスクは、メールの送信や会議のスケジューリングなど、一般的なビジネス活動を表す。 WorkBenchのタスクは、計画、ツールの選択、そしてしばしば複数のアクションを必要とするため、難しい。あるタスクがうまく実行された場合、データベースの値の1つ(またはそれ以上)が変更される可能性がある。各タスクの正しい結果はユニークで曖昧で、堅牢で自動化された評価を可能にします。私たちはこの重要な貢献を成果中心の評価と呼びます。既存の5つのReActエージェントをWorkBench上で評価したところ、タスクの3%(Llama2-70B)が完了し、最高のパフォーマンス(GPT-4)は43%に過ぎなかった。さらに、エージェントのエラーは、間違った人にメールが送られるなど、間違ったアクションをとられる可能性があることに気付きました。 WorkBenchは、エージェントが共通のビジネス活動を行う能力の弱点を明らかにする。 WorkBenchはhttps://github.com/olly-styles/WorkBench.comで無料リソースとして公開されている。

関連論文リスト

Terminal-Bench: Benchmarking Agents on Hard, Realistic Tasks in Command Line Interfaces [126.23612941699565]
Terminal-Bench 2.0は、現実世界の問題に触発されたコンピュータ端末環境における89のタスクからなるベンチマークである。ベンチマークでは、フロンティアモデルとエージェントのスコアが65%未満であることが示されています。将来的にはhttps://www.tbench.ai/で開発者や研究者を支援するために、データセットと評価ハーネスを公開しています。
論文参考訳（メタデータ） (2026-01-17T01:29:30Z)
ImpossibleBench: Measuring LLMs' Propensity of Exploiting Test Cases [58.411135609139855]
タスク完了のための「ショートカット」は、大規模言語モデルの信頼性評価と展開に重大なリスクをもたらす。我々は,LLMエージェントがテストケースを利用するための正当性を測定するベンチマークフレームワークであるImpossibleBenchを紹介する。実践的なフレームワークとして、ImpossibleBenchは単なる評価ではなく、汎用的なツールである。
論文参考訳（メタデータ） (2025-10-23T06:58:32Z)
GitTaskBench: A Benchmark for Code Agents Solving Real-World Tasks Through Code Repository Leveraging [41.754784344572286]
実際のシナリオでコードエージェントを評価するベンチマークであるGitTaskBenchをリリースしています。各タスクは、自動化された人為的な評価ハーネスと関連するリポジトリをペアリングする。また,エージェント性能の経済的利益を定量化するためのα値指標を提案する。
論文参考訳（メタデータ） (2025-08-26T12:48:05Z)
DrafterBench: Benchmarking Large Language Models for Tasks Automation in Civil Engineering [7.264718073839472]
大規模言語モデル(LLM)エージェントは、現実世界の問題を解決する大きな可能性を示し、業界におけるタスク自動化のソリューションになることを約束しています。技術図面修正の文脈におけるLLMエージェントの総合評価のためのDrafterBenchを提案する。 DrafterBenchは、AIエージェントが複雑な長文の命令を解釈する習熟度を厳格にテストするオープンソースのベンチマークである。
論文参考訳（メタデータ） (2025-07-15T17:56:04Z)
Self-Challenging Language Model Agents [98.62637336505242]
本稿では,エージェントが自ら生成する高品質なタスクについて,エージェントを訓練するためのセルフチェンジフレームワークを提案する。このフレームワークは、Llama-3.1-8B-Instructの2倍の改善を実現している。
論文参考訳（メタデータ） (2025-06-02T14:23:33Z)
RefactorBench: Evaluating Stateful Reasoning in Language Agents Through Code [7.156224931977546]
RefactorBenchは、人気のあるオープンソースリポジトリで100の大規模な手作りのマルチファイルタスクからなるベンチマークである。ベースラインは、現在のLMエージェントが単純な構成タスクで苦労していることを明らかにし、ベース命令で22%のタスクしか解決していない。状態表現の条件にベースラインエージェントを適用することにより、RefactorBenchタスクの解決において43.9%の改善が達成される。
論文参考訳（メタデータ） (2025-03-10T20:23:24Z)
MATCH POLICY: A Simple Pipeline from Point Cloud Registration to Manipulation Policies [25.512068008948603]
MATCH POLICYは、高精度なピックと配置タスクを解決するパイプラインである。アクション推論をポイントクラウド登録タスクに転送する。非常に高いサンプル効率と、目に見えない構成への一般化性を実現する。
論文参考訳（メタデータ） (2024-09-23T20:09:43Z)
OfficeBench: Benchmarking Language Agents across Multiple Applications for Office Automation [51.27062359412488]
Officeの自動化は、ワークフローでルーチンタスクを自動的に終了することで、人間の生産性を著しく向上させる。 OfficeBenchは、現実的なオフィスにおけるオフィスタスクに対処する現在のLLMエージェントの能力を評価するための、最初のオフィス自動化ベンチマークの1つです。各タスクにカスタマイズした評価手法を適用すると、GPT-4 Omniは47.00%の最高パス率を達成し、オフィスタスクの処理に優れた性能を示した。
論文参考訳（メタデータ） (2024-07-26T19:27:17Z)
PyBench: Evaluating LLM Agent on various real-world coding tasks [13.347173063163138]
PyBenchは、現実世界のタスクの5つの主要なカテゴリをカバーするベンチマークで、10種類以上のファイルをカバーする。我々の評価は、現在のオープンソースLLMがこれらのタスクに苦戦していることを示している。微調整された8Bサイズモデル: textbfPyLlama3はPyBench上でエキサイティングなパフォーマンスを実現します。
論文参考訳（メタデータ） (2024-07-23T15:23:14Z)
TroVE: Inducing Verifiable and Efficient Toolboxes for Solving Programmatic Tasks [75.1781376169951]
言語モデル(LM)は、プログラムを書くことで、テーブルや画像に関する質問に答えるといったタスクを解くことができる。人間の労力を使わずにより良いソリューションを実現するために、コードLMに再利用可能な高レベル関数のキュレートを依頼する。本稿では,関数の検証と効率的なツールボックスを誘導するトレーニング不要なTROVEを提案する。
論文参考訳（メタデータ） (2024-01-23T16:03:17Z)
TaskBench: Benchmarking Large Language Models for Task Automation [82.2932794189585]
タスク自動化における大規模言語モデル(LLM)の機能を評価するためのフレームワークであるTaskBenchを紹介する。具体的には、タスクの分解、ツールの選択、パラメータ予測を評価する。提案手法は, 自動構築と厳密な人的検証を組み合わせることで, 人的評価との整合性を確保する。
論文参考訳（メタデータ） (2023-11-30T18:02:44Z)
MLAgentBench: Evaluating Language Agents on Machine Learning Experimentation [96.71370747681078]
我々は,CIFAR-10におけるモデル性能の改善から,BabyLMのような最近の研究課題まで,13のタスクからなるMLAgentBenchを紹介した。各タスクに対して、エージェントはファイルの読み書き、コードの実行、出力の検査などのアクションを実行することができる。我々は、Claude v1.0、Claude v2.1、Claude v3 Opus、GPT-4、GPT-4-turbo、Gemini-Pro、Mixtralに基づいてベンチマークエージェントをベンチマークし、Claude v3 Opusエージェントが成功率の点で最高であることを示す。
論文参考訳（メタデータ） (2023-10-05T04:06:12Z)
From Zero to Hero: Examining the Power of Symbolic Tasks in Instruction Tuning [33.98287680876623]
命令付きタスクの微調整言語モデルは、目に見えないタスクへのゼロショットの一般化を促進する可能性を示している。シンボリックタスクを用いることで,命令のチューニングをシンプルかつ効果的に行う方法を提案する。
論文参考訳（メタデータ） (2023-04-17T05:29:42Z)
Challenging BIG-Bench Tasks and Whether Chain-of-Thought Can Solve Them [108.54545521369688]
我々は,BIG-Bench Hard (BBH) と呼ばれる,BIG-Benchタスクに挑戦する23のスイートに焦点を当てる。 BBHタスクへのチェーン・オブ・シント(CoT)の適用により、PaLMは23タスクのうち10タスクにおいて平均的な人間レータ性能を上回り、Codexは23タスクのうち17タスクにおいて平均的な人間レータ性能を上回ります。
論文参考訳（メタデータ） (2022-10-17T17:08:26Z)
Task Compass: Scaling Multi-task Pre-training with Task Prefix [122.49242976184617]
既存の研究では、大規模教師付きタスクによるマルチタスク学習がタスク間の負の効果に悩まされていることが示されている。タスク間の関係を探索するために,タスクプレフィックスガイド付きマルチタスク事前学習フレームワークを提案する。我々のモデルは、幅広いタスクの強力な基盤バックボーンとして機能するだけでなく、タスク関係を分析するための探索ツールとしても実現可能である。
論文参考訳（メタデータ） (2022-10-12T15:02:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。