論文の概要: TaskBench: Benchmarking Large Language Models for Task Automation
- arxiv url: http://arxiv.org/abs/2311.18760v4
- Date: Fri, 01 Nov 2024 14:37:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-04 14:33:31.122319
- Title: TaskBench: Benchmarking Large Language Models for Task Automation
- Title(参考訳): TaskBench:タスク自動化のための大規模言語モデルのベンチマーク
- Authors: Yongliang Shen, Kaitao Song, Xu Tan, Wenqi Zhang, Kan Ren, Siyu Yuan, Weiming Lu, Dongsheng Li, Yueting Zhuang,
- Abstract要約: タスク自動化における大規模言語モデル(LLM)の機能を評価するためのフレームワークであるTaskBenchを紹介する。
具体的には、タスクの分解、ツールの選択、パラメータ予測を評価する。
提案手法は, 自動構築と厳密な人的検証を組み合わせることで, 人的評価との整合性を確保する。
- 参考スコア(独自算出の注目度): 82.2932794189585
- License:
- Abstract: In recent years, the remarkable progress of large language models (LLMs) has sparked interest in task automation, which involves decomposing complex tasks described by user instructions into sub-tasks and invoking external tools to execute them, playing a central role in autonomous agents. However, there is a lack of systematic and standardized benchmarks to promote the development of LLMs in task automation. To address this, we introduce TaskBench, a comprehensive framework to evaluate the capability of LLMs in task automation. Specifically, task automation can be divided into three critical stages: task decomposition, tool selection, and parameter prediction. To tackle the complexities inherent in these stages, we introduce the concept of Tool Graph to represent decomposed tasks and adopt a back-instruct method to generate high-quality user instructions. We propose TaskEval, a multi-faceted evaluation methodology that assesses LLM performance across these three stages. Our approach combines automated construction with rigorous human verification, ensuring high consistency with human evaluation. Experimental results demonstrate that TaskBench effectively reflects the capabilities of various LLMs in task automation. It provides insights into model performance across different task complexities and domains, pushing the boundaries of what current models can achieve. TaskBench offers a scalable, adaptable, and reliable benchmark for advancing LLM-based autonomous agents.
- Abstract(参考訳): 近年の大規模言語モデル(LLM)の顕著な進歩は、ユーザ命令によって記述された複雑なタスクをサブタスクに分解し、それらを実行するための外部ツールを呼び出し、自律エージェントにおいて中心的な役割を果たすタスク自動化への関心を喚起している。
しかし、タスク自動化におけるLLMの開発を促進するために、体系的および標準化されたベンチマークが欠如している。
これを解決するために,タスク自動化におけるLLMの機能を評価するための総合的なフレームワークであるTaskBenchを紹介する。
具体的には、タスクの自動化は、タスク分解、ツールの選択、パラメータ予測の3つの重要なステージに分けられる。
これらの段階に固有の複雑さに対処するために、分解されたタスクを表すツールグラフの概念を導入し、高品質なユーザ命令を生成するバックインストラクトメソッドを採用する。
これらの3段階にわたるLCM性能を評価する多面的評価手法であるTaskEvalを提案する。
提案手法は, 自動構築と厳密な人的検証を組み合わせることで, 人的評価との整合性を確保する。
TaskBench はタスク自動化における様々な LLM の機能を効果的に反映していることを示す実験結果が得られた。
さまざまなタスクの複雑さとドメインにわたるモデルパフォーマンスに関する洞察を提供し、現在のモデルが達成できることの境界を押し進めます。
TaskBenchは、LSMベースの自律エージェントを前進させるためのスケーラブルで適応性があり、信頼性の高いベンチマークを提供する。
関連論文リスト
- A Comparison of Prompt Engineering Techniques for Task Planning and Execution in Service Robotics [16.064583670720587]
サービスロボティクスにおける高レベルのタスク計画と実行の適用において、迅速なエンジニアリング技術とそれらの組み合わせを比較した。
そこで本研究では,タスクの多様なセットとシミュレーションにおける機能セットを定義し,タスク完了の正確さと実行時間を測定する。
論文 参考訳(メタデータ) (2024-10-30T13:22:55Z) - AutoML-Agent: A Multi-Agent LLM Framework for Full-Pipeline AutoML [56.565200973244146]
自動機械学習(Automated Machine Learning, ML)は、開発パイプライン内のタスクを自動化することによって、AI開発を加速する。
近年の作業では,そのような負担を軽減するために,大規模言語モデル(LLM)の利用が始まっている。
本稿では,フルパイプのAutoMLに適した新しいマルチエージェントフレームワークであるAutoML-Agentを提案する。
論文 参考訳(メタデータ) (2024-10-03T20:01:09Z) - Incorporating Large Language Models into Production Systems for Enhanced Task Automation and Flexibility [2.3999111269325266]
本稿では,大規模言語モデル(LLM)エージェントを自動生産システムに統合するための新しいアプローチを提案する。
自動化ピラミッドに基づいた階層的なフレームワーク内での運用運用の組織化。
これにより、プロダクションプロセスのオーケストレーションのためのスケーラブルでフレキシブルな基盤が実現できます。
論文 参考訳(メタデータ) (2024-07-11T14:34:43Z) - WorkArena++: Towards Compositional Planning and Reasoning-based Common Knowledge Work Tasks [85.95607119635102]
大型言語モデル(LLM)は人間のような知性を模倣することができる。
WorkArena++は、Webエージェントの計画、問題解決、論理的/論理的推論、検索、コンテキスト的理解能力を評価するように設計されている。
論文 参考訳(メタデータ) (2024-07-07T07:15:49Z) - The Foundations of Computational Management: A Systematic Approach to
Task Automation for the Integration of Artificial Intelligence into Existing
Workflows [55.2480439325792]
本稿では,タスク自動化の体系的アプローチである計算管理を紹介する。
この記事では、ワークフロー内でAIを実装するプロセスを開始するための、ステップバイステップの手順を3つ紹介する。
論文 参考訳(メタデータ) (2024-02-07T01:45:14Z) - Small LLMs Are Weak Tool Learners: A Multi-LLM Agent [73.54562551341454]
大規模言語モデル(LLM)エージェントはスタンドアロンのLLMの機能を大幅に拡張する。
本稿では、上記の機能をプランナー、呼び出し元、要約器に分解する新しい手法を提案する。
このモジュール化されたフレームワークは、個々の更新と、それぞれの機能を構築するための小さなLLMの潜在的な使用を容易にする。
論文 参考訳(メタデータ) (2024-01-14T16:17:07Z) - Interactive Planning Using Large Language Models for Partially
Observable Robotics Tasks [54.60571399091711]
大きな言語モデル(LLM)は、オープン語彙タスクを実行するロボットエージェントを作成することで、驚くべき成果を上げている。
LLMを用いた部分的に観測可能なタスクのための対話型計画手法を提案する。
論文 参考訳(メタデータ) (2023-12-11T22:54:44Z) - TPTU: Large Language Model-based AI Agents for Task Planning and Tool
Usage [28.554981886052953]
大規模言語モデル(LLM)は、様々な現実世界のアプリケーションのための強力なツールとして登場した。
LLMの本質的な生成能力は、その長所にもかかわらず、複雑なタスクを扱うには不十分である。
本稿では,LLMベースのAIエージェントに適した構造化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-07T09:22:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。