論文の概要: TaskBench: Benchmarking Large Language Models for Task Automation
- arxiv url: http://arxiv.org/abs/2311.18760v2
- Date: Sat, 9 Dec 2023 16:54:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-12 22:09:14.985305
- Title: TaskBench: Benchmarking Large Language Models for Task Automation
- Title(参考訳): TaskBench:タスク自動化のための大規模言語モデルのベンチマーク
- Authors: Yongliang Shen, Kaitao Song, Xu Tan, Wenqi Zhang, Kan Ren, Siyu Yuan,
Weiming Lu, Dongsheng Li, Yueting Zhuang
- Abstract要約: タスク自動化における大規模言語モデルの能力を評価するためにTaskBenchを導入します。
高品質な評価データセットを生成するために,ツールグラフの概念を導入する。
また,タスク分解,ツールの実行,パラメータ予測など,さまざまな側面からLCMの能力を評価するためのTaskEvalを提案する。
- 参考スコア(独自算出の注目度): 85.3879908356586
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, the incredible progress of large language models (LLMs) has ignited
the spark of task automation, which decomposes the complex tasks described by
user instructions into sub-tasks, and invokes external tools to execute them,
and plays a central role in autonomous agents. However, there lacks a
systematic and standardized benchmark to foster the development of LLMs in task
automation. To this end, we introduce TaskBench to evaluate the capability of
LLMs in task automation. Specifically, task automation can be formulated into
three critical stages: task decomposition, tool invocation, and parameter
prediction to fulfill user intent. This complexity makes data collection and
evaluation more challenging compared to common NLP tasks. To generate
high-quality evaluation datasets, we introduce the concept of Tool Graph to
represent the decomposed tasks in user intent, and adopt a back-instruct method
to simulate user instruction and annotations. Furthermore, we propose TaskEval
to evaluate the capability of LLMs from different aspects, including task
decomposition, tool invocation, and parameter prediction. Experimental results
demonstrate that TaskBench can effectively reflects the capability of LLMs in
task automation. Benefiting from the mixture of automated data construction and
human verification, TaskBench achieves a high consistency compared to the human
evaluation, which can be utilized as a comprehensive and faithful benchmark for
LLM-based autonomous agents.
- Abstract(参考訳): 近年,大規模言語モデル(LLM)の驚くべき進歩がタスク自動化の火花を火付け,ユーザ命令によって記述された複雑なタスクをサブタスクに分解し,外部ツールを起動して実行し,自律エージェントにおいて中心的な役割を担っている。
しかし、タスク自動化におけるllmの開発を促進するための体系的で標準化されたベンチマークが欠けている。
この目的のために,タスク自動化における LLM の機能を評価するために TaskBench を導入する。
具体的には、タスクの自動化はタスクの分解、ツールの実行、パラメータの予測という3つの重要な段階にまとめることができる。
この複雑さにより、一般的なNLPタスクと比較してデータ収集と評価が困難になる。
高品質な評価データセットを生成するために,ユーザ意図の分解タスクを表現するツールグラフの概念を導入し,ユーザ指示やアノテーションをシミュレートするバックインストラクション手法を採用した。
さらに,タスク分解,ツールの実行,パラメータ予測など,さまざまな側面からLCMの能力を評価するためのTaskEvalを提案する。
実験の結果、タスクベンチはタスク自動化におけるLLMの能力を効果的に反映できることが示された。
自動データ構築とヒューマン検証の混合により、taskbenchは人間評価と比較して高い一貫性を実現し、llmベースの自律エージェントの総合的かつ忠実なベンチマークとして利用できる。
関連論文リスト
- A Comparison of Prompt Engineering Techniques for Task Planning and Execution in Service Robotics [16.064583670720587]
サービスロボティクスにおける高レベルのタスク計画と実行の適用において、迅速なエンジニアリング技術とそれらの組み合わせを比較した。
そこで本研究では,タスクの多様なセットとシミュレーションにおける機能セットを定義し,タスク完了の正確さと実行時間を測定する。
論文 参考訳(メタデータ) (2024-10-30T13:22:55Z) - AutoML-Agent: A Multi-Agent LLM Framework for Full-Pipeline AutoML [56.565200973244146]
自動機械学習(Automated Machine Learning, ML)は、開発パイプライン内のタスクを自動化することによって、AI開発を加速する。
近年の作業では,そのような負担を軽減するために,大規模言語モデル(LLM)の利用が始まっている。
本稿では,フルパイプのAutoMLに適した新しいマルチエージェントフレームワークであるAutoML-Agentを提案する。
論文 参考訳(メタデータ) (2024-10-03T20:01:09Z) - Incorporating Large Language Models into Production Systems for Enhanced Task Automation and Flexibility [2.3999111269325266]
本稿では,大規模言語モデル(LLM)エージェントを自動生産システムに統合するための新しいアプローチを提案する。
自動化ピラミッドに基づいた階層的なフレームワーク内での運用運用の組織化。
これにより、プロダクションプロセスのオーケストレーションのためのスケーラブルでフレキシブルな基盤が実現できます。
論文 参考訳(メタデータ) (2024-07-11T14:34:43Z) - WorkArena++: Towards Compositional Planning and Reasoning-based Common Knowledge Work Tasks [85.95607119635102]
大型言語モデル(LLM)は人間のような知性を模倣することができる。
WorkArena++は、Webエージェントの計画、問題解決、論理的/論理的推論、検索、コンテキスト的理解能力を評価するように設計されている。
論文 参考訳(メタデータ) (2024-07-07T07:15:49Z) - The Foundations of Computational Management: A Systematic Approach to
Task Automation for the Integration of Artificial Intelligence into Existing
Workflows [55.2480439325792]
本稿では,タスク自動化の体系的アプローチである計算管理を紹介する。
この記事では、ワークフロー内でAIを実装するプロセスを開始するための、ステップバイステップの手順を3つ紹介する。
論文 参考訳(メタデータ) (2024-02-07T01:45:14Z) - Small LLMs Are Weak Tool Learners: A Multi-LLM Agent [73.54562551341454]
大規模言語モデル(LLM)エージェントはスタンドアロンのLLMの機能を大幅に拡張する。
本稿では、上記の機能をプランナー、呼び出し元、要約器に分解する新しい手法を提案する。
このモジュール化されたフレームワークは、個々の更新と、それぞれの機能を構築するための小さなLLMの潜在的な使用を容易にする。
論文 参考訳(メタデータ) (2024-01-14T16:17:07Z) - Interactive Planning Using Large Language Models for Partially
Observable Robotics Tasks [54.60571399091711]
大きな言語モデル(LLM)は、オープン語彙タスクを実行するロボットエージェントを作成することで、驚くべき成果を上げている。
LLMを用いた部分的に観測可能なタスクのための対話型計画手法を提案する。
論文 参考訳(メタデータ) (2023-12-11T22:54:44Z) - TPTU: Large Language Model-based AI Agents for Task Planning and Tool
Usage [28.554981886052953]
大規模言語モデル(LLM)は、様々な現実世界のアプリケーションのための強力なツールとして登場した。
LLMの本質的な生成能力は、その長所にもかかわらず、複雑なタスクを扱うには不十分である。
本稿では,LLMベースのAIエージェントに適した構造化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-07T09:22:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。