Fugu-MT 論文翻訳(概要): TaskBench: Benchmarking Large Language Models for Task Automation

論文の概要: TaskBench: Benchmarking Large Language Models for Task Automation

arxiv url: http://arxiv.org/abs/2311.18760v2
Date: Sat, 9 Dec 2023 16:54:20 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-12 22:09:14.985305
Title: TaskBench: Benchmarking Large Language Models for Task Automation
Title（参考訳）: TaskBench:タスク自動化のための大規模言語モデルのベンチマーク
Authors: Yongliang Shen, Kaitao Song, Xu Tan, Wenqi Zhang, Kan Ren, Siyu Yuan, Weiming Lu, Dongsheng Li, Yueting Zhuang
Abstract要約: タスク自動化における大規模言語モデルの能力を評価するためにTaskBenchを導入します。高品質な評価データセットを生成するために,ツールグラフの概念を導入する。また,タスク分解,ツールの実行,パラメータ予測など,さまざまな側面からLCMの能力を評価するためのTaskEvalを提案する。
参考スコア（独自算出の注目度）: 85.3879908356586
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recently, the incredible progress of large language models (LLMs) has ignited the spark of task automation, which decomposes the complex tasks described by user instructions into sub-tasks, and invokes external tools to execute them, and plays a central role in autonomous agents. However, there lacks a systematic and standardized benchmark to foster the development of LLMs in task automation. To this end, we introduce TaskBench to evaluate the capability of LLMs in task automation. Specifically, task automation can be formulated into three critical stages: task decomposition, tool invocation, and parameter prediction to fulfill user intent. This complexity makes data collection and evaluation more challenging compared to common NLP tasks. To generate high-quality evaluation datasets, we introduce the concept of Tool Graph to represent the decomposed tasks in user intent, and adopt a back-instruct method to simulate user instruction and annotations. Furthermore, we propose TaskEval to evaluate the capability of LLMs from different aspects, including task decomposition, tool invocation, and parameter prediction. Experimental results demonstrate that TaskBench can effectively reflects the capability of LLMs in task automation. Benefiting from the mixture of automated data construction and human verification, TaskBench achieves a high consistency compared to the human evaluation, which can be utilized as a comprehensive and faithful benchmark for LLM-based autonomous agents.
Abstract（参考訳）: 近年,大規模言語モデル(LLM)の驚くべき進歩がタスク自動化の火花を火付け,ユーザ命令によって記述された複雑なタスクをサブタスクに分解し,外部ツールを起動して実行し,自律エージェントにおいて中心的な役割を担っている。しかし、タスク自動化におけるllmの開発を促進するための体系的で標準化されたベンチマークが欠けている。この目的のために,タスク自動化における LLM の機能を評価するために TaskBench を導入する。具体的には、タスクの自動化はタスクの分解、ツールの実行、パラメータの予測という3つの重要な段階にまとめることができる。この複雑さにより、一般的なNLPタスクと比較してデータ収集と評価が困難になる。高品質な評価データセットを生成するために,ユーザ意図の分解タスクを表現するツールグラフの概念を導入し,ユーザ指示やアノテーションをシミュレートするバックインストラクション手法を採用した。さらに,タスク分解,ツールの実行,パラメータ予測など,さまざまな側面からLCMの能力を評価するためのTaskEvalを提案する。実験の結果、タスクベンチはタスク自動化におけるLLMの能力を効果的に反映できることが示された。自動データ構築とヒューマン検証の混合により、taskbenchは人間評価と比較して高い一貫性を実現し、llmベースの自律エージェントの総合的かつ忠実なベンチマークとして利用できる。

関連論文リスト

DrafterBench: Benchmarking Large Language Models for Tasks Automation in Civil Engineering [7.264718073839472]
大規模言語モデル(LLM)エージェントは、現実世界の問題を解決する大きな可能性を示し、業界におけるタスク自動化のソリューションになることを約束しています。技術図面修正の文脈におけるLLMエージェントの総合評価のためのDrafterBenchを提案する。 DrafterBenchは、AIエージェントが複雑な長文の命令を解釈する習熟度を厳格にテストするオープンソースのベンチマークである。
論文参考訳（メタデータ） (2025-07-15T17:56:04Z)
VerifyLLM: LLM-Based Pre-Execution Task Plan Verification for Robots [44.99833362998488]
本研究では,シミュレータや実環境で実行する前に,タスクプランを自動的に検証するアーキテクチャを提案する。このモジュールは、Large Language Modelsの推論機能を使用して、論理的一貫性を評価し、計画の潜在的なギャップを特定する。我々は,タスク計画の信頼性と効率の向上に寄与し,自律システムにおける堅牢な事前実行検証の必要性に対処する。
論文参考訳（メタデータ） (2025-07-07T15:31:36Z)
Scaling Autonomous Agents via Automatic Reward Modeling And Planning [52.39395405893965]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な機能を示している。しかし、彼らは多段階の意思決定と環境フィードバックを必要とする問題に苦戦している。人間のアノテーションを使わずに環境から報酬モデルを自動的に学習できるフレームワークを提案する。
論文参考訳（メタデータ） (2025-02-17T18:49:25Z)
A Comparison of Prompt Engineering Techniques for Task Planning and Execution in Service Robotics [16.064583670720587]
サービスロボティクスにおける高レベルのタスク計画と実行の適用において、迅速なエンジニアリング技術とそれらの組み合わせを比較した。そこで本研究では,タスクの多様なセットとシミュレーションにおける機能セットを定義し,タスク完了の正確さと実行時間を測定する。
論文参考訳（メタデータ） (2024-10-30T13:22:55Z)
AutoML-Agent: A Multi-Agent LLM Framework for Full-Pipeline AutoML [56.565200973244146]
自動機械学習(Automated Machine Learning, ML)は、開発パイプライン内のタスクを自動化することによって、AI開発を加速する。近年の作業では,そのような負担を軽減するために,大規模言語モデル(LLM)の利用が始まっている。本稿では,フルパイプのAutoMLに適した新しいマルチエージェントフレームワークであるAutoML-Agentを提案する。
論文参考訳（メタデータ） (2024-10-03T20:01:09Z)
Incorporating Large Language Models into Production Systems for Enhanced Task Automation and Flexibility [2.3999111269325266]
本稿では,大規模言語モデル(LLM)エージェントを自動生産システムに統合するための新しいアプローチを提案する。自動化ピラミッドに基づいた階層的なフレームワーク内での運用運用の組織化。これにより、プロダクションプロセスのオーケストレーションのためのスケーラブルでフレキシブルな基盤が実現できます。
論文参考訳（メタデータ） (2024-07-11T14:34:43Z)
WorkArena++: Towards Compositional Planning and Reasoning-based Common Knowledge Work Tasks [85.95607119635102]
大型言語モデル(LLM)は人間のような知性を模倣することができる。 WorkArena++は、Webエージェントの計画、問題解決、論理的/論理的推論、検索、コンテキスト的理解能力を評価するように設計されている。
論文参考訳（メタデータ） (2024-07-07T07:15:49Z)
Tool Learning in the Wild: Empowering Language Models as Automatic Tool Agents [56.822238860147024]
大規模な言語モデルを外部ツールで拡張することは、彼らのユーティリティを拡張するための有望なアプローチとして現れました。以前のメソッドは、ツールドキュメントを手動で解析し、コンテキスト内デモを作成し、ツールをLLMがステップバイステップの推論で使用する構造化フォーマットに変換する。 LLMがツール使用ワークフローを自動化できるフレームワークであるAutoToolsを提案する。
論文参考訳（メタデータ） (2024-05-26T11:40:58Z)
The Foundations of Computational Management: A Systematic Approach to Task Automation for the Integration of Artificial Intelligence into Existing Workflows [55.2480439325792]
本稿では,タスク自動化の体系的アプローチである計算管理を紹介する。この記事では、ワークフロー内でAIを実装するプロセスを開始するための、ステップバイステップの手順を3つ紹介する。
論文参考訳（メタデータ） (2024-02-07T01:45:14Z)
Small LLMs Are Weak Tool Learners: A Multi-LLM Agent [73.54562551341454]
大規模言語モデル(LLM)エージェントはスタンドアロンのLLMの機能を大幅に拡張する。本稿では、上記の機能をプランナー、呼び出し元、要約器に分解する新しい手法を提案する。このモジュール化されたフレームワークは、個々の更新と、それぞれの機能を構築するための小さなLLMの潜在的な使用を容易にする。
論文参考訳（メタデータ） (2024-01-14T16:17:07Z)
Interactive Planning Using Large Language Models for Partially Observable Robotics Tasks [54.60571399091711]
大きな言語モデル(LLM)は、オープン語彙タスクを実行するロボットエージェントを作成することで、驚くべき成果を上げている。 LLMを用いた部分的に観測可能なタスクのための対話型計画手法を提案する。
論文参考訳（メタデータ） (2023-12-11T22:54:44Z)
TPTU: Large Language Model-based AI Agents for Task Planning and Tool Usage [28.554981886052953]
大規模言語モデル(LLM)は、様々な現実世界のアプリケーションのための強力なツールとして登場した。 LLMの本質的な生成能力は、その長所にもかかわらず、複雑なタスクを扱うには不十分である。本稿では,LLMベースのAIエージェントに適した構造化フレームワークを提案する。
論文参考訳（メタデータ） (2023-08-07T09:22:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。