Fugu-MT 論文翻訳(概要): TaskBench: Benchmarking Large Language Models for Task Automation

論文の概要: TaskBench: Benchmarking Large Language Models for Task Automation

arxiv url: http://arxiv.org/abs/2311.18760v3
Date: Thu, 31 Oct 2024 16:12:16 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:29.929163
Title: TaskBench: Benchmarking Large Language Models for Task Automation
Title（参考訳）: TaskBench:タスク自動化のための大規模言語モデルのベンチマーク
Authors: Yongliang Shen, Kaitao Song, Xu Tan, Wenqi Zhang, Kan Ren, Siyu Yuan, Weiming Lu, Dongsheng Li, Yueting Zhuang,
Abstract要約: タスク自動化における大規模言語モデル(LLM)の機能を評価するためのフレームワークであるTaskBenchを紹介する。具体的には、タスクの分解、ツールの選択、パラメータ予測を評価する。提案手法は, 自動構築と厳密な人的検証を組み合わせることで, 人的評価との整合性を確保する。
参考スコア（独自算出の注目度）: 82.2932794189585
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In recent years, the remarkable progress of large language models (LLMs) has sparked interest in task automation, which involves decomposing complex tasks described by user instructions into sub-tasks and invoking external tools to execute them, playing a central role in autonomous agents. However, there is a lack of systematic and standardized benchmarks to promote the development of LLMs in task automation. To address this, we introduce TaskBench, a comprehensive framework to evaluate the capability of LLMs in task automation. Specifically, task automation can be divided into three critical stages: task decomposition, tool selection, and parameter prediction. To tackle the complexities inherent in these stages, we introduce the concept of Tool Graph to represent decomposed tasks and adopt a back-instruct method to generate high-quality user instructions. We propose TaskEval, a multi-faceted evaluation methodology that assesses LLM performance across these three stages. Our approach combines automated construction with rigorous human verification, ensuring high consistency with human evaluation. Experimental results demonstrate that TaskBench effectively reflects the capabilities of various LLMs in task automation. It provides insights into model performance across different task complexities and domains, pushing the boundaries of what current models can achieve. TaskBench offers a scalable, adaptable, and reliable benchmark for advancing LLM-based autonomous agents.
Abstract（参考訳）: 近年の大規模言語モデル(LLM)の顕著な進歩は、ユーザ命令によって記述された複雑なタスクをサブタスクに分解し、それらを実行するための外部ツールを呼び出し、自律エージェントにおいて中心的な役割を果たすタスク自動化への関心を喚起している。しかし、タスク自動化におけるLLMの開発を促進するために、体系的および標準化されたベンチマークが欠如している。これを解決するために,タスク自動化におけるLLMの機能を評価するための総合的なフレームワークであるTaskBenchを紹介する。具体的には、タスクの自動化は、タスク分解、ツールの選択、パラメータ予測の3つの重要なステージに分けられる。これらの段階に固有の複雑さに対処するために、分解されたタスクを表すツールグラフの概念を導入し、高品質なユーザ命令を生成するバックインストラクトメソッドを採用する。これらの3段階にわたるLCM性能を評価する多面的評価手法であるTaskEvalを提案する。提案手法は, 自動構築と厳密な人的検証を組み合わせることで, 人的評価との整合性を確保する。 TaskBench はタスク自動化における様々な LLM の機能を効果的に反映していることを示す実験結果が得られた。さまざまなタスクの複雑さとドメインにわたるモデルパフォーマンスに関する洞察を提供し、現在のモデルが達成できることの境界を押し進めます。 TaskBenchは、LSMベースの自律エージェントを前進させるためのスケーラブルで適応性があり、信頼性の高いベンチマークを提供する。

関連論文リスト

DrafterBench: Benchmarking Large Language Models for Tasks Automation in Civil Engineering [7.264718073839472]
大規模言語モデル(LLM)エージェントは、現実世界の問題を解決する大きな可能性を示し、業界におけるタスク自動化のソリューションになることを約束しています。技術図面修正の文脈におけるLLMエージェントの総合評価のためのDrafterBenchを提案する。 DrafterBenchは、AIエージェントが複雑な長文の命令を解釈する習熟度を厳格にテストするオープンソースのベンチマークである。
論文参考訳（メタデータ） (2025-07-15T17:56:04Z)
VerifyLLM: LLM-Based Pre-Execution Task Plan Verification for Robots [44.99833362998488]
本研究では,シミュレータや実環境で実行する前に,タスクプランを自動的に検証するアーキテクチャを提案する。このモジュールは、Large Language Modelsの推論機能を使用して、論理的一貫性を評価し、計画の潜在的なギャップを特定する。我々は,タスク計画の信頼性と効率の向上に寄与し,自律システムにおける堅牢な事前実行検証の必要性に対処する。
論文参考訳（メタデータ） (2025-07-07T15:31:36Z)
Scaling Autonomous Agents via Automatic Reward Modeling And Planning [52.39395405893965]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な機能を示している。しかし、彼らは多段階の意思決定と環境フィードバックを必要とする問題に苦戦している。人間のアノテーションを使わずに環境から報酬モデルを自動的に学習できるフレームワークを提案する。
論文参考訳（メタデータ） (2025-02-17T18:49:25Z)
A Comparison of Prompt Engineering Techniques for Task Planning and Execution in Service Robotics [16.064583670720587]
サービスロボティクスにおける高レベルのタスク計画と実行の適用において、迅速なエンジニアリング技術とそれらの組み合わせを比較した。そこで本研究では,タスクの多様なセットとシミュレーションにおける機能セットを定義し,タスク完了の正確さと実行時間を測定する。
論文参考訳（メタデータ） (2024-10-30T13:22:55Z)
AutoML-Agent: A Multi-Agent LLM Framework for Full-Pipeline AutoML [56.565200973244146]
自動機械学習(Automated Machine Learning, ML)は、開発パイプライン内のタスクを自動化することによって、AI開発を加速する。近年の作業では,そのような負担を軽減するために,大規模言語モデル(LLM)の利用が始まっている。本稿では,フルパイプのAutoMLに適した新しいマルチエージェントフレームワークであるAutoML-Agentを提案する。
論文参考訳（メタデータ） (2024-10-03T20:01:09Z)
Incorporating Large Language Models into Production Systems for Enhanced Task Automation and Flexibility [2.3999111269325266]
本稿では,大規模言語モデル(LLM)エージェントを自動生産システムに統合するための新しいアプローチを提案する。自動化ピラミッドに基づいた階層的なフレームワーク内での運用運用の組織化。これにより、プロダクションプロセスのオーケストレーションのためのスケーラブルでフレキシブルな基盤が実現できます。
論文参考訳（メタデータ） (2024-07-11T14:34:43Z)
WorkArena++: Towards Compositional Planning and Reasoning-based Common Knowledge Work Tasks [85.95607119635102]
大型言語モデル(LLM)は人間のような知性を模倣することができる。 WorkArena++は、Webエージェントの計画、問題解決、論理的/論理的推論、検索、コンテキスト的理解能力を評価するように設計されている。
論文参考訳（メタデータ） (2024-07-07T07:15:49Z)
Tool Learning in the Wild: Empowering Language Models as Automatic Tool Agents [56.822238860147024]
大規模な言語モデルを外部ツールで拡張することは、彼らのユーティリティを拡張するための有望なアプローチとして現れました。以前のメソッドは、ツールドキュメントを手動で解析し、コンテキスト内デモを作成し、ツールをLLMがステップバイステップの推論で使用する構造化フォーマットに変換する。 LLMがツール使用ワークフローを自動化できるフレームワークであるAutoToolsを提案する。
論文参考訳（メタデータ） (2024-05-26T11:40:58Z)
The Foundations of Computational Management: A Systematic Approach to Task Automation for the Integration of Artificial Intelligence into Existing Workflows [55.2480439325792]
本稿では,タスク自動化の体系的アプローチである計算管理を紹介する。この記事では、ワークフロー内でAIを実装するプロセスを開始するための、ステップバイステップの手順を3つ紹介する。
論文参考訳（メタデータ） (2024-02-07T01:45:14Z)
Small LLMs Are Weak Tool Learners: A Multi-LLM Agent [73.54562551341454]
大規模言語モデル(LLM)エージェントはスタンドアロンのLLMの機能を大幅に拡張する。本稿では、上記の機能をプランナー、呼び出し元、要約器に分解する新しい手法を提案する。このモジュール化されたフレームワークは、個々の更新と、それぞれの機能を構築するための小さなLLMの潜在的な使用を容易にする。
論文参考訳（メタデータ） (2024-01-14T16:17:07Z)
Interactive Planning Using Large Language Models for Partially Observable Robotics Tasks [54.60571399091711]
大きな言語モデル(LLM)は、オープン語彙タスクを実行するロボットエージェントを作成することで、驚くべき成果を上げている。 LLMを用いた部分的に観測可能なタスクのための対話型計画手法を提案する。
論文参考訳（メタデータ） (2023-12-11T22:54:44Z)
TPTU: Large Language Model-based AI Agents for Task Planning and Tool Usage [28.554981886052953]
大規模言語モデル(LLM)は、様々な現実世界のアプリケーションのための強力なツールとして登場した。 LLMの本質的な生成能力は、その長所にもかかわらず、複雑なタスクを扱うには不十分である。本稿では,LLMベースのAIエージェントに適した構造化フレームワークを提案する。
論文参考訳（メタデータ） (2023-08-07T09:22:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。