論文の概要: From Summary to Action: Enhancing Large Language Models for Complex
Tasks with Open World APIs
- arxiv url: http://arxiv.org/abs/2402.18157v1
- Date: Wed, 28 Feb 2024 08:42:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-29 15:44:53.851564
- Title: From Summary to Action: Enhancing Large Language Models for Complex
Tasks with Open World APIs
- Title(参考訳): 概要から行動へ:Open World APIで複雑なタスクのための大規模言語モデルを強化する
- Authors: Yulong Liu, Yunlong Yuan, Chunwei Wang, Jianhua Han, Yongqiang Ma, Li
Zhang, Nanning Zheng, Hang Xu
- Abstract要約: 大規模な現実世界のAPIを制御するために設計された新しいツール呼び出しパイプラインを導入します。
このパイプラインは人間のタスク解決プロセスを反映し、複雑な実際のユーザクエリに対処する。
ToolBenchベンチマークにおけるSum2Actパイプラインの実証的な評価は、大幅なパフォーマンス向上を示している。
- 参考スコア(独自算出の注目度): 62.496139001509114
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The distinction between humans and animals lies in the unique ability of
humans to use and create tools. Tools empower humans to overcome physiological
limitations, fostering the creation of magnificent civilizations. Similarly,
enabling foundational models like Large Language Models (LLMs) with the
capacity to learn external tool usage may serve as a pivotal step toward
realizing artificial general intelligence. Previous studies in this field have
predominantly pursued two distinct approaches to augment the tool invocation
capabilities of LLMs. The first approach emphasizes the construction of
relevant datasets for model fine-tuning. The second approach, in contrast, aims
to fully exploit the inherent reasoning abilities of LLMs through in-context
learning strategies. In this work, we introduce a novel tool invocation
pipeline designed to control massive real-world APIs. This pipeline mirrors the
human task-solving process, addressing complicated real-life user queries. At
each step, we guide LLMs to summarize the achieved results and determine the
next course of action. We term this pipeline `from Summary to action', Sum2Act
for short. Empirical evaluations of our Sum2Act pipeline on the ToolBench
benchmark show significant performance improvements, outperforming established
methods like ReAct and DFSDT. This highlights Sum2Act's effectiveness in
enhancing LLMs for complex real-world tasks.
- Abstract(参考訳): 人間と動物の区別は、人間のツールの使用と作成の独特な能力にある。
ツールは人間の生理的限界を克服し、壮大な文明の創造を促進する。
同様に、Large Language Models (LLMs)のような基礎的なモデルに外部ツールの使用法を学ぶ能力を持たせることは、人工知能の実現に向けた重要なステップとなるかもしれない。
この分野での先行研究は、LLMのツール実行能力を増強する2つの異なるアプローチを主に追求している。
最初のアプローチでは、モデルの微調整に関連するデータセットの構築を強調している。
対照的に第2のアプローチは、文脈内学習戦略を通じてLLMの本質的推論能力を完全に活用することを目的としている。
本稿では,大規模な実世界のapiを制御するための新しいツール呼び出しパイプラインを提案する。
このパイプラインは人間のタスク解決プロセスを反映し、複雑な実際のユーザクエリに対処する。
各ステップで LLM をガイドして,得られた結果を要約し,次の行動経路を決定する。
このパイプラインを‘from summary to action’、略してsum2actと呼びます。
ToolBenchベンチマークにおけるSum2Actパイプラインの実証的な評価は、ReActやDFSDTといった確立したメソッドよりも優れたパフォーマンス向上を示している。
このことは、Sum2Actが複雑な現実世界のタスクに対してLLMを強化する効果を強調している。
関連論文リスト
- LLMs in the Imaginarium: Tool Learning through Simulated Trial and Error [54.954211216847135]
既存の大規模言語モデル(LLM)は30%から60%の範囲でしか正当性に至らない。
試行錯誤(STE)を模擬したツール拡張LDMの生物学的なインスピレーション法を提案する。
STEは、試行錯誤、想像力、記憶という、生物学的システムにおけるツール使用行動の成功のための3つの重要なメカニズムを編成する。
論文 参考訳(メタデータ) (2024-03-07T18:50:51Z) - Look Before You Leap: Towards Decision-Aware and Generalizable
Tool-Usage for Large Language Models [28.19932548630398]
意思決定・汎用ツール・ユース・フレームワーク(DEER)を提案する。
具体的には、まず、自動生成パイプラインを介して、複数の決定ブランチを持つツール使用サンプルを構築します。
提案するDEERは, 各種データセットのベースラインよりも効果的で, 著しく優れる。
論文 参考訳(メタデータ) (2024-02-26T16:11:03Z) - Efficient Tool Use with Chain-of-Abstraction Reasoning [65.18096363216574]
大規模言語モデル(LLM)は、現実世界の知識に対する推論の基礎となる必要がある。
マルチステップ推論問題におけるツールの実行には,微調整LDMエージェントの課題が残されている。
マルチステップ推論におけるツールの活用方法として, LLM の新しい手法を提案する。
論文 参考訳(メタデータ) (2024-01-30T21:53:30Z) - Planning, Creation, Usage: Benchmarking LLMs for Comprehensive Tool
Utilization in Real-World Complex Scenarios [95.97781233780357]
UltraToolは、ツール利用におけるLarge Language Modelsの能力を改善し評価するために設計された、新しいベンチマークである。
現実の複雑さを強調し、効果的な問題解決のために正確で多段階の計画を必要とする。
UltraToolの重要な特徴は、ツールの使用前に発生する自然言語による計画の独立した評価である。
論文 参考訳(メタデータ) (2024-01-30T16:52:56Z) - Small LLMs Are Weak Tool Learners: A Multi-LLM Agent [73.54562551341454]
大規模言語モデル(LLM)エージェントはスタンドアロンのLLMの機能を大幅に拡張する。
本稿では、上記の機能をプランナー、呼び出し元、要約器に分解する新しい手法を提案する。
このモジュール化されたフレームワークは、個々の更新と、それぞれの機能を構築するための小さなLLMの潜在的な使用を容易にする。
論文 参考訳(メタデータ) (2024-01-14T16:17:07Z) - Confucius: Iterative Tool Learning from Introspection Feedback by
Easy-to-Difficult Curriculum [42.36892453363961]
本研究では,大規模言語モデル(LLM)を学習し,現実のシナリオで複雑なツールを使用するための新しいツール学習フレームワークを提案する。
まず,多段階の学習手法を提案する。
次に、イントロスペクティブフィードバックからの反復自己インストラクションを提案し、データセットを動的に構築し、複雑なツールを使用する能力を改善する。
論文 参考訳(メタデータ) (2023-08-27T07:53:00Z) - CREATOR: Tool Creation for Disentangling Abstract and Concrete Reasoning
of Large Language Models [78.65241926912663]
大規模言語モデル(LLM)はツールの利用において大きな進歩を遂げているが、その能力はAPIの可用性によって制限されている。
我々は、LCMがドキュメンテーションとコード実現を使って独自のツールを作成できる新しいフレームワークCREATORを提案する。
我々は,MATH と TabMWP のベンチマークで CREATOR を評価する。
論文 参考訳(メタデータ) (2023-05-23T17:51:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。