Fugu-MT 論文翻訳(概要): From Summary to Action: Enhancing Large Language Models for Complex Tasks with Open World APIs

論文の概要: From Summary to Action: Enhancing Large Language Models for Complex Tasks with Open World APIs

arxiv url: http://arxiv.org/abs/2402.18157v1
Date: Wed, 28 Feb 2024 08:42:23 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-29 15:44:53.851564
Title: From Summary to Action: Enhancing Large Language Models for Complex Tasks with Open World APIs
Title（参考訳）: 概要から行動へ:Open World APIで複雑なタスクのための大規模言語モデルを強化する
Authors: Yulong Liu, Yunlong Yuan, Chunwei Wang, Jianhua Han, Yongqiang Ma, Li Zhang, Nanning Zheng, Hang Xu
Abstract要約: 大規模な現実世界のAPIを制御するために設計された新しいツール呼び出しパイプラインを導入します。このパイプラインは人間のタスク解決プロセスを反映し、複雑な実際のユーザクエリに対処する。 ToolBenchベンチマークにおけるSum2Actパイプラインの実証的な評価は、大幅なパフォーマンス向上を示している。
参考スコア（独自算出の注目度）: 62.496139001509114
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The distinction between humans and animals lies in the unique ability of humans to use and create tools. Tools empower humans to overcome physiological limitations, fostering the creation of magnificent civilizations. Similarly, enabling foundational models like Large Language Models (LLMs) with the capacity to learn external tool usage may serve as a pivotal step toward realizing artificial general intelligence. Previous studies in this field have predominantly pursued two distinct approaches to augment the tool invocation capabilities of LLMs. The first approach emphasizes the construction of relevant datasets for model fine-tuning. The second approach, in contrast, aims to fully exploit the inherent reasoning abilities of LLMs through in-context learning strategies. In this work, we introduce a novel tool invocation pipeline designed to control massive real-world APIs. This pipeline mirrors the human task-solving process, addressing complicated real-life user queries. At each step, we guide LLMs to summarize the achieved results and determine the next course of action. We term this pipeline `from Summary to action', Sum2Act for short. Empirical evaluations of our Sum2Act pipeline on the ToolBench benchmark show significant performance improvements, outperforming established methods like ReAct and DFSDT. This highlights Sum2Act's effectiveness in enhancing LLMs for complex real-world tasks.
Abstract（参考訳）: 人間と動物の区別は、人間のツールの使用と作成の独特な能力にある。ツールは人間の生理的限界を克服し、壮大な文明の創造を促進する。同様に、Large Language Models (LLMs)のような基礎的なモデルに外部ツールの使用法を学ぶ能力を持たせることは、人工知能の実現に向けた重要なステップとなるかもしれない。この分野での先行研究は、LLMのツール実行能力を増強する2つの異なるアプローチを主に追求している。最初のアプローチでは、モデルの微調整に関連するデータセットの構築を強調している。対照的に第2のアプローチは、文脈内学習戦略を通じてLLMの本質的推論能力を完全に活用することを目的としている。本稿では,大規模な実世界のapiを制御するための新しいツール呼び出しパイプラインを提案する。このパイプラインは人間のタスク解決プロセスを反映し、複雑な実際のユーザクエリに対処する。各ステップで LLM をガイドして,得られた結果を要約し,次の行動経路を決定する。このパイプラインを‘from summary to action’、略してsum2actと呼びます。 ToolBenchベンチマークにおけるSum2Actパイプラインの実証的な評価は、ReActやDFSDTといった確立したメソッドよりも優れたパフォーマンス向上を示している。このことは、Sum2Actが複雑な現実世界のタスクに対してLLMを強化する効果を強調している。

関連論文リスト

Improving LLM Agent Planning with In-Context Learning via Atomic Fact Augmentation and Lookahead Search [48.348209577994865]
大規模言語モデル(LLM)はますます有能になるが、複雑で対話的な環境で効果的に機能するためには、重要なガイダンスや広範な相互作用履歴を必要とすることが多い。テキスト内学習による計画能力を高める新しいLLMエージェントフレームワークを提案する。我々のエージェントは、その相互作用軌跡からタスククリティカルな原子事実'を抽出することを学ぶ。
論文参考訳（メタデータ） (2025-06-10T18:36:31Z)
Tool-Star: Empowering LLM-Brained Multi-Tool Reasoner via Reinforcement Learning [63.31585771716123]
大言語モデル(LLM)は、大規模強化学習(RL)を通じて顕著な推論能力を示した。ステップワイズ推論中に複数の外部ツールを自律的に呼び出すLLベースのフレームワークであるTool-Starを紹介する。 Tool-Starは6種類のツールを統合し、データ合成とトレーニングの両方に体系的な設計を取り入れている。
論文参考訳（メタデータ） (2025-05-22T09:00:19Z)
LLM With Tools: A Survey [0.0]
本稿では,LCMに外部ツールの使用を教える領域における方法論,問題点,展開について述べる。ユーザ命令を実行可能なプランにマッピングする一連の関数によってガイドされるツール統合のための標準化パラダイムを導入する。調査の結果,ツール起動タイミング,選択精度,堅牢な推論プロセスの必要性など,さまざまな課題が明らかになった。
論文参考訳（メタデータ） (2024-09-24T14:08:11Z)
What Affects the Stability of Tool Learning? An Empirical Study on the Robustness of Tool Learning Frameworks [33.51887014808227]
本稿では,ツール学習フレームワークの性能に及ぼす内部要因と外部要因の影響について検討する。今後の研究には、LCMが試行錯誤の増加から大きな恩恵を受けることができるという観察など、洞察に富んだ結論がいくつか見出される。
論文参考訳（メタデータ） (2024-07-03T11:06:05Z)
Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More? [54.667202878390526]
長文言語モデル(LCLM)は、従来、検索システムやデータベースといった外部ツールに依存していたタスクへのアプローチに革命をもたらす可能性がある。実世界のタスクのベンチマークであるLOFTを導入し、文脈内検索と推論においてLCLMの性能を評価するために設計された数百万のトークンを出力する。以上の結果からLCLMは,これらのタスクを明示的に訓練したことがないにも関わらず,最先端の検索システムやRAGシステムと競合する驚くべき能力を示した。
論文参考訳（メタデータ） (2024-06-19T00:28:58Z)
Chain of Tools: Large Language Model is an Automatic Multi-tool Learner [54.992464510992605]
Automatic Tool Chain(ATC)は、大規模言語モデル(LLM)がマルチツールユーザとして機能することを可能にするフレームワークである。次に,ツールの範囲を拡大するために,ブラックボックス探索法を提案する。包括的な評価のために、ToolFlowという挑戦的なベンチマークを構築しました。
論文参考訳（メタデータ） (2024-05-26T11:40:58Z)
Towards Completeness-Oriented Tool Retrieval for Large Language Models [60.733557487886635]
現実世界のシステムは多種多様なツールを組み込んでおり、全てのツールを大規模言語モデルに入力することは不可能である。既存のツール検索手法は主にユーザクエリとツール記述間のセマンティックマッチングに焦点を当てている。我々は,ユーザクエリとツール記述のセマンティックな類似性だけでなく,ツールの協調的情報も考慮した,新しいモデル診断型協調学習型ツール検索手法であるCOLTを提案する。
論文参考訳（メタデータ） (2024-05-25T06:41:23Z)
Look Before You Leap: Towards Decision-Aware and Generalizable Tool-Usage for Large Language Models [26.28459880766842]
意思決定・汎用ツール・ユース・フレームワーク(DEER)を提案する。具体的には、まず、自動生成パイプラインを介して、複数の決定ブランチを持つツール使用サンプルを構築します。提案するDEERは, 各種データセットのベースラインよりも効果的で, 著しく優れる。
論文参考訳（メタデータ） (2024-02-26T16:11:03Z)
Small LLMs Are Weak Tool Learners: A Multi-LLM Agent [73.54562551341454]
大規模言語モデル(LLM)エージェントはスタンドアロンのLLMの機能を大幅に拡張する。本稿では、上記の機能をプランナー、呼び出し元、要約器に分解する新しい手法を提案する。このモジュール化されたフレームワークは、個々の更新と、それぞれの機能を構築するための小さなLLMの潜在的な使用を容易にする。
論文参考訳（メタデータ） (2024-01-14T16:17:07Z)
Confucius: Iterative Tool Learning from Introspection Feedback by Easy-to-Difficult Curriculum [42.36892453363961]
本研究では,大規模言語モデル(LLM)を学習し,現実のシナリオで複雑なツールを使用するための新しいツール学習フレームワークを提案する。まず,多段階の学習手法を提案する。次に、イントロスペクティブフィードバックからの反復自己インストラクションを提案し、データセットを動的に構築し、複雑なツールを使用する能力を改善する。
論文参考訳（メタデータ） (2023-08-27T07:53:00Z)
CREATOR: Tool Creation for Disentangling Abstract and Concrete Reasoning of Large Language Models [74.22729793816451]
大規模言語モデル(LLM)はツールの利用において大きな進歩を遂げているが、その能力はAPIの可用性によって制限されている。我々は、LCMがドキュメンテーションとコード実現を使って独自のツールを作成できる新しいフレームワークCREATORを提案する。我々は,MATH と TabMWP のベンチマークで CREATOR を評価する。
論文参考訳（メタデータ） (2023-05-23T17:51:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。