論文の概要: Look Before You Leap: Towards Decision-Aware and Generalizable Tool-Usage for Large Language Models
- arxiv url: http://arxiv.org/abs/2402.16696v3
- Date: Wed, 28 Aug 2024 14:54:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-29 21:09:20.802032
- Title: Look Before You Leap: Towards Decision-Aware and Generalizable Tool-Usage for Large Language Models
- Title(参考訳): Leapに先立ち - 大規模言語モデルのための意思決定と一般化可能なツール利用を目指して
- Authors: Anchun Gui, Jian Li, Yong Dai, Nan Du, Han Xiao,
- Abstract要約: 意思決定・汎用ツール・ユース・フレームワーク(DEER)を提案する。
具体的には、まず、自動生成パイプラインを介して、複数の決定ブランチを持つツール使用サンプルを構築します。
提案するDEERは, 各種データセットのベースラインよりも効果的で, 著しく優れる。
- 参考スコア(独自算出の注目度): 26.28459880766842
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Tool-augmented large language models (LLMs) are attracting widespread attention when accessing up-to-date knowledge and alleviating hallucination issues. Nowadays, advanced closed-source LLMs (e.g., ChatGPT) have demonstrated surprising tool-usage capabilities through prompting and in-context learning techniques. To empower the capabilities of open-source LLMs (e.g., LLaMA) in manipulating tools, current efforts focus on either template-driven or token-triggered tool-usage. However, the former hampers LLMs' flexibility to address diverse user's queries due to constrained tool interactions, while the latter limits the generalizability when engaging with new tools, since tool-usage learning is based on task- and tool-specific datasets. To alleviate these concerns, in this paper, we propose a decision-aware and generalizable tool-usage framework (DEER). Specifically, we first construct the tool-usage samples with multiple decision branches via an automatic generation pipeline, thereby inspiring the decision-making awareness of LLMs under diverse scenarios. Meanwhile, we propose a novel tool sampling strategy to enhance the generalizability of LLMs over unseen tools. Extensive experiments demonstrate that our proposed DEER is effective and significantly outperforms baselines across various datasets.
- Abstract(参考訳): ツール強化された大規模言語モデル(LLM)は、最新の知識にアクセスし、幻覚を緩和する際に広く注目を集めている。
今日では、高度なクローズドソース LLM (例: ChatGPT) は、プロンプトやコンテキスト内学習技術を通じて、驚くほどのツール使用能力を誇示している。
ツールを操作するためのオープンソースのLLM(例:LLaMA)の能力を強化するため、現在の取り組みはテンプレート駆動またはトークントリガーツールの使用に重点を置いている。
しかしながら、制約されたツールインタラクションによる多様なユーザクエリに対処する、以前のLLMの柔軟性は、ツール使用学習がタスクとツール固有のデータセットに基づいているため、新しいツールを使用する際の一般化性を制限している。
本稿では,これらの懸念を軽減するために,DeER(Decior-aware and generalizable tool-usage framework)を提案する。
具体的には、まず、自動生成パイプラインを介して複数の意思決定ブランチを持つツール使用サンプルを構築し、多様なシナリオ下でのLCMの意思決定意識を刺激する。
一方,LLMの非表示ツールに対する一般化性を高めるための新しいツールサンプリング手法を提案する。
大規模な実験により、提案したDEERは、様々なデータセットのベースラインよりも効果的で、はるかに優れています。
関連論文リスト
- LLM With Tools: A Survey [0.0]
本稿では,LCMに外部ツールの使用を教える領域における方法論,問題点,展開について述べる。
ユーザ命令を実行可能なプランにマッピングする一連の関数によってガイドされるツール統合のための標準化パラダイムを導入する。
調査の結果,ツール起動タイミング,選択精度,堅牢な推論プロセスの必要性など,さまざまな課題が明らかになった。
論文 参考訳(メタデータ) (2024-09-24T14:08:11Z) - Chain of Tools: Large Language Model is an Automatic Multi-tool Learner [54.992464510992605]
Automatic Tool Chain(ATC)は、大規模言語モデル(LLM)がマルチツールユーザとして機能することを可能にするフレームワークである。
次に,ツールの範囲を拡大するために,ブラックボックス探索法を提案する。
包括的な評価のために、ToolFlowという挑戦的なベンチマークを構築しました。
論文 参考訳(メタデータ) (2024-05-26T11:40:58Z) - Towards Completeness-Oriented Tool Retrieval for Large Language Models [60.733557487886635]
現実世界のシステムは多種多様なツールを組み込んでおり、全てのツールを大規模言語モデルに入力することは不可能である。
既存のツール検索手法は主にユーザクエリとツール記述間のセマンティックマッチングに焦点を当てている。
我々は,ユーザクエリとツール記述のセマンティックな類似性だけでなく,ツールの協調的情報も考慮した,新しいモデル診断型協調学習型ツール検索手法であるCOLTを提案する。
論文 参考訳(メタデータ) (2024-05-25T06:41:23Z) - Planning, Creation, Usage: Benchmarking LLMs for Comprehensive Tool Utilization in Real-World Complex Scenarios [93.68764280953624]
UltraToolは、ツール利用におけるLarge Language Modelsの能力を改善し評価するために設計された、新しいベンチマークである。
現実の複雑さを強調し、効果的な問題解決のために正確で多段階の計画を必要とする。
UltraToolの重要な特徴は、ツールの使用前に発生する自然言語による計画の独立した評価である。
論文 参考訳(メタデータ) (2024-01-30T16:52:56Z) - EASYTOOL: Enhancing LLM-based Agents with Concise Tool Instruction [56.02100384015907]
EasyToolは、多種多様で長いツールドキュメントを統一的で簡潔なツール命令に変換するフレームワークである。
トークン使用量を大幅に削減し、現実のシナリオにおけるツール利用のパフォーマンスを向上させることができる。
論文 参考訳(メタデータ) (2024-01-11T15:45:11Z) - MetaTool Benchmark for Large Language Models: Deciding Whether to Use
Tools and Which to Use [82.24774504584066]
大規模言語モデル(LLM)は、その印象的な自然言語処理(NLP)能力のために大きな注目を集めている。
このベンチマークは、LLMがツールの使用意識を持ち、ツールを正しく選択できるかどうかを評価するためのものだ。
8つの人気のあるLCMを巻き込んだ実験を行い、その大半は依然として効果的にツールを選択するのに苦労していることがわかった。
論文 参考訳(メタデータ) (2023-10-04T19:39:26Z) - On the Tool Manipulation Capability of Open-source Large Language Models [19.6917640220883]
オープンソース LLM を強化して,ツール操作においてクローズド LLM API をリードする上での競争力を示すことができることを示す。
当社の技術は,オープンソースLLMを最大90%の成功率で向上させ,8つのツールベンチタスクのうち4つでOpenAI GPT-4と競合する能力を示す。
論文 参考訳(メタデータ) (2023-05-25T22:10:20Z) - CREATOR: Tool Creation for Disentangling Abstract and Concrete Reasoning of Large Language Models [74.22729793816451]
大規模言語モデル(LLM)はツールの利用において大きな進歩を遂げているが、その能力はAPIの可用性によって制限されている。
我々は、LCMがドキュメンテーションとコード実現を使って独自のツールを作成できる新しいフレームワークCREATORを提案する。
我々は,MATH と TabMWP のベンチマークで CREATOR を評価する。
論文 参考訳(メタデータ) (2023-05-23T17:51:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。