論文の概要: Look Before You Leap: Towards Decision-Aware and Generalizable
Tool-Usage for Large Language Models
- arxiv url: http://arxiv.org/abs/2402.16696v2
- Date: Wed, 28 Feb 2024 03:31:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-29 12:01:52.066690
- Title: Look Before You Leap: Towards Decision-Aware and Generalizable
Tool-Usage for Large Language Models
- Title(参考訳): 大規模言語モデルのための意思決定と一般化可能なツール利用を目指して
- Authors: Anchun Gui, Jian Li, Yong Dai, Nan Du, Han Xiao
- Abstract要約: 意思決定・汎用ツール・ユース・フレームワーク(DEER)を提案する。
具体的には、まず、自動生成パイプラインを介して、複数の決定ブランチを持つツール使用サンプルを構築します。
提案するDEERは, 各種データセットのベースラインよりも効果的で, 著しく優れる。
- 参考スコア(独自算出の注目度): 28.19932548630398
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Tool-augmented large language models (LLMs) are attracting widespread
attention when accessing up-to-date knowledge and alleviating hallucination
issues. Nowadays, advanced closed-source LLMs (e.g., ChatGPT) have demonstrated
surprising tool-usage capabilities through prompting and in-context learning
techniques. To empower the capabilities of open-source LLMs (e.g., LLaMA) in
manipulating tools, current efforts focus on either template-driven or
token-triggered tool-usage. However, the former hampers LLMs' flexibility to
address diverse user's queries due to constrained tool interactions, while the
latter limits the generalizability when engaging with new tools, since
tool-usage learning is based on task- and tool-specific datasets. To alleviate
these concerns, in this paper, we propose a decision-aware and generalizable
tool-usage framework (DEER). Specifically, we first construct the tool-usage
samples with multiple decision branches via an automatic generation pipeline,
thereby inspiring the decision-making awareness of LLMs under diverse
scenarios. Meanwhile, we propose a novel tool sampling strategy to enhance the
generalizability of LLMs over unseen tools. Extensive experiments demonstrate
that our proposed DEER is effective and significantly outperforms baselines
across various datasets.
- Abstract(参考訳): ツールによる大規模言語モデル(llm)は、最新の知識にアクセスし、幻覚の問題を緩和するときに広く注目を集めている。
今日では、高度なクローズドソース LLM (例:ChatGPT) は、プロンプトやコンテキスト内学習技術を通じて、驚くほどのツール使用能力を実証している。
ツール操作におけるオープンソースのLLM(例えばLLaMA)の機能を強化するため、現在の取り組みはテンプレート駆動またはトークントリガーツールの使用に重点を置いている。
しかしながら、制約されたツールインタラクションによる多様なユーザクエリに対処する、以前のLLMの柔軟性は、ツール使用学習がタスクとツール固有のデータセットに基づいているため、新しいツールを使用する際の一般化性を制限している。
本稿では,これらの懸念を軽減するために,DeER(Decior-aware and generalizable tool-usage framework)を提案する。
具体的には,複数の決定枝を持つツール使用サンプルを自動生成パイプラインで構築し,多様なシナリオにおいてllmの意思決定意識を喚起する。
一方,LLMの非表示ツールに対する一般化性を高めるための新しいツールサンプリング手法を提案する。
広範な実験により,提案するシカは有効性を示し,各種データセットのベースラインを著しく上回っている。
関連論文リスト
- LLMs in the Imaginarium: Tool Learning through Simulated Trial and Error [54.954211216847135]
既存の大規模言語モデル(LLM)は30%から60%の範囲でしか正当性に至らない。
試行錯誤(STE)を模擬したツール拡張LDMの生物学的なインスピレーション法を提案する。
STEは、試行錯誤、想像力、記憶という、生物学的システムにおけるツール使用行動の成功のための3つの重要なメカニズムを編成する。
論文 参考訳(メタデータ) (2024-03-07T18:50:51Z) - Planning, Creation, Usage: Benchmarking LLMs for Comprehensive Tool
Utilization in Real-World Complex Scenarios [95.97781233780357]
UltraToolは、ツール利用におけるLarge Language Modelsの能力を改善し評価するために設計された、新しいベンチマークである。
現実の複雑さを強調し、効果的な問題解決のために正確で多段階の計画を必要とする。
UltraToolの重要な特徴は、ツールの使用前に発生する自然言語による計画の独立した評価である。
論文 参考訳(メタデータ) (2024-01-30T16:52:56Z) - Small LLMs Are Weak Tool Learners: A Multi-LLM Agent [73.54562551341454]
大規模言語モデル(LLM)エージェントはスタンドアロンのLLMの機能を大幅に拡張する。
本稿では、上記の機能をプランナー、呼び出し元、要約器に分解する新しい手法を提案する。
このモジュール化されたフレームワークは、個々の更新と、それぞれの機能を構築するための小さなLLMの潜在的な使用を容易にする。
論文 参考訳(メタデータ) (2024-01-14T16:17:07Z) - EASYTOOL: Enhancing LLM-based Agents with Concise Tool Instruction [58.43384002452624]
EasyToolは、多種多様で長いツールドキュメントを統一的で簡潔なツール命令に変換するフレームワークである。
トークン使用量を大幅に削減し、現実のシナリオにおけるツール利用のパフォーマンスを向上させることができる。
論文 参考訳(メタデータ) (2024-01-11T15:45:11Z) - ToolEyes: Fine-Grained Evaluation for Tool Learning Capabilities of
Large Language Models in Real-world Scenarios [48.38419686697733]
本稿では,大規模言語モデルのツール学習能力を評価するためのシステムであるToolEyesを提案する。
このシステムは7つの現実シナリオを慎重に分析し、ツール学習においてLLMに不可欠な5次元を解析する。
ToolEyesには,約600のツールを備えたツールライブラリが組み込まれている。
論文 参考訳(メタデータ) (2024-01-01T12:49:36Z) - MetaTool Benchmark for Large Language Models: Deciding Whether to Use
Tools and Which to Use [82.24774504584066]
大規模言語モデル(LLM)は、その印象的な自然言語処理(NLP)能力のために大きな注目を集めている。
このベンチマークは、LLMがツールの使用意識を持ち、ツールを正しく選択できるかどうかを評価するためのものだ。
8つの人気のあるLCMを巻き込んだ実験を行い、その大半は依然として効果的にツールを選択するのに苦労していることがわかった。
論文 参考訳(メタデータ) (2023-10-04T19:39:26Z) - Confucius: Iterative Tool Learning from Introspection Feedback by
Easy-to-Difficult Curriculum [42.36892453363961]
本研究では,大規模言語モデル(LLM)を学習し,現実のシナリオで複雑なツールを使用するための新しいツール学習フレームワークを提案する。
まず,多段階の学習手法を提案する。
次に、イントロスペクティブフィードバックからの反復自己インストラクションを提案し、データセットを動的に構築し、複雑なツールを使用する能力を改善する。
論文 参考訳(メタデータ) (2023-08-27T07:53:00Z) - On the Tool Manipulation Capability of Open-source Large Language Models [19.6917640220883]
オープンソース LLM を強化して,ツール操作においてクローズド LLM API をリードする上での競争力を示すことができることを示す。
当社の技術は,オープンソースLLMを最大90%の成功率で向上させ,8つのツールベンチタスクのうち4つでOpenAI GPT-4と競合する能力を示す。
論文 参考訳(メタデータ) (2023-05-25T22:10:20Z) - CREATOR: Tool Creation for Disentangling Abstract and Concrete Reasoning
of Large Language Models [78.65241926912663]
大規模言語モデル(LLM)はツールの利用において大きな進歩を遂げているが、その能力はAPIの可用性によって制限されている。
我々は、LCMがドキュメンテーションとコード実現を使って独自のツールを作成できる新しいフレームワークCREATORを提案する。
我々は,MATH と TabMWP のベンチマークで CREATOR を評価する。
論文 参考訳(メタデータ) (2023-05-23T17:51:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。