論文の概要: WTU-EVAL: A Whether-or-Not Tool Usage Evaluation Benchmark for Large Language Models
- arxiv url: http://arxiv.org/abs/2407.12823v1
- Date: Tue, 2 Jul 2024 12:07:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-22 08:47:38.327719
- Title: WTU-EVAL: A Whether-or-Not Tool Usage Evaluation Benchmark for Large Language Models
- Title(参考訳): WTU-EVAL:大規模言語モデルのツール使用評価ベンチマーク
- Authors: Kangyun Ning, Yisong Su, Xueqiang Lv, Yuanzhe Zhang, Jian Liu, Kang Liu, Jinan Xu,
- Abstract要約: 大きな言語モデル(LLM)は、NLPタスクに優れていますが、その能力を拡張するための外部ツールが必要です。
11個のデータセットでLCMを評価するためにW whether-or-notツール利用評価ベンチマーク(WTU-Eval)を導入する。
WTU-Eval 上での8つの LLM の結果は、LLM が一般的なデータセットでツールの使用方法を決定するのにしばしば苦労していることを示している。
微調整のLlama2-7Bは14%の性能向上と16.8%の誤ったツール使用率の低下をもたらす。
- 参考スコア(独自算出の注目度): 31.742620965039517
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Although Large Language Models (LLMs) excel in NLP tasks, they still need external tools to extend their ability. Current research on tool learning with LLMs often assumes mandatory tool use, which does not always align with real-world situations, where the necessity for tools is uncertain, and incorrect or unnecessary use of tools can damage the general abilities of LLMs. Therefore, we propose to explore whether LLMs can discern their ability boundaries and use tools flexibly. We then introduce the Whether-or-not tool usage Evaluation benchmark (WTU-Eval) to assess LLMs with eleven datasets, where six of them are tool-usage datasets, and five are general datasets. LLMs are prompted to use tools according to their needs. The results of eight LLMs on WTU-Eval reveal that LLMs frequently struggle to determine tool use in general datasets, and LLMs' performance in tool-usage datasets improves when their ability is similar to ChatGPT. In both datasets, incorrect tool usage significantly impairs LLMs' performance. To mitigate this, we also develop the finetuning dataset to enhance tool decision-making. Fine-tuning Llama2-7B results in a 14\% average performance improvement and a 16.8\% decrease in incorrect tool usage. We will release the WTU-Eval benchmark.
- Abstract(参考訳): 大きな言語モデル(LLM)はNLPタスクに優れていますが、その能力を拡張するための外部ツールが必要です。
LLMを用いたツール学習の現在の研究は、ツールの必要性が不確実である現実の状況と必ずしも一致しないような、必須のツールの使用を前提としており、ツールの誤用や不必要な使用は、LLMの一般的な能力を損なう可能性がある。
そこで本研究では,LLMが能力境界を識別し,柔軟性のあるツールを利用できるかを検討する。
次に、W whether-or-notツール利用評価ベンチマーク(WTU-Eval)を導入し、11のデータセットでLCMを評価し、そのうち6つはツール使用データセット、5つは一般的なデータセットである。
LLMはニーズに応じてツールを使用するように促されます。
WTU-Eval 上での8つの LLM の結果から,LLM は一般的なデータセットにおけるツール利用の判断に苦慮することが多く,ツール使用データセットにおける LLM のパフォーマンスは ChatGPT と類似した能力で向上することが明らかになった。
どちらのデータセットでも、間違ったツールの使用はLLMのパフォーマンスを著しく損なう。
これを軽減するために、ツールの意思決定を強化するための微調整データセットも開発する。
微調整のLlama2-7Bでは、平均的なパフォーマンス改善が14\%、誤ったツール使用率が16.8%低下する。
WTU-Evalベンチマークをリリースします。
関連論文リスト
- Learning to Ask: When LLMs Meet Unclear Instruction [49.256630152684764]
大きな言語モデル(LLM)は、言語スキルだけでは達成不可能なタスクに対処するための外部ツールを活用することができる。
我々は、不完全な命令下でのLLMツールの使用性能を評価し、エラーパターンを分析し、Noisy ToolBenchと呼ばれる挑戦的なツール使用ベンチマークを構築した。
Ask-when-Needed (AwN) という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-31T23:06:12Z) - Can Tool-augmented Large Language Models be Aware of Incomplete Conditions? [33.74511128798095]
本研究では,大規模言語モデルが不完全条件を識別し,いつツールの使用を控えるかを適切に判断できるかどうかを検討する。
特定ツールの利用に必要な追加情報と適切なツールの欠如を識別するために,ほとんどのLCMが課題であることを確認した。
論文 参考訳(メタデータ) (2024-06-18T06:28:06Z) - Chain of Tools: Large Language Model is an Automatic Multi-tool Learner [54.992464510992605]
Automatic Tool Chain(ATC)は、大規模言語モデル(LLM)がマルチツールユーザとして機能することを可能にするフレームワークである。
次に,ツールの範囲を拡大するために,ブラックボックス探索法を提案する。
包括的な評価のために、ToolFlowという挑戦的なベンチマークを構築しました。
論文 参考訳(メタデータ) (2024-05-26T11:40:58Z) - Towards Practical Tool Usage for Continually Learning LLMs [28.62382804829694]
大規模言語モデルは、言語ベースのタスクを解くために生まれつきのスキルを示す。
しかし、彼らの知識はパラメータの中に直接格納され、時間内には静的のままである。
ツールの使用は、LLMがインターフェイスを通してアクセス可能なシステムに作業をオフロードするのに役立つ。
しかし、それらを使用するLCMは、長期間使用するためには、まだ非定常環境に適応する必要がある。
論文 参考訳(メタデータ) (2024-04-14T19:45:47Z) - LLMs in the Imaginarium: Tool Learning through Simulated Trial and Error [54.954211216847135]
既存の大規模言語モデル(LLM)は30%から60%の範囲でしか正当性に至らない。
試行錯誤(STE)を模擬したツール拡張LDMの生物学的なインスピレーション法を提案する。
STEは、試行錯誤、想像力、記憶という、生物学的システムにおけるツール使用行動の成功のための3つの重要なメカニズムを編成する。
論文 参考訳(メタデータ) (2024-03-07T18:50:51Z) - Planning, Creation, Usage: Benchmarking LLMs for Comprehensive Tool Utilization in Real-World Complex Scenarios [93.68764280953624]
UltraToolは、ツール利用におけるLarge Language Modelsの能力を改善し評価するために設計された、新しいベンチマークである。
現実の複雑さを強調し、効果的な問題解決のために正確で多段階の計画を必要とする。
UltraToolの重要な特徴は、ツールの使用前に発生する自然言語による計画の独立した評価である。
論文 参考訳(メタデータ) (2024-01-30T16:52:56Z) - MetaTool Benchmark for Large Language Models: Deciding Whether to Use
Tools and Which to Use [82.24774504584066]
大規模言語モデル(LLM)は、その印象的な自然言語処理(NLP)能力のために大きな注目を集めている。
このベンチマークは、LLMがツールの使用意識を持ち、ツールを正しく選択できるかどうかを評価するためのものだ。
8つの人気のあるLCMを巻き込んだ実験を行い、その大半は依然として効果的にツールを選択するのに苦労していることがわかった。
論文 参考訳(メタデータ) (2023-10-04T19:39:26Z) - GPT4Tools: Teaching Large Language Model to Use Tools via
Self-instruction [41.36474802204914]
GPT4Tools は LLaMA や OPT などのオープンソース LLM のツール使用を可能にするための自己インストラクトに基づいている。
先進的な教師に様々なマルチモーダルな文脈で指示追従データセットを生成する。
論文 参考訳(メタデータ) (2023-05-30T05:27:21Z) - Large Language Models as Tool Makers [85.00361145117293]
我々はLLM A s Tool Makers (LATM) と呼ばれるクローズドループフレームワークを導入する。
ツール作成: 1 つのツール作成: LLM がタスクセットのためのツールを作成するツールメーカとして機能する 2 つのツール使用: 別の LLM がツールユーザとして機能し、ツールメーカが問題解決のために構築したツールを適用する。
論文 参考訳(メタデータ) (2023-05-26T17:50:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。