論文の概要: T-Eval: Evaluating the Tool Utilization Capability Step by Step
- arxiv url: http://arxiv.org/abs/2312.14033v2
- Date: Thu, 4 Jan 2024 05:11:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-05 16:41:18.599120
- Title: T-Eval: Evaluating the Tool Utilization Capability Step by Step
- Title(参考訳): t-eval: ツールの利用能力の段階別評価
- Authors: Zehui Chen, Weihua Du, Wenwei Zhang, Kuikun Liu, Jiangning Liu, Miao
Zheng, Jingming Zhuo, Songyang Zhang, Dahua Lin, Kai Chen, Feng Zhao
- Abstract要約: 大規模言語モデル (LLM) は様々なNLPタスクにおいて顕著な性能を達成した。
LLMのツール活用能力の評価と分析方法はまだ未検討である。
ツール利用能力を段階的に評価するためにT-Evalを導入する。
- 参考スコア(独自算出の注目度): 69.64348626180623
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large language models (LLM) have achieved remarkable performance on various
NLP tasks and are augmented by tools for broader applications. Yet, how to
evaluate and analyze the tool-utilization capability of LLMs is still
under-explored. In contrast to previous works that evaluate models
holistically, we comprehensively decompose the tool utilization into multiple
sub-processes, including instruction following, planning, reasoning, retrieval,
understanding, and review. Based on that, we further introduce T-Eval to
evaluate the tool utilization capability step by step. T-Eval disentangles the
tool utilization evaluation into several sub-domains along model capabilities,
facilitating the inner understanding of both holistic and isolated competency
of LLMs. We conduct extensive experiments on T-Eval and in-depth analysis of
various LLMs. T-Eval not only exhibits consistency with the outcome-oriented
evaluation but also provides a more fine-grained analysis of the capabilities
of LLMs, providing a new perspective in LLM evaluation on tool-utilization
ability. The benchmark will be available at
https://github.com/open-compass/T-Eval.
- Abstract(参考訳): 大規模言語モデル(llm)は様々なnlpタスクで顕著なパフォーマンスを達成し、幅広いアプリケーションのためのツールによって拡張されている。
しかし、LLMのツール活用能力の評価と分析はまだ未検討である。
モデルを全体的評価する従来の作業とは対照的に,ツール利用を命令追従,計画,推論,検索,理解,レビューなど,複数のサブプロセスに包括的に分解する。
そこで本研究では,t-eval を用いてツールの利用率を段階的に評価する。
T-Evalは、ツール利用の評価をモデル機能に沿っていくつかのサブドメインに切り離し、LLMの全体性と分離された能力の両方を内部的に理解するのに役立つ。
各種LLMのT-Evalおよび深部解析について広範な実験を行った。
T-Evalは、結果指向評価と整合性を示すだけでなく、LLMの機能のよりきめ細かな分析も提供する。
ベンチマークはhttps://github.com/open-compass/T-Eval.comで公開される。
関連論文リスト
- ELF-Gym: Evaluating Large Language Models Generated Features for Tabular Prediction [33.03433653251314]
大規模言語モデル(LLM)を評価するためのフレームワークであるELF-Gymを提案する。
私たちは、トップパフォーマンスチームによって使用される251の"ゴールド"機能を含む、歴史的なKaggleコンペティションから、新たなデータセットをキュレートしました。
ベストケースのシナリオでは、LLMがゴールデン機能の約56%を意味的にキャプチャできるが、より要求の高い実装レベルでは、オーバーラップは13%に減少する。
論文 参考訳(メタデータ) (2024-10-13T13:59:33Z) - From Exploration to Mastery: Enabling LLMs to Master Tools via Self-Driven Interactions [60.733557487886635]
本稿では,大規模言語モデルと外部ツールとの包括的ギャップを埋めることに焦点を当てる。
ツール文書の動的精錬を目的とした新しいフレームワーク DRAFT を提案する。
複数のデータセットに対する大規模な実験は、DRAFTの反復的なフィードバックベースの改善がドキュメントの品質を大幅に改善することを示している。
論文 参考訳(メタデータ) (2024-10-10T17:58:44Z) - What Affects the Stability of Tool Learning? An Empirical Study on the Robustness of Tool Learning Frameworks [33.51887014808227]
本稿では,ツール学習フレームワークの性能に及ぼす内部要因と外部要因の影響について検討する。
今後の研究には、LCMが試行錯誤の増加から大きな恩恵を受けることができるという観察など、洞察に富んだ結論がいくつか見出される。
論文 参考訳(メタデータ) (2024-07-03T11:06:05Z) - Look Before You Leap: Towards Decision-Aware and Generalizable Tool-Usage for Large Language Models [26.28459880766842]
意思決定・汎用ツール・ユース・フレームワーク(DEER)を提案する。
具体的には、まず、自動生成パイプラインを介して、複数の決定ブランチを持つツール使用サンプルを構築します。
提案するDEERは, 各種データセットのベースラインよりも効果的で, 著しく優れる。
論文 参考訳(メタデータ) (2024-02-26T16:11:03Z) - Planning, Creation, Usage: Benchmarking LLMs for Comprehensive Tool Utilization in Real-World Complex Scenarios [93.68764280953624]
UltraToolは、ツール利用におけるLarge Language Modelsの能力を改善し評価するために設計された、新しいベンチマークである。
現実の複雑さを強調し、効果的な問題解決のために正確で多段階の計画を必要とする。
UltraToolの重要な特徴は、ツールの使用前に発生する自然言語による計画の独立した評価である。
論文 参考訳(メタデータ) (2024-01-30T16:52:56Z) - Can Large Language Models be Trusted for Evaluation? Scalable
Meta-Evaluation of LLMs as Evaluators via Agent Debate [74.06294042304415]
エージェント・ディベート支援型メタ評価フレームワークであるScaleEvalを提案する。
フレームワークのコードをGitHubで公開しています。
論文 参考訳(メタデータ) (2024-01-30T07:03:32Z) - BLESS: Benchmarking Large Language Models on Sentence Simplification [55.461555829492866]
我々は、テキスト単純化(TS)タスク上で、最新の最先端の大規模言語モデル(LLM)のパフォーマンスベンチマークであるBLESSを紹介する。
異なるドメイン(Wikipedia、ニュース、医療)の3つのテストセットに対して、サイズ、アーキテクチャ、事前学習方法、アクセシビリティの異なる44のモデルを評価する。
評価の結果,最高のLSMはTSのトレーニングを受けていないにもかかわらず,最先端のTSベースラインと相容れない性能を示した。
論文 参考訳(メタデータ) (2023-10-24T12:18:17Z) - Evaluating Large Language Models at Evaluating Instruction Following [54.49567482594617]
我々は,命令追従出力の識別におけるLLM評価器の能力をテストするために,挑戦的なメタ評価ベンチマーク LLMBar を導入する。
異なる評価器がLLMBarに対して異なる性能を示し、最高の評価器でさえ改善の余地があることが判明した。
論文 参考訳(メタデータ) (2023-10-11T16:38:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。