論文の概要: T-Eval: Evaluating the Tool Utilization Capability Step by Step
- arxiv url: http://arxiv.org/abs/2312.14033v1
- Date: Thu, 21 Dec 2023 17:02:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-22 13:52:19.362158
- Title: T-Eval: Evaluating the Tool Utilization Capability Step by Step
- Title(参考訳): t-eval: ツールの利用能力の段階別評価
- Authors: Zehui Chen, Weihua Du, Wenwei Zhang, Kuikun Liu, Jiangning Liu, Miao
Zheng, Jingming Zhuo, Songyang Zhang, Dahua Lin, Kai Chen, Feng Zhao
- Abstract要約: 大規模言語モデル (LLM) は様々なNLPタスクにおいて顕著な性能を達成した。
LLMのツール活用能力の評価と分析方法はまだ未検討である。
- 参考スコア(独自算出の注目度): 69.64348626180623
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large language models (LLM) have achieved remarkable performance on various
NLP tasks and are augmented by tools for broader applications. Yet, how to
evaluate and analyze the tool-utilization capability of LLMs is still
under-explored. In contrast to previous works that evaluate models
holistically, we comprehensively decompose the tool utilization into multiple
sub-processes, including instruction following, planning, reasoning, retrieval,
understanding, and review. Based on that, we further introduce \shortname~to
evaluate the tool utilization capability step by step. \shortname~disentangles
the tool utilization evaluation into several sub-domains along model
capabilities, facilitating the inner understanding of both holistic and
isolated competency of LLMs. We conduct extensive experiments on \shortname~and
in-depth analysis of various LLMs. \shortname~ not only exhibits consistency
with the outcome-oriented evaluation but also provides a more fine-grained
analysis of the capabilities of LLMs, providing a new perspective in LLM
evaluation on tool-utilization ability. The benchmark will be available at
\href{https://github.com/open-compass/T-Eval}{https://github.com/open-compass/T-Eval}.
- Abstract(参考訳): 大規模言語モデル(llm)は様々なnlpタスクで顕著なパフォーマンスを達成し、幅広いアプリケーションのためのツールによって拡張されている。
しかし、LLMのツール活用能力の評価と分析はまだ未検討である。
モデルを全体的評価する従来の作業とは対照的に,ツール利用を命令追従,計画,推論,検索,理解,レビューなど,複数のサブプロセスに包括的に分解する。
それに基づいて、ツールの利用能力の段階を段階的に評価するために、さらに \shortname~を導入します。
ツール利用評価をモデル機能に沿っていくつかのサブドメインに分割し、LLMの全体性と分離された能力の両方を内部的に理解できるようにする。
各種LLMのショートネームと深部解析について広範な実験を行った。
結果指向評価と整合性を示すだけでなく、LLMの能力のよりきめ細かな分析も提供し、ツール活用能力の新たな視点を提供する。
ベンチマークは \href{https://github.com/open-compass/T-Eval}{https://github.com/open-compass/T-Eval} で公開される。
関連論文リスト
- Look Before You Leap: Towards Decision-Aware and Generalizable
Tool-Usage for Large Language Models [28.19932548630398]
意思決定・汎用ツール・ユース・フレームワーク(DEER)を提案する。
具体的には、まず、自動生成パイプラインを介して、複数の決定ブランチを持つツール使用サンプルを構築します。
提案するDEERは, 各種データセットのベースラインよりも効果的で, 著しく優れる。
論文 参考訳(メタデータ) (2024-02-26T16:11:03Z) - Planning, Creation, Usage: Benchmarking LLMs for Comprehensive Tool
Utilization in Real-World Complex Scenarios [95.97781233780357]
UltraToolは、ツール利用におけるLarge Language Modelsの能力を改善し評価するために設計された、新しいベンチマークである。
現実の複雑さを強調し、効果的な問題解決のために正確で多段階の計画を必要とする。
UltraToolの重要な特徴は、ツールの使用前に発生する自然言語による計画の独立した評価である。
論文 参考訳(メタデータ) (2024-01-30T16:52:56Z) - Can Large Language Models be Trusted for Evaluation? Scalable
Meta-Evaluation of LLMs as Evaluators via Agent Debate [74.06294042304415]
エージェント・ディベート支援型メタ評価フレームワークであるScaleEvalを提案する。
フレームワークのコードをGitHubで公開しています。
論文 参考訳(メタデータ) (2024-01-30T07:03:32Z) - BLESS: Benchmarking Large Language Models on Sentence Simplification [55.461555829492866]
我々は、テキスト単純化(TS)タスク上で、最新の最先端の大規模言語モデル(LLM)のパフォーマンスベンチマークであるBLESSを紹介する。
異なるドメイン(Wikipedia、ニュース、医療)の3つのテストセットに対して、サイズ、アーキテクチャ、事前学習方法、アクセシビリティの異なる44のモデルを評価する。
評価の結果,最高のLSMはTSのトレーニングを受けていないにもかかわらず,最先端のTSベースラインと相容れない性能を示した。
論文 参考訳(メタデータ) (2023-10-24T12:18:17Z) - Evaluating Large Language Models at Evaluating Instruction Following [57.74447923909296]
大規模言語モデル(LLM)は、人間の評価に代わるスケーラブルで費用対効果の高い代替品として登場した。
本稿では,これらの「LLM評価器」の有効性について検討する。
我々は,命令追従出力の識別におけるLLM評価器の能力をテストするために,挑戦的なメタ評価ベンチマーク LLMBar を導入する。
論文 参考訳(メタデータ) (2023-10-11T16:38:11Z) - MINT: Evaluating LLMs in Multi-turn Interaction with Tools and Language
Feedback [78.60644407028022]
我々は,大規模言語モデルのマルチターンインタラクションによる課題解決能力を評価するベンチマークであるMINTを紹介する。
LLMは一般的に、ツールと言語フィードバックの恩恵を受けます。
LLMの評価、教師あり指導ファインタニング(SIFT)、人間からのフィードバックからの強化学習(RLHF)は、一般的にマルチターン能力を損なう。
論文 参考訳(メタデータ) (2023-09-19T15:25:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。