論文の概要: TencentLLMEval: A Hierarchical Evaluation of Real-World Capabilities for
Human-Aligned LLMs
- arxiv url: http://arxiv.org/abs/2311.05374v1
- Date: Thu, 9 Nov 2023 13:58:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-10 15:02:09.030049
- Title: TencentLLMEval: A Hierarchical Evaluation of Real-World Capabilities for
Human-Aligned LLMs
- Title(参考訳): TencentLLMEval:LLMにおける実世界の能力の階層的評価
- Authors: Shuyi Xie, Wenlin Yao, Yong Dai, Shaobo Wang, Donlin Zhou, Lifeng Jin,
Xinhua Feng, Pengzhi Wei, Yujie Lin, Zhichao Hu, Dong Yu, Zhengyou Zhang,
Jing Nie, Yuhong Liu
- Abstract要約: 大規模言語モデル(LLM)は、様々な自然言語タスクにまたがる印象的な機能を示している。
本研究では,LLMの習熟度を評価するために,多種多様な実世界の課題に対する指示に従うための包括的人間評価フレームワークを提案する。
- 参考スコア(独自算出の注目度): 35.717370285231176
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have shown impressive capabilities across
various natural language tasks. However, evaluating their alignment with human
preferences remains a challenge. To this end, we propose a comprehensive human
evaluation framework to assess LLMs' proficiency in following instructions on
diverse real-world tasks. We construct a hierarchical task tree encompassing 7
major areas covering over 200 categories and over 800 tasks, which covers
diverse capabilities such as question answering, reasoning, multiturn dialogue,
and text generation, to evaluate LLMs in a comprehensive and in-depth manner.
We also design detailed evaluation standards and processes to facilitate
consistent, unbiased judgments from human evaluators. A test set of over 3,000
instances is released, spanning different difficulty levels and knowledge
domains. Our work provides a standardized methodology to evaluate human
alignment in LLMs for both English and Chinese. We also analyze the feasibility
of automating parts of evaluation with a strong LLM (GPT-4). Our framework
supports a thorough assessment of LLMs as they are integrated into real-world
applications. We have made publicly available the task tree, TencentLLMEval
dataset, and evaluation methodology which have been demonstrated as effective
in assessing the performance of Tencent Hunyuan LLMs. By doing so, we aim to
facilitate the benchmarking of advances in the development of safe and
human-aligned LLMs.
- Abstract(参考訳): 大規模言語モデル(llm)は、様々な自然言語タスクにまたがる素晴らしい能力を示している。
しかしながら、人間の嗜好との整合性を評価することは依然として課題である。
そこで本研究では,LLMの習熟度を評価するための総合的人間評価フレームワークを提案する。
我々は,200以上のカテゴリと800以上のタスクをカバーする7つの主要領域を含む階層型タスクツリーを構築し,質問応答,推論,マルチターン対話,テキスト生成などの多様な機能を網羅的かつ詳細な方法で評価する。
また, 評価基準やプロセスの詳細も設計し, 人間の評価者からの一貫した偏りのない判断が容易になるようにした。
3000以上のインスタンスのテストセットがリリースされ、さまざまな困難レベルと知識ドメインにまたがる。
我々の研究は、英語と中国語の両方のLLMにおける人間のアライメントを評価するための標準化された方法論を提供する。
また,強力なLCM(GPT-4)による評価の自動化の可能性についても検討した。
本フレームワークは,実世界のアプリケーションに統合されたLCMの徹底的な評価を支援する。
我々は,Tencent Hunyuan LLMの性能評価に有効なタスクツリー,TencentLLMEvalデータセット,評価手法を公開している。
そこで我々は,安全・人為的LLMの開発における進歩のベンチマーク化を促進することを目的としている。
関連論文リスト
- Decompose and Aggregate: A Step-by-Step Interpretable Evaluation Framework [75.81096662788254]
大規模言語モデル(LLM)はスケーラブルで経済的な評価指標である。
これらの評価者がどの程度信頼できるかという問題は、重要な研究課題として浮上している。
本稿では,デコンプリートとアグリゲートを提案し,その評価プロセスを教育実践に基づいて異なる段階に分解する。
論文 参考訳(メタデータ) (2024-05-24T08:12:30Z) - Can Large Language Models be Trusted for Evaluation? Scalable
Meta-Evaluation of LLMs as Evaluators via Agent Debate [74.06294042304415]
エージェント・ディベート支援型メタ評価フレームワークであるScaleEvalを提案する。
フレームワークのコードをGitHubで公開しています。
論文 参考訳(メタデータ) (2024-01-30T07:03:32Z) - MLLM-Bench: Evaluating Multimodal LLMs with Per-sample Criteria [49.500322937449326]
MLLM(Multimodal large language model)は、AIアプリケーションの範囲を広げている。
既存のMLLMの自動評価手法は主にユーザエクスペリエンスを考慮せずにクエリを評価する場合に限られている。
本稿では,MLLM を判断基準として評価する MLLM の新しい評価パラダイムを提案する。
論文 参考訳(メタデータ) (2023-11-23T12:04:25Z) - Collaborative Evaluation: Exploring the Synergy of Large Language Models
and Humans for Open-ended Generation Evaluation [71.76872586182981]
大規模言語モデル(LLM)は、人間の評価に代わるスケーラブルで費用対効果の高い代替品として登場した。
本稿では,タスク固有の基準のチェックリストとテキストの詳細な評価を含む協調評価パイプラインCoEvalを提案する。
論文 参考訳(メタデータ) (2023-10-30T17:04:35Z) - Beyond Static Datasets: A Deep Interaction Approach to LLM Evaluation [16.73300162869746]
大規模言語モデル(LLM)は、様々な現実世界のタスクで進歩している。
既存の評価手法は主に教師付き信号に基づくものである。
本稿では, ディープインタラクションに基づくLLM評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-08T15:00:41Z) - Through the Lens of Core Competency: Survey on Evaluation of Large
Language Models [27.271533306818732]
大規模言語モデル(LLM)は優れた性能と幅広い実用性を持っている。
既存の評価タスクは、現実世界のシナリオにおける幅広いアプリケーションに追いつくのは難しい。
LLMの4つのコア能力は、推論、知識、信頼性、安全性などである。
この能力アーキテクチャの下では、類似したタスクを組み合わせて対応する能力を反映し、新しいタスクをシステムに簡単に追加することができる。
論文 参考訳(メタデータ) (2023-08-15T17:40:34Z) - A Survey on Evaluation of Large Language Models [87.60417393701331]
大規模言語モデル(LLM)は、学術と産業の両方で人気が高まっている。
本稿では,評価方法,評価方法,評価方法の3つの重要な側面に焦点をあてる。
論文 参考訳(メタデータ) (2023-07-06T16:28:35Z) - Can Large Language Models Be an Alternative to Human Evaluations? [80.81532239566992]
大規模言語モデル(LLM)は、タスク命令のみを提供する場合、目に見えないタスクに対して例外的な性能を示す。
LLM評価の結果は、専門家による評価の結果と一致していることを示す。
論文 参考訳(メタデータ) (2023-05-03T07:28:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。