論文の概要: LLMEval: A Preliminary Study on How to Evaluate Large Language Models
- arxiv url: http://arxiv.org/abs/2312.07398v2
- Date: Sun, 17 Dec 2023 09:39:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-19 19:11:03.442566
- Title: LLMEval: A Preliminary Study on How to Evaluate Large Language Models
- Title(参考訳): LLMEval: 大規模言語モデルの評価方法に関する予備的研究
- Authors: Yue Zhang, Ming Zhang, Haipeng Yuan, Shichun Liu, Yongyao Shi, Tao
Gui, Qi Zhang and Xuanjing Huang
- Abstract要約: 我々は,様々な基準を手動評価と自動評価を比較し,現場,クラウドソーシング,パブリックアノテータ,GPT-4を用いて評価方法を分析する。
計2,186人が参加し、243,337のマニュアルアノテーションと57,511の自動評価結果が作成された。
- 参考スコア(独自算出の注目度): 47.12588320134504
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, the evaluation of Large Language Models has emerged as a popular
area of research. The three crucial questions for LLM evaluation are ``what,
where, and how to evaluate''. However, the existing research mainly focuses on
the first two questions, which are basically what tasks to give the LLM during
testing and what kind of knowledge it should deal with. As for the third
question, which is about what standards to use, the types of evaluators, how to
score, and how to rank, there hasn't been much discussion. In this paper, we
analyze evaluation methods by comparing various criteria with both manual and
automatic evaluation, utilizing onsite, crowd-sourcing, public annotators and
GPT-4, with different scoring methods and ranking systems. We propose a new
dataset, LLMEval and conduct evaluations on 20 LLMs. A total of 2,186
individuals participated, leading to the generation of 243,337 manual
annotations and 57,511 automatic evaluation results. We perform comparisons and
analyses of different settings and conduct 10 conclusions that can provide some
insights for evaluating LLM in the future. The dataset and the results are
publicly available at https://github.com/llmeval .
- Abstract(参考訳): 近年,大規模言語モデルの評価が研究分野として注目されている。
LLM評価の3つの重要な質問は、'What, where, and How to evaluate'である。
しかし、既存の研究は、主に最初の2つの質問に焦点を当てている。これは基本的に、テスト中にllmを与えるべきタスクと、それが扱うべき知識である。
第3の質問は、どの標準を使うべきか、評価のタイプ、スコアの方法、ランク付けの方法に関するものだが、あまり議論は行われていない。
本稿では,様々な基準を手動評価と自動評価とを比較し,現場,クラウドソーシング,公開アノテータ,GPT-4を異なるスコアリング手法とランキングシステムを用いて分析する。
LLMEval という新たなデータセットを提案し,20 LLM 上で評価を行う。
合計2,186人が参加し、243,337人の手動アノテーションと57,511件の自動評価結果が得られた。
我々は異なる設定の比較と分析を行い、将来LSMを評価するための洞察を提供する10の結論を導いた。
データセットと結果はhttps://github.com/llmeval で公開されている。
関連論文リスト
- MME-Survey: A Comprehensive Survey on Evaluation of Multimodal LLMs [97.94579295913606]
MLLM(Multimodal Large Language Models)は、産業と学術の両方から注目を集めている。
開発プロセスでは、モデルの改善に関する直感的なフィードバックとガイダンスを提供するため、評価が重要である。
この研究は、研究者に異なるニーズに応じてMLLMを効果的に評価する方法を簡単に把握し、より良い評価方法を促すことを目的としている。
論文 参考訳(メタデータ) (2024-11-22T18:59:54Z) - METAL: Towards Multilingual Meta-Evaluation [12.852595634767901]
本研究では,多言語シナリオにおいて,Large Language Models (LLMs) を評価対象としてエンド・ツー・エンド評価を行うためのフレームワークを提案する。
要約作業のための母国語話者判定を含む10言語を対象としたデータセットを作成する。
GPT-3.5-Turbo, GPT-4, PaLM2を用いたLCM評価器の性能の比較を行った。
論文 参考訳(メタデータ) (2024-04-02T06:14:54Z) - A Comprehensive Analysis of the Effectiveness of Large Language Models
as Automatic Dialogue Evaluators [46.939611070781794]
大規模言語モデル(LLM)は、人間の裁判官にとって有望な代用であることが示されている。
我々は,最近出現した30個のLLMの多次元評価能力をターンレベルとダイアログレベルの両方で解析した。
また,旋回と対話の両レベルにおいて,様々な逆方向の摂動に対処するLLMの頑健性についても検討した。
論文 参考訳(メタデータ) (2023-12-24T04:50:57Z) - Instruction-Following Evaluation for Large Language Models [52.90926820437014]
大規模言語モデルに対するインストラクション・フォロー・エスバル(IFEval)を提案する。
IFEvalは、単純で簡単に再現できる評価ベンチマークである。
市場における2つのLLMの評価結果を示す。
論文 参考訳(メタデータ) (2023-11-14T05:13:55Z) - Towards Better Evaluation of Instruction-Following: A Case-Study in
Summarization [9.686937153317809]
本研究では,多種多様なメトリクスのメタ評価を行い,大規模言語モデルの指示追従能力の精度を定量的に評価する。
riSumを用いて評価方法と人的判断の一致を分析した。
論文 参考訳(メタデータ) (2023-10-12T15:07:11Z) - A Closer Look into Automatic Evaluation Using Large Language Models [75.49360351036773]
評価プロセスの細部が、LLMが与える評価と人間の評価との相関性をどのように変化させるかについて議論する。
G-Evalで使用されるAuto Chain-of-Thought (CoT)は、必ずしもG-Evalを人間の評価に適合させるものではない。
また、LLMにG-Evalのように、数値評価のみを出力させることが、最適以下であることも示している。
論文 参考訳(メタデータ) (2023-10-09T12:12:55Z) - L-Eval: Instituting Standardized Evaluation for Long Context Language
Models [91.05820785008527]
長い文脈言語モデル(LCLM)のより標準化された評価を行うためにL-Evalを提案する。
20のサブタスク、508の長いドキュメント、2000以上の人間ラベルのクエリ応答対を含む新しい評価スイートを構築した。
その結果、一般的なn-gramマッチングの指標は人間の判断とよく相関しないことがわかった。
論文 参考訳(メタデータ) (2023-07-20T17:59:41Z) - PRD: Peer Rank and Discussion Improve Large Language Model based Evaluations [10.709365940160685]
現代の大規模言語モデル(LLM)は、自動評価と比較が難しい。
本稿では,全ての解答対に対するLLMのペアワイズ選好を考慮に入れたピアランク(PR)アルゴリズムを提案する。
我々のアプローチは高い精度を実現し、人間の判断とよく一致していることがわかりました。
論文 参考訳(メタデータ) (2023-07-06T04:05:44Z) - Benchmarking Foundation Models with Language-Model-as-an-Examiner [47.345760054595246]
本稿では,新しいベンチマークフレームワークLanguage-Model-as-an-Examinerを提案する。
LMは、その知識に基づいて質問を定式化し、基準のない方法で応答を評価する、知識に富んだ検査者として機能する。
論文 参考訳(メタデータ) (2023-06-07T06:29:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。