論文の概要: How Reliable Are Automatic Evaluation Methods for Instruction-Tuned
LLMs?
- arxiv url: http://arxiv.org/abs/2402.10770v1
- Date: Fri, 16 Feb 2024 15:48:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-19 15:27:18.126760
- Title: How Reliable Are Automatic Evaluation Methods for Instruction-Tuned
LLMs?
- Title(参考訳): LLMの自動評価法はどの程度信頼性が高いか?
- Authors: Ehsan Doostmohammadi, Oskar Holmstr\"om, Marco Kuhlmann
- Abstract要約: 本研究では,このような手法の信頼性を多岐にわたるタスクや言語横断的な環境で検証する。
自動評価手法は人間の判断を特定の条件下で近似することができるが,信頼性は文脈に依存している。
- 参考スコア(独自算出の注目度): 3.5634988336513587
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Work on instruction-tuned Large Language Models (LLMs) has used automatic
methods based on text overlap and LLM judgments as cost-effective alternatives
to human evaluation. In this paper, we study the reliability of such methods
across a broad range of tasks and in a cross-lingual setting. In contrast to
previous findings, we observe considerable variability in correlations between
automatic methods and human evaluators when scores are differentiated by task
type. Specifically, the widely-used ROUGE-L metric strongly correlates with
human judgments for short-answer English tasks but is unreliable in free-form
generation tasks and cross-lingual transfer. The effectiveness of GPT-4 as an
evaluator depends on including reference answers when prompting for
assessments, which can lead to overly strict evaluations in free-form
generation tasks. In summary, we find that, while automatic evaluation methods
can approximate human judgements under specific conditions, their reliability
is highly context-dependent. Our findings enhance the understanding of how
automatic methods should be applied and interpreted when developing and
evaluating instruction-tuned LLMs.
- Abstract(参考訳): 命令調整型大規模言語モデル (LLMs) の研究は, テキストオーバーラップに基づく自動手法とLCM判断を, 費用対効果の代替手段として用いている。
本稿では,このような手法の信頼性を多岐にわたるタスクや言語横断的な環境で検証する。
従来の結果とは対照的に,スコアがタスクタイプによって区別される場合,自動手法と人的評価器の相関関係にかなりのばらつきがみられる。
特に、広く使われているrouge-lメトリックは、短い英語のタスクに対する人間の判断と強い相関があるが、自由形生成タスクや言語間伝達では信頼できない。
評価器としてのGPT-4の有効性は、評価を促す際に基準回答を含めることに依存し、フリーフォーム生成タスクにおいて過度に厳密な評価につながる可能性がある。
要約すると、自動評価手法は人間の判断を特定の条件下で近似することができるが、信頼性は文脈に依存している。
本研究は,LLMの開発と評価において,自動手法の適用方法や解釈方法の理解を深めるものである。
関連論文リスト
- HumanRankEval: Automatic Evaluation of LMs as Conversational Assistants [16.932009464531742]
本稿では,HumanRankEvalという新しい自動評価タスクを提案する。
大規模で多様で高品質な質問セットで構成されており、それぞれが人間によって書かれたいくつかの回答がある。
HREは人間の判断とよく相関し,特に指導指導後のモデル変化に応答することを示す。
論文 参考訳(メタデータ) (2024-05-15T08:47:26Z) - Aligning with Human Judgement: The Role of Pairwise Preference in Large Language Model Evaluators [48.54465599914978]
大規模言語モデル(LLM)は、生成された自然言語の品質を評価する上で有望な能力を示している。
LLMは依然として評価のバイアスを示しており、人間の評価と整合したコヒーレントな評価を生成するのに苦労することが多い。
Pairwise-preference Search (PairS)は、LLMを用いてペア比較を行い、候補テキストを効率よくランク付けする不確実性誘導探索手法である。
論文 参考訳(メタデータ) (2024-03-25T17:11:28Z) - SemScore: Automated Evaluation of Instruction-Tuned LLMs based on
Semantic Textual Similarity [3.3162484539136416]
本稿では,SemScoreと呼ばれる簡易な評価尺度を提案する。
意味的テキスト類似度(STS)を用いたモデル出力とゴールドターゲット応答の比較
提案したSemScore測定基準は,人間の評価と相関する点において,より複雑な評価指標よりも優れていることが判明した。
論文 参考訳(メタデータ) (2024-01-30T14:52:50Z) - PROXYQA: An Alternative Framework for Evaluating Long-Form Text Generation with Large Language Models [72.57329554067195]
ProxyQAは、長文生成を評価するための革新的なフレームワークである。
さまざまなドメインにまたがる詳細なヒューマンキュレートされたメタクエストで構成されており、それぞれに事前にアノテートされた回答を持つ特定のプロキシクエストが伴っている。
プロキシクエリに対処する際の評価器の精度を通じて、生成されたコンテンツの品質を評価する。
論文 参考訳(メタデータ) (2024-01-26T18:12:25Z) - Self-Evaluation Improves Selective Generation in Large Language Models [54.003992911447696]
オープンエンド生成タスクをトークンレベルの予測タスクに再構成する。
我々はLSMに答えを自己評価するように指示する。
自己評価に基づくスコアリング手法をベンチマークする。
論文 参考訳(メタデータ) (2023-12-14T19:09:22Z) - Text Style Transfer Evaluation Using Large Language Models [24.64611983641699]
大きな言語モデル(LLM)は、平均的な人間のパフォーマンスにマッチし、さらに超える能力を示している。
複数の入力プロンプトを用いて、TSTにおける異なるLLMの結果を比較した。
この結果から,LLMが従来の自動測定値より優れていることが示唆された(ゼロショットでも)。
論文 参考訳(メタデータ) (2023-08-25T13:07:33Z) - Bring Your Own Data! Self-Supervised Evaluation for Large Language
Models [52.15056231665816]
大規模言語モデル(LLM)の自己教師型評価のためのフレームワークを提案する。
閉書知識,毒性,長期文脈依存性を測定するための自己指導型評価戦略を実証する。
自己監督評価と人監督評価との間には強い相関関係が認められた。
論文 参考訳(メタデータ) (2023-06-23T17:59:09Z) - Large Language Models are Not Yet Human-Level Evaluators for Abstractive
Summarization [66.08074487429477]
抽象的な要約のための自動評価器として,大規模言語モデル(LLM)の安定性と信頼性について検討する。
また、ChatGPTとGPT-4は、一般的に使われている自動測定値よりも優れていますが、人間の代替品として準備ができていません。
論文 参考訳(メタデータ) (2023-05-22T14:58:13Z) - Towards Automatic Evaluation of Dialog Systems: A Model-Free Off-Policy
Evaluation Approach [84.02388020258141]
強化学習におけるオフポリシ評価に基づく人間評価スコア推定のための新しいフレームワークであるENIGMAを提案する。
ENIGMAはいくつかの事前収集された経験データしか必要としないため、評価中にターゲットポリシーとのヒューマンインタラクションは不要である。
実験の結果,ENIGMAは人間の評価スコアと相関して既存手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2021-02-20T03:29:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。