論文の概要: Benchmarking LLMs' Judgments with No Gold Standard
- arxiv url: http://arxiv.org/abs/2411.07127v1
- Date: Mon, 11 Nov 2024 16:58:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-12 14:11:56.452882
- Title: Benchmarking LLMs' Judgments with No Gold Standard
- Title(参考訳): LLMの判断をゴールド標準なしでベンチマークする
- Authors: Shengwei Xu, Yuxuan Lu, Grant Schoenebeck, Yuqing Kong,
- Abstract要約: GEM(Generative Estimator for Mutual Information)は,Large Language Models (LLMs) による言語生成を評価するための評価指標である。
人間の注釈付きデータセットの実験では、GEMは最先端のGPT-4o Examinerと比較して、人間のスコアと競合する相関を示す。
また,学術論文の良質なピアレビューをいかに生み出すかに基づいて,LCMを評価したGREベンチについても紹介する。
- 参考スコア(独自算出の注目度): 8.517244114791913
- License:
- Abstract: We introduce the GEM (Generative Estimator for Mutual Information), an evaluation metric for assessing language generation by Large Language Models (LLMs), particularly in generating informative judgments, without the need for a gold standard reference. GEM broadens the scenarios where we can benchmark LLM generation performance-from traditional ones, like machine translation and summarization, where gold standard references are readily available, to subjective tasks without clear gold standards, such as academic peer review. GEM uses a generative model to estimate mutual information between candidate and reference responses, without requiring the reference to be a gold standard. In experiments on a human-annotated dataset, GEM demonstrates competitive correlations with human scores compared to the state-of-the-art GPT-4o Examiner, and outperforms all other baselines. Additionally, GEM is more robust against strategic manipulations, such as rephrasing or elongation, which can artificially inflate scores under a GPT-4o Examiner. We also present GRE-bench (Generating Review Evaluation Benchmark) which evaluates LLMs based on how well they can generate high-quality peer reviews for academic research papers. Because GRE-bench is based upon GEM, it inherits its robustness properties. Additionally, GRE-bench circumvents data contamination problems (or data leakage) by using the continuous influx of new open-access research papers and peer reviews each year. We show GRE-bench results of various popular LLMs on their peer review capabilities using the ICLR2023 dataset.
- Abstract(参考訳): GEM(Generative Estimator for Mutual Information)は,Large Language Models (LLMs) による言語生成を評価するための評価指標である。
GEMは、機械翻訳や要約のような従来のものからLLM生成のパフォーマンスをベンチマークするシナリオを広げ、金の標準参照が容易に手に入るようにし、学術的なピアレビューのような明確な金の基準のない主観的なタスクへと拡張します。
GEMは生成モデルを用いて、参照を金の標準として必要とせず、候補と参照応答の相互情報を推定する。
人間の注釈付きデータセットの実験では、GEMは最先端のGPT-4o Examinerと比較して人間のスコアと競合する相関を示し、他のすべてのベースラインを上回っている。
さらに、GEMは言い換えや伸長といった戦略的操作に対してより堅牢であり、GPT-4o Examinerでスコアを人工的に膨らませることができる。
また,学術論文の良質なピアレビューをいかに生み出すかに基づいて,LCMを評価できるGRE-bench(Generating Review Evaluation Benchmark)を提案する。
GRE-bench は GEM に基づいているため、その強靭性特性を継承する。
さらに、GRE-benchは、新しいオープンアクセス研究論文やピアレビューの継続的な流入を利用して、データ汚染問題(またはデータ漏洩)を回避する。
ICLR2023データセットを用いて,様々なLLMのGRE-bench結果のピアレビュー機能について述べる。
関連論文リスト
- The BiGGen Bench: A Principled Benchmark for Fine-grained Evaluation of Language Models with Language Models [94.31327813151208]
BiGGen Benchは、77のタスクにわたるLMの9つの異なる能力を徹底的に評価するために設計された、原則化された世代ベンチマークである。
BiGGen Benchの重要な特徴は、インスタンス固有の評価基準の使用であり、人間の評価のニュアンスな識別を忠実に反映している。
論文 参考訳(メタデータ) (2024-06-09T12:30:30Z) - GenRES: Rethinking Evaluation for Generative Relation Extraction in the
Era of Large Language Models [48.56814147033251]
我々は、GRE結果の類似性、特異性、粒度、事実性、完全性の観点から、多次元評価のためのGenRESを紹介する。
GenRESでは、精度/リコールがGREメソッドの性能を正当化できないことを実証的に確認した。
次に、GRE手法のヒト評価を行い、GenRESがRE品質に対するヒトの嗜好と一致していることを示す。
論文 参考訳(メタデータ) (2024-02-16T15:01:24Z) - CritiqueLLM: Towards an Informative Critique Generation Model for Evaluation of Large Language Model Generation [87.44350003888646]
Eval-Instructは、疑似参照でポイントワイズした批評を取得し、マルチパスプロンプトを通じてこれらの批評を修正できる。
CritiqueLLMは、ChatGPTとすべてのオープンソースベースラインを上回るように実証的に示されています。
論文 参考訳(メタデータ) (2023-11-30T16:52:42Z) - Evaluation Metrics in the Era of GPT-4: Reliably Evaluating Large
Language Models on Sequence to Sequence Tasks [9.801767683867125]
我々は,3つのNLPベンチマークの予備的およびハイブリッドな評価を,自動評価と人的評価の両方を用いて提供する。
ChatGPTは、ほとんどのメトリクスにおいて、人間のレビュアーによって、他の人気のあるモデルよりも一貫して優れています。
また、人間のレビュアーは、最高のモデルの出力よりも金の基準を格段に悪く評価し、多くの人気のあるベンチマークの品質が劣っていることを示している。
論文 参考訳(メタデータ) (2023-10-20T20:17:09Z) - An Examination of the Compositionality of Large Generative Vision-Language Models [7.639748270719836]
GVLM(Generative Vision-Language Models)はマルチモーダル・インストラクション・チューニングによって構築されている。
本稿では,GVLMの構成性を評価するための評価指標(VisualGPTScoreなど)と現在のベンチマークについて検討する。
我々は,GVLMの言語的能力を利用して,現在のベンチマークにおける構文バイアスを同定する。
論文 参考訳(メタデータ) (2023-08-21T06:50:29Z) - Not All Metrics Are Guilty: Improving NLG Evaluation by Diversifying References [123.39034752499076]
Div-Refは、参照数を増やして評価ベンチマークを強化する方法である。
本研究では,参照表現の多様化が自動評価と人的評価の相関性を大幅に向上させることを示す実験を行った。
論文 参考訳(メタデータ) (2023-05-24T11:53:29Z) - G-Eval: NLG Evaluation using GPT-4 with Better Human Alignment [64.01972723692587]
本稿では,大規模言語モデルにチェーン・オブ・シント(CoT)を組み込んだフレームワークであるG-Evalと,NLG出力の品質評価のためのフォームフィリングパラダイムを提案する。
GPT-4 をバックボーンモデルとした G-Eval は,要約タスクにおいて,0.514 と人間とのスピアマン相関を達成し,従来手法の差を大きく上回ることを示す。
論文 参考訳(メタデータ) (2023-03-29T12:46:54Z) - The GEM Benchmark: Natural Language Generation, its Evaluation and
Metrics [66.96150429230035]
我々は、自然言語生成(NLG)のための生きたベンチマークであるGEM、その評価、およびメトリクスを紹介する。
ベンチマークの定期的なアップデートにより、NLGの研究はより多言語化され、モデルとともに課題を進化させる。
論文 参考訳(メタデータ) (2021-02-02T18:42:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。