論文の概要: LLMs instead of Human Judges? A Large Scale Empirical Study across 20 NLP Evaluation Tasks
- arxiv url: http://arxiv.org/abs/2406.18403v1
- Date: Wed, 26 Jun 2024 14:56:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-27 13:09:50.403538
- Title: LLMs instead of Human Judges? A Large Scale Empirical Study across 20 NLP Evaluation Tasks
- Title(参考訳): 人間の判断に代えてLLM : 20NLP評価課題における大規模実証的研究
- Authors: Anna Bavaresco, Raffaella Bernardi, Leonardo Bertolazzi, Desmond Elliott, Raquel Fernández, Albert Gatt, Esam Ghaleb, Mario Giulianelli, Michael Hanna, Alexander Koller, André F. T. Martins, Philipp Mondorf, Vera Neplenbroek, Sandro Pezzelle, Barbara Plank, David Schlangen, Alessandro Suglia, Aditya K Surikuchi, Ece Takmaz, Alberto Testoni,
- Abstract要約: 人間の判断の代わりにLCMによる判断でNLPモデルを評価する傾向が高まっている。
人間のデータとの比較がないと、これらの評価の有効性が懸念される。
JUDGE-BENCHは、人間のアノテーションを持つ20個のNLPデータセットの集合である。
- 参考スコア(独自算出の注目度): 106.09361690937618
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: There is an increasing trend towards evaluating NLP models with LLM-generated judgments instead of human judgments. In the absence of a comparison against human data, this raises concerns about the validity of these evaluations; in case they are conducted with proprietary models, this also raises concerns over reproducibility. We provide JUDGE-BENCH, a collection of 20 NLP datasets with human annotations, and comprehensively evaluate 11 current LLMs, covering both open-weight and proprietary models, for their ability to replicate the annotations. Our evaluations show that each LLM exhibits a large variance across datasets in its correlation to human judgments. We conclude that LLMs are not yet ready to systematically replace human judges in NLP.
- Abstract(参考訳): 人間の判断の代わりにLCMによる判断でNLPモデルを評価する傾向が高まっている。
人間のデータとの比較がない場合には、これらの評価の有効性に対する懸念が高まり、プロプライエタリなモデルで実施される場合、再現性に対する懸念も高まる。
JUDGE-BENCHは、人間のアノテーションを持つ20のNLPデータセットの集合であり、オープンウェイトモデルとプロプライエタリモデルの両方をカバーする11の現在のLCMを、アノテーションを複製する機能として包括的に評価する。
評価の結果,LLMは人的判断との相関関係において,データセット間で大きなばらつきを示すことがわかった。
LLMはNLPにおける人間の判断を体系的に置き換える準備が整っていないと結論付けている。
関連論文リスト
- HREF: Human Response-Guided Evaluation of Instruction Following in Language Models [61.273153125847166]
我々は新しい評価ベンチマークHREF(Human Response-Guided Evaluation of Instruction following)を開発した。
HREFは信頼性の高い評価を提供するだけでなく、個々のタスクのパフォーマンスを強調し、汚染を受けない。
本稿では,評価セットのサイズ,判断モデル,ベースラインモデル,プロンプトテンプレートなど,HREFにおける鍵設計選択の影響について検討する。
論文 参考訳(メタデータ) (2024-12-20T03:26:47Z) - Poor-Supervised Evaluation for SuperLLM via Mutual Consistency [20.138831477848615]
正確なラベルを使わずに評価を行うためのPoEMフレームワークを提案する。
まず、モデルと特定の参照モデルとの整合性によって、モデルの能力が等価に評価できることを証明します。
現実の条件の不整合を緩和するために,人間(利用可能な場合)と参照モデルとして評価中のモデルを扱うアルゴリズムを導入する。
論文 参考訳(メタデータ) (2024-08-25T06:49:03Z) - Aligning Model Evaluations with Human Preferences: Mitigating Token Count Bias in Language Model Assessments [2.1370543868467275]
本稿では,大規模言語モデルと人的評価を協調させる手法について検討する。
我々はこのバイアスを定量化するためにベイズ統計とt検定を用い、GPTScorerを調整するための再校正手順を開発した。
以上の結果から,再校正したLCM評価器と,複数のユースケースにおけるヒト評価との整合性は有意に改善した。
論文 参考訳(メタデータ) (2024-07-05T09:26:40Z) - VALOR-EVAL: Holistic Coverage and Faithfulness Evaluation of Large Vision-Language Models [57.43276586087863]
LVLM(Large Vision-Language Models)は幻覚に悩まされ、このモデルでは可聴音を発生させるが、実際には誤出力を発生させる。
既存のベンチマークはスコープに限られており、主にオブジェクト幻覚に焦点を当てている。
対象,属性,関係を多次元のベンチマークで表現し,連想バイアスに基づいて画像を選択する。
論文 参考訳(メタデータ) (2024-04-22T04:49:22Z) - Don't Make Your LLM an Evaluation Benchmark Cheater [142.24553056600627]
大規模言語モデル(LLM)は人工知能のフロンティアを大幅に進歩させ、モデルキャパシティを著しく向上させた。
モデル性能を評価するために, LLMの能力レベルを測定するための評価ベンチマークを構築するのが典型的な方法である。
評価ベンチマークを用いて不適切なリスクと影響について検討し,評価結果を誤って解釈する。
論文 参考訳(メタデータ) (2023-11-03T14:59:54Z) - Exploring the Reliability of Large Language Models as Customized Evaluators for Diverse NLP Tasks [65.69651759036535]
大規模言語モデル(LLM)が人間にとって信頼できる代替手段であるかどうかを解析する。
本稿では、従来のタスク(例えば、ストーリー生成)とアライメントタスク(例えば、数学推論)の両方について検討する。
LLM評価器は不要な基準を生成したり、重要な基準を省略することができる。
論文 参考訳(メタデータ) (2023-10-30T17:04:35Z) - FLASK: Fine-grained Language Model Evaluation based on Alignment Skill Sets [69.91340332545094]
FLASKは、人間に基づく評価とモデルに基づく評価の両方のためのきめ細かい評価プロトコルである。
モデル性能の全体像を得るためには,評価の微粒化が重要であることを実験的に観察する。
論文 参考訳(メタデータ) (2023-07-20T14:56:35Z) - Style Over Substance: Evaluation Biases for Large Language Models [17.13064447978519]
本研究では,大規模言語モデル(LLM)とともに,クラウドソースおよびエキスパートアノテータの挙動について検討する。
この結果から, 事実的誤りに対する回答は, 短すぎる, 文法的誤りを含む回答よりも好意的に評価され, 評価過程の偏りが示唆された。
評価面を1つのスコアにマージするのではなく,複数の次元にまたがるマシン生成テキストを独立に評価することを提案する。
論文 参考訳(メタデータ) (2023-07-06T14:42:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。