論文の概要: SLMEval: Entropy-Based Calibration for Human-Aligned Evaluation of Large Language Models
- arxiv url: http://arxiv.org/abs/2505.16003v1
- Date: Wed, 21 May 2025 20:40:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:47.902339
- Title: SLMEval: Entropy-Based Calibration for Human-Aligned Evaluation of Large Language Models
- Title(参考訳): SLMEval:大規模言語モデルの人間適応評価のためのエントロピーに基づく校正
- Authors: Roland Daynauth, Christopher Clarke, Krisztian Flautner, Lingjia Tang, Jason Mars,
- Abstract要約: 少数の人選好データに対するエントロピーに基づく校正手法SLMEvalを提案する。
実世界の2つの実運用ユースケースと公開ベンチマークで人的評価と強く相関する。
SLMEval は G-eval などの GPT-4 ベースの評価器に比べて 5-30 倍のコスト削減を行う。
- 参考スコア(独自算出の注目度): 7.8905223445925055
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The LLM-as-a-Judge paradigm offers a scalable, reference-free approach for evaluating language models. Although several calibration techniques have been proposed to better align these evaluators with human judgment, prior studies focus primarily on narrow, well-structured benchmarks. As a result, it remains unclear whether such calibrations generalize to real-world, open-ended tasks. In this work, we show that SOTA calibrated evaluators often fail in these settings, exhibiting weak or even negative correlation with human judgments. To address this, we propose SLMEval, a novel and efficient calibration method based on entropy maximization over a small amount of human preference data. By estimating a latent distribution over model quality and reweighting evaluator scores accordingly, SLMEval achieves strong correlation with human evaluations across two real-world production use cases and the public benchmark. For example, on one such task, SLMEval achieves a Spearman correlation of 0.57 with human judgments, while G-Eval yields a negative correlation. In addition, SLMEval reduces evaluation costs by 5-30x compared to GPT-4-based calibrated evaluators such as G-eval.
- Abstract(参考訳): LLM-as-a-Judgeパラダイムは、言語モデルを評価するためのスケーラブルで参照なしのアプローチを提供する。
これらの評価器を人間の判断と整合させるために、いくつかの校正手法が提案されているが、以前の研究は主に狭くよく構造化されたベンチマークに焦点を当てていた。
結果として、そのようなキャリブレーションが現実世界のオープンエンドタスクに一般化されるかどうかは不明である。
本研究は,SOTA校正評価器がこれらの設定で失敗することが少なく,人的判断と弱さや負の相関性を示すことを示した。
そこで本研究では,少数の人選好データに対するエントロピー最大化に基づく,新規かつ効率的なキャリブレーション手法SLMEvalを提案する。
モデル品質に対する潜伏分布の推定と評価値の再重み付けにより、SLMEvalは、2つの実世界の実運用ユースケースと公開ベンチマークで人的評価と強く相関する。
例えば、あるタスクにおいて、SLMEvalは人間の判断と0.57のスピアマン相関を達成し、G-Evalは負の相関を生じる。
さらに、SLMEvalはG-evalのようなGPT-4ベースのキャリブレーション評価器と比較して、評価コストを5-30倍に削減する。
関連論文リスト
- Poor-Supervised Evaluation for SuperLLM via Mutual Consistency [20.138831477848615]
正確なラベルを使わずに評価を行うためのPoEMフレームワークを提案する。
まず、モデルと特定の参照モデルとの整合性によって、モデルの能力が等価に評価できることを証明します。
現実の条件の不整合を緩和するために,人間(利用可能な場合)と参照モデルとして評価中のモデルを扱うアルゴリズムを導入する。
論文 参考訳(メタデータ) (2024-08-25T06:49:03Z) - Aligning Model Evaluations with Human Preferences: Mitigating Token Count Bias in Language Model Assessments [2.1370543868467275]
本稿では,大規模言語モデルと人的評価を協調させる手法について検討する。
我々はこのバイアスを定量化するためにベイズ統計とt検定を用い、GPTScorerを調整するための再校正手順を開発した。
以上の結果から,再校正したLCM評価器と,複数のユースケースにおけるヒト評価との整合性は有意に改善した。
論文 参考訳(メタデータ) (2024-07-05T09:26:40Z) - On Diversified Preferences of Large Language Model Alignment [51.26149027399505]
本稿では,様々な大きさの報酬モデルに対する実験スケーリング法則の定量的解析を行った。
分析の結果,ヒトの嗜好の多様化による影響は,モデルサイズとデータサイズの両方に依存することが明らかとなった。
十分なキャパシティを持つ大きなモデルでは、さまざまな好みによるネガティブな影響が軽減される一方、より小さなモデルはそれらに対応するのに苦労する。
論文 参考訳(メタデータ) (2023-12-12T16:17:15Z) - Calibrating LLM-Based Evaluator [92.17397504834825]
マルチステージで勾配のないアプローチであるAutoCalibrateを提案し,LLMに基づく評価器を人間の好みに合わせて調整・調整する。
人間の嗜好を明示的にモデル化する代わりに、まず暗黙的に人間のラベルに含めます。
複数のテキスト品質評価データセットに関する実験は、校正による専門家評価との相関性を大幅に改善したことを示す。
論文 参考訳(メタデータ) (2023-09-23T08:46:11Z) - G-Eval: NLG Evaluation using GPT-4 with Better Human Alignment [64.01972723692587]
本稿では,大規模言語モデルにチェーン・オブ・シント(CoT)を組み込んだフレームワークであるG-Evalと,NLG出力の品質評価のためのフォームフィリングパラダイムを提案する。
GPT-4 をバックボーンモデルとした G-Eval は,要約タスクにおいて,0.514 と人間とのスピアマン相関を達成し,従来手法の差を大きく上回ることを示す。
論文 参考訳(メタデータ) (2023-03-29T12:46:54Z) - Revisiting the Gold Standard: Grounding Summarization Evaluation with
Robust Human Evaluation [136.16507050034755]
要約のための既存の人間の評価研究は、アノテータ間の合意が低かったり、スケールが不十分だったりしている。
細粒度セマンティック・ユニットをベースとした改良された要約サリエンス・プロトコルであるAtomic Content Units (ACUs)を提案する。
ロバスト・サムライゼーション・アセスメント(RoSE)ベンチマークは,28の上位性能システム上で22,000の要約レベルのアノテーションからなる大規模な人的評価データセットである。
論文 参考訳(メタデータ) (2022-12-15T17:26:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。