論文の概要: Grading Scale Impact on LLM-as-a-Judge: Human-LLM Alignment Is Highest on 0-5 Grading Scale
- arxiv url: http://arxiv.org/abs/2601.03444v1
- Date: Tue, 06 Jan 2026 22:12:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-08 18:12:46.080127
- Title: Grading Scale Impact on LLM-as-a-Judge: Human-LLM Alignment Is Highest on 0-5 Grading Scale
- Title(参考訳): LLM-as-a-Judgeにおけるグラディングスケールの影響: 0-5グレーディングスケールでヒト-LLMアライメントが最も高い
- Authors: Weiyue Li, Minda Zhao, Weixuan Dong, Jiahui Cai, Yuze Wei, Michael Pocress, Yi Li, Wanyan Yuan, Xiaoyue Wang, Ruoyu Hou, Kaiyuan Lou, Wenqi Zeng, Yutong Yang, Yilun Du, Mengyu Wang,
- Abstract要約: LLM-as-a-judge問題について,人間とLSMの2種類のラッカーを比較して検討した。
LLM判定は主観的ベンチマークのスケールで完全に整合性がないことがわかった。
0-5のグルーピングスケールは、人間とLLMのアライメントが最強である。
- 参考スコア(独自算出の注目度): 34.83728471879048
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are increasingly used as automated evaluators, yet prior works demonstrate that these LLM judges often lack consistency in scoring when the prompt is altered. However, the effect of the grading scale itself remains underexplored. We study the LLM-as-a-judge problem by comparing two kinds of raters: humans and LLMs. We collect ratings from both groups on three scales and across six benchmarks that include objective, open-ended subjective, and mixed tasks. Using intraclass correlation coefficients (ICC) to measure absolute agreement, we find that LLM judgments are not perfectly consistent across scales on subjective benchmarks, and that the choice of scale substantially shifts human-LLM agreement, even when within-group panel reliability is high. Aggregated over tasks, the grading scale of 0-5 yields the strongest human-LLM alignment. We further demonstrate that pooled reliability can mask benchmark heterogeneity and reveal systematic subgroup differences in alignment across gender groups, strengthening the importance of scale design and sub-level diagnostics as essential components of LLM-as-a-judge protocols.
- Abstract(参考訳): 大規模言語モデル (LLMs) は、自動評価器としてますます使われているが、以前の研究では、これらのLLM判断器は、プロンプトが変更されたときにスコアの一貫性が欠如していることがしばしば示されている。
しかし、グレーディングスケール自体の効果は未解明のままである。
LLM-as-a-judge問題について,人間とLSMの2種類のラッカーを比較して検討した。
私たちは、客観的、オープンな主観的、混合タスクを含む6つのベンチマークで、両方のグループから評価を集めています。
絶対整合性を測定するためにクラス内相関係数 (ICC) を用いて, LLM判定は主観的ベンチマークのスケールで完全に整合性がなく, グループ内パネルの信頼性が高い場合でも, スケールの選択は人間-LLM整合性を大幅に変化させることがわかった。
タスクを集約すると、0-5のグルーピングスケールは、人間とLLMのアライメントが最強となる。
さらに、プール化された信頼性は、ベンチマークの不均一性を隠蔽し、性別グループ間のアライメントの体系的なサブグループ差を明らかにし、LLM-as-a-judgeプロトコルの不可欠なコンポーネントとして、スケール設計とサブレベル診断の重要性を強化することを実証する。
関連論文リスト
- On Evaluating LLM Alignment by Evaluating LLMs as Judges [68.15541137648721]
大規模言語モデル(LLM)のアライメントを評価するには、助け、誠実、安全、正確に人間の指示に従う必要がある。
本研究では,LLMの生成能力と評価能力の関係について検討した。
モデル出力を直接評価することなくアライメントを評価するベンチマークを提案する。
論文 参考訳(メタデータ) (2025-11-25T18:33:24Z) - JudgeBoard: Benchmarking and Enhancing Small Language Models for Reasoning Evaluation [13.831735556002426]
小型言語モデル(SLM)は様々な推論タスクを約束している。
解答の正しさを判断する能力は、大言語モデル(LLM)と比較しても明らかでない。
論文 参考訳(メタデータ) (2025-11-20T01:14:39Z) - HALF: Harm-Aware LLM Fairness Evaluation Aligned with Deployment [52.374772443536045]
HALF(Harm-Aware LLM Fairness)は、現実的なアプリケーションにおけるモデルバイアスを評価し、有害度によって結果を評価するフレームワークである。
HALFは、以前のベンチマークの成功とデプロイメントの準備の整合性の間に明らかなギャップがあることを示します。
論文 参考訳(メタデータ) (2025-10-14T07:13:26Z) - Bridging Human and LLM Judgments: Understanding and Narrowing the Gap [39.90675202514829]
大規模言語モデルは、モデルアウトプットを大規模に評価するために、審査員(LLM-as-a-judge)として使われることが多い。
我々は、人間とLLMの評価を明示的に橋渡しする統一統計フレームワークであるBridgeを提案する。
論文 参考訳(メタデータ) (2025-08-18T10:14:20Z) - Beyond the Surface: Enhancing LLM-as-a-Judge Alignment with Human via Internal Representations [15.542741121573203]
LAGERは「LLM-as-a-Judge」評価と人間のスコアとのアライメントを改善するためのフレームワークである。
本研究では,Frask,HelpSteer,BIGGenの標準アライメントベンチマークをSpearman相関を用いて評価し,LAGERが最高のベースラインに対して最大7.5%の改善を実現していることを確認した。
論文 参考訳(メタデータ) (2025-08-05T15:18:36Z) - Value Compass Benchmarks: A Platform for Fundamental and Validated Evaluation of LLMs Values [76.70893269183684]
大きな言語モデル(LLM)は驚くべきブレークスルーを達成する。
価値を人間に合わせることは 責任ある開発に欠かせないものになっています
3つの望ましい目標を達成するLLMの評価はいまだに欠けている。
論文 参考訳(メタデータ) (2025-01-13T05:53:56Z) - Systematic Evaluation of LLM-as-a-Judge in LLM Alignment Tasks: Explainable Metrics and Diverse Prompt Templates [11.948519516797745]
LLM審査員の信頼性とアライメントを評価・比較・可視化するオープンソースフレームワークを開発した。
以上の結果から,LLM判定性能に対するプロンプトテンプレートの影響や,LLM判定器とヒト評価器の中間的なアライメントレベルに有意な影響が示唆された。
論文 参考訳(メタデータ) (2024-08-23T11:49:01Z) - Aligning with Human Judgement: The Role of Pairwise Preference in Large Language Model Evaluators [48.54465599914978]
大規模言語モデル(LLM)は、生成された自然言語の品質を評価するための自動評価器として有望な能力を示した。
LLMは依然として評価のバイアスを示しており、人間の評価と整合したコヒーレントな評価を生成するのに苦労することが多い。
Pairwise-preference Search (PAIRS) は、LLMを用いた不確実性誘導検索に基づくランクアグリゲーション手法で、局所的にペアワイズ比較を行い、グローバルに候補テキストを効率よくランク付けする。
論文 参考訳(メタデータ) (2024-03-25T17:11:28Z) - Large Language Models are Not Yet Human-Level Evaluators for Abstractive
Summarization [66.08074487429477]
抽象的な要約のための自動評価器として,大規模言語モデル(LLM)の安定性と信頼性について検討する。
また、ChatGPTとGPT-4は、一般的に使われている自動測定値よりも優れていますが、人間の代替品として準備ができていません。
論文 参考訳(メタデータ) (2023-05-22T14:58:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。