論文の概要: Self-Preference Bias in Rubric-Based Evaluation of Large Language Models
- arxiv url: http://arxiv.org/abs/2604.06996v1
- Date: Wed, 08 Apr 2026 12:13:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-09 17:30:51.510428
- Title: Self-Preference Bias in Rubric-Based Evaluation of Large Language Models
- Title(参考訳): ルーブリックに基づく大規模言語モデルの評価における自己選好バイアス
- Authors: José Pombal, Ricardo Rei, André F. T. Martins,
- Abstract要約: 本研究は,ルーリック評価における自己参照バイアス(SPB)の最初の研究である。
評価基準が完全に客観的である場合でもSPBは持続することを示す。
この環境でSPBを駆動する要因を解析し、負のルーリック、極端なルーリックの長さ、緊急紹介のような主観的なトピックが特に影響を受けやすいことを発見した。
- 参考スコア(独自算出の注目度): 24.994793163290737
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLM-as-a-judge has become the de facto approach for evaluating LLM outputs. However, judges are known to exhibit self-preference bias (SPB): they tend to favor outputs produced by themselves or by models from their own family. This skews evaluations and, thus, hinders model development, especially in settings of recursive self-improvement. We present the first study of SPB in rubric-based evaluation, an increasingly popular benchmarking paradigm where judges issue binary verdicts on individual evaluation criteria, instead of assigning holistic scores or rankings. Using IFEval, a benchmark with programmatically verifiable rubrics, we show that SPB persists even when evaluation criteria are entirely objective: among rubrics where generators fail, judges can be up to 50\% more likely to incorrectly mark them as satisfied when the output is their own. We also find that, similarly to other evaluation paradigms, ensembling multiple judges helps mitigate SPB, but without fully eliminating it. On HealthBench, a medical chat benchmark with subjective rubrics, we observe that SPB skews model scores by up to 10 points, a potentially decisive margin when ranking frontier models. We analyze the factors that drive SPB in this setting, finding that negative rubrics, extreme rubric lengths, and subjective topics like emergency referrals are particularly susceptible.
- Abstract(参考訳): LLM-as-a-judgeは、LCM出力を評価するデファクトアプローチとなっている。
しかし、裁判官は自己選好バイアス(SPB: Self-preference bias)を示すことが知られている。
これは評価を歪ませ、特に再帰的な自己改善の設定において、モデル開発を妨げます。
本稿では,SPBを総合的なスコアやランキングを割り当てる代わりに,個々の評価基準に基づいて二項判定を発行するベンチマークパラダイムである,ルーブリックに基づく評価におけるSPBの最初の研究について述べる。
評価基準が完全に客観的である場合でもSPBは持続することを示す。ジェネレータが故障したルーリックの中では、審査員は出力が自分自身の場合に満足していると誤ってマークする可能性が最大50%高い。
また、他の評価パラダイムと同様に、複数の審査員を集結させることはSPBを緩和するが、完全に排除しない。
主観的ルーリックを持つ医療チャットベンチマークであるHealthBenchでは、SPBがモデルスコアを最大10ポイントスキューし、フロンティアモデルのランク付けにおいて決定的なマージンとなる可能性があることを観察した。
この環境でSPBを駆動する要因を解析し、負のルーリック、極端なルーリックの長さ、緊急紹介のような主観的なトピックが特に影響を受けやすいことを発見した。
関連論文リスト
- CyclicJudge: Mitigating Judge Bias Efficiently in LLM-based Evaluation [6.3121191919394475]
この研究は、ベンチマークスコアの分散をシナリオ、生成、判断、残留コンポーネントに分割する分散分解を導入する。
この分析に基づいて, 審査員のシナリオへのラウンドロビンの割り当てであるCyclicJudgeが, 一定の審査-呼出予算の最適戦略であることを実証した。
論文 参考訳(メタデータ) (2026-03-02T13:46:32Z) - CompassJudger-2: Towards Generalist Judge Model via Verifiable Rewards [72.44810390478229]
CompassJudger-2は、タスク駆動のマルチドメインデータキュレーション戦略によって制限を克服する新しいジェネラリストジャッジモデルである。
CompassJudger-2は、複数の判定と報奨ベンチマークで優れた結果を得る。
論文 参考訳(メタデータ) (2025-07-12T01:34:24Z) - Evaluating Scoring Bias in LLM-as-a-Judge [8.67484421243584]
大規模言語モデル (LLM) は複雑なタスクの評価に使用される。
LLM-as-a-Judgeには様々なバイアスがあり、判断の公平性と信頼性に悪影響を及ぼす。
論文 参考訳(メタデータ) (2025-06-27T15:25:23Z) - J4R: Learning to Judge with Equivalent Initial State Group Relative Policy Optimization [69.23273504123941]
私たちは、より複雑な評価設定で生じる位置バイアスに対して堅牢であるように、裁判官を訓練します。
我々はReasoningJudgeBenchというベンチマークを紹介します。
EIS-GRPOで訓練を受けた7B判事であるReasoning判事(J4R)は、GPT-4oを6.7%、そして9%で上回ります。
論文 参考訳(メタデータ) (2025-05-19T16:50:35Z) - Evaluating Judges as Evaluators: The JETTS Benchmark of LLM-as-Judges as Test-Time Scaling Evaluators [66.83088028268318]
本稿では,テスト時間スケーリングベンチマークの判定評価について紹介する。
3つのタスク設定の下で、3つのドメイン(推論、コード生成、命令従)での判定性能を評価する。
我々のベンチマークは、審査員が再評価において結果報酬モデルと競合する一方で、ビームサーチにおけるプロセス報酬モデルよりも一貫して悪いことを示している。
論文 参考訳(メタデータ) (2025-04-21T17:33:23Z) - The BiGGen Bench: A Principled Benchmark for Fine-grained Evaluation of Language Models with Language Models [94.31327813151208]
BiGGen Benchは、77のタスクにわたるLMの9つの異なる能力を徹底的に評価するために設計された、原則化された世代ベンチマークである。
BiGGen Benchの重要な特徴は、インスタンス固有の評価基準の使用であり、人間の評価のニュアンスな識別を忠実に反映している。
論文 参考訳(メタデータ) (2024-06-09T12:30:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。