論文の概要: Toward Robust LLM-Based Judges: Taxonomic Bias Evaluation and Debiasing Optimization
- arxiv url: http://arxiv.org/abs/2603.08091v1
- Date: Mon, 09 Mar 2026 08:32:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:15.70783
- Title: Toward Robust LLM-Based Judges: Taxonomic Bias Evaluation and Debiasing Optimization
- Title(参考訳): ロバストLSMに基づく判断に向けて:分類学的バイアス評価とバイアス最適化
- Authors: Hongli Zhou, Hui Huang, Rui Zhang, Kehai Chen, Bing Xu, Conghui Zhu, Tiejun Zhao, Muyun Yang,
- Abstract要約: 大規模言語モデル(LLM)に基づく審査員は、自動評価と報酬モデリングに広く採用されている。
LLMに基づく審査員のバイアスを系統的に定量化するためのベンチマークであるJiceBiasBenchを提案する。
我々は、生成的および差別的な裁判官の両方にまたがって実験を行い、現在の裁判官が有意かつ多様なバイアスパターンを示すことを明らかにした。
- 参考スコア(独自算出の注目度): 44.252712888022835
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language model (LLM)-based judges are widely adopted for automated evaluation and reward modeling, yet their judgments are often affected by judgment biases. Accurately evaluating these biases is essential for ensuring the reliability of LLM-based judges. However, existing studies typically investigate limited biases under a single judge formulation, either generative or discriminative, lacking a comprehensive evaluation. To bridge this gap, we propose JudgeBiasBench, a benchmark for systematically quantifying biases in LLM-based judges. JudgeBiasBench defines a taxonomy of judgment biases across 4 dimensions, and constructs bias-augmented evaluation instances through a controlled bias injection pipeline, covering 12 representative bias types. We conduct extensive experiments across both generative and discriminative judges, revealing that current judges exhibit significant and diverse bias patterns that often compromise the reliability of automated evaluation. To mitigate judgment bias, we propose bias-aware training that explicitly incorporates bias-related attributes into the training process, encouraging judges to disentangle task-relevant quality from bias-correlated cues. By adopting reinforcement learning for generative judges and contrastive learning for discriminative judges, our methods effectively reduce judgment biases while largely preserving general evaluation capability.
- Abstract(参考訳): 大規模言語モデル(LLM)に基づく判断は、自動評価と報酬モデリングに広く採用されているが、その判断は判断バイアスの影響を受けやすい。
LLMに基づく審査員の信頼性を確保するためには、これらのバイアスを正確に評価することが不可欠である。
しかし、既存の研究は通常、単一の判断の定式化の下で限られたバイアス(生成的または識別的)を調査し、包括的な評価を欠いている。
このギャップを埋めるため,LLMに基づく審査員のバイアスを系統的に定量化するためのベンチマークであるJiceBiasBenchを提案する。
JudgeBiasBench氏は、4次元にわたる判断バイアスの分類を定義し、12の代表的なバイアスタイプをカバーする、制御されたバイアス注入パイプラインを通じてバイアス増分評価インスタンスを構築する。
我々は、生成的および差別的判断の両方にわたって広範な実験を行い、現在の審査員は、しばしば自動評価の信頼性を損なう有意義で多様なバイアスパターンを示すことを明らかにした。
判断バイアスを軽減するため,偏見関連属性をトレーニングプロセスに明示的に組み込んだ偏見意識トレーニングを提案し,偏見関連手がかりからタスク関連品質を遠ざけるようにした。
生成的判断に対する強化学習と識別的判断に対するコントラスト学習を採用することにより,判定バイアスを効果的に低減し,一般評価能力を大きく維持する。
関連論文リスト
- CyclicJudge: Mitigating Judge Bias Efficiently in LLM-based Evaluation [6.3121191919394475]
この研究は、ベンチマークスコアの分散をシナリオ、生成、判断、残留コンポーネントに分割する分散分解を導入する。
この分析に基づいて, 審査員のシナリオへのラウンドロビンの割り当てであるCyclicJudgeが, 一定の審査-呼出予算の最適戦略であることを実証した。
論文 参考訳(メタデータ) (2026-03-02T13:46:32Z) - CompassJudger-2: Towards Generalist Judge Model via Verifiable Rewards [72.44810390478229]
CompassJudger-2は、タスク駆動のマルチドメインデータキュレーション戦略によって制限を克服する新しいジェネラリストジャッジモデルである。
CompassJudger-2は、複数の判定と報奨ベンチマークで優れた結果を得る。
論文 参考訳(メタデータ) (2025-07-12T01:34:24Z) - Quantitative LLM Judges [60.773734899532336]
本研究では,既存のLLM審査員の評価スコアを,与えられた領域内の人間と一致させる定量的LLM審査員を提案する。
モデルは、その合理性とスコアを使用して、元の審査員のスコアを改善するために訓練される。
実験の結果, 定量的な判断は, ポストホックモデリングにより, 既存の判断の予測力を向上できることがわかった。
論文 参考訳(メタデータ) (2025-06-03T14:44:23Z) - JudgeBench: A Benchmark for Evaluating LLM-based Judges [61.048125269475854]
judgeBenchは、知識、推論、数学、コーディングにまたがる挑戦的な応答ペアに関するLSMベースの判断を評価するためのベンチマークである。
審査員、微調整された審査員、マルチエージェントの審査員、報酬モデルに関する包括的な評価は、審査員ベンチが以前のベンチマークよりもかなり大きな課題を課していることを示している。
論文 参考訳(メタデータ) (2024-10-16T17:58:19Z) - Judging the Judges: A Systematic Study of Position Bias in LLM-as-a-Judge [24.206975650221732]
本研究では,LLM審査員の位置バイアスをペアワイドおよびリストワイド比較設定で評価する。
偏見に寄与する判断レベル、候補レベル、タスクレベルを識別する。
論文 参考訳(メタデータ) (2024-06-12T01:12:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。