論文の概要: BiasScope: Towards Automated Detection of Bias in LLM-as-a-Judge Evaluation
- arxiv url: http://arxiv.org/abs/2602.09383v1
- Date: Tue, 10 Feb 2026 03:51:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-11 20:17:43.357822
- Title: BiasScope: Towards Automated Detection of Bias in LLM-as-a-Judge Evaluation
- Title(参考訳): BiasScope: LLM-as-a-Judge評価におけるバイアスの自動検出に向けて
- Authors: Peng Lai, Zhihao Ou, Yong Wang, Longyue Wang, Jian Yang, Yun Chen, Guanhua Chen,
- Abstract要約: BiasScopeは,モデル評価中の潜在的なバイアスを自動的に,あるいは大規模に検出するフレームワークである。
judgeBench-Pro は LLM-as-a-judge の堅牢性を評価する上で,より難しいベンチマークである。
- 参考スコア(独自算出の注目度): 31.32711926164484
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLM-as-a-Judge has been widely adopted across various research and practical applications, yet the robustness and reliability of its evaluation remain a critical issue. A core challenge it faces is bias, which has primarily been studied in terms of known biases and their impact on evaluation outcomes, while automated and systematic exploration of potential unknown biases is still lacking. Nevertheless, such exploration is crucial for enhancing the robustness and reliability of evaluations. To bridge this gap, we propose BiasScope, a LLM-driven framework for automatically and at scale discovering potential biases that may arise during model evaluation. BiasScope can uncover potential biases across different model families and scales, with its generality and effectiveness validated on the JudgeBench dataset. It overcomes the limitations of existing approaches, transforming bias discovery from a passive process relying on manual effort and predefined bias lists into an active and comprehensive automated exploration. Moreover, based on BiasScope, we propose JudgeBench-Pro, an extended version of JudgeBench and a more challenging benchmark for evaluating the robustness of LLM-as-a-judge. Strikingly, even powerful LLMs as evaluators show error rates above 50\% on JudgeBench-Pro, underscoring the urgent need to strengthen evaluation robustness and to mitigate potential biases further.
- Abstract(参考訳): LLM-as-a-Judgeは様々な研究や実用化に広く採用されているが、その堅牢性と信頼性は依然として重要な問題である。
バイアスが直面する主な課題はバイアスであり、既知のバイアスとその評価結果への影響について主に研究されてきたが、潜在的な未知のバイアスの自動化と体系的な調査はまだ不十分である。
にもかかわらず、そのような調査は評価の堅牢性と信頼性を高めるために不可欠である。
このギャップを埋めるために,モデル評価中に生じる可能性のある潜在的なバイアスを自動的に,かつ大規模に発見するLLM駆動のフレームワークであるBiasScopeを提案する。
BiasScopeは、さまざまなモデルファミリやスケールにまたがる潜在的なバイアスを明らかにすることができる。
既存のアプローチの限界を克服し、手作業と事前に定義されたバイアスリストに依存する受動的プロセスから、アクティブで包括的な自動探索へとバイアス発見を転換する。
さらに, BiasScope をベースとして, ジャッジベンチの拡張版であるジャッジベンチ-Pro と LLM-as-a-judge の堅牢性を評価するためのより困難なベンチマークを提案する。
興味深いことに、評価役として強力なLLMでさえ、ジャッジベンチプロで50%以上のエラー率を示し、評価の堅牢性を強化し、潜在的なバイアスを緩和する緊急の必要性を強調している。
関連論文リスト
- CompassJudger-2: Towards Generalist Judge Model via Verifiable Rewards [72.44810390478229]
CompassJudger-2は、タスク駆動のマルチドメインデータキュレーション戦略によって制限を克服する新しいジェネラリストジャッジモデルである。
CompassJudger-2は、複数の判定と報奨ベンチマークで優れた結果を得る。
論文 参考訳(メタデータ) (2025-07-12T01:34:24Z) - Evaluating Scoring Bias in LLM-as-a-Judge [8.67484421243584]
大規模言語モデル (LLM) は複雑なタスクの評価に使用される。
LLM-as-a-Judgeには様々なバイアスがあり、判断の公平性と信頼性に悪影響を及ぼす。
論文 参考訳(メタデータ) (2025-06-27T15:25:23Z) - Justice or Prejudice? Quantifying Biases in LLM-as-a-Judge [84.34545223897578]
多くの領域で優れているにもかかわらず、潜在的な問題は未解決のままであり、その信頼性と実用性の範囲を損なう。
提案手法は, LLM-as-a-Judgeにおける各種類のバイアスを定量化し, 解析する自動バイアス定量化フレームワークである。
当社の作業は、これらの問題に対処するステークホルダの必要性を強調し、LLM-as-a-Judgeアプリケーションで注意を喚起します。
論文 参考訳(メタデータ) (2024-10-03T17:53:30Z) - Identifying and Mitigating Social Bias Knowledge in Language Models [52.52955281662332]
個々人の社会的偏見をきめ細かなキャリブレーションを可能にする新しいデバイアス・アプローチであるFairness Stamp(FAST)を提案する。
FASTは最先端のベースラインを超え、デバイアス性能が優れている。
これは、大きな言語モデルにおける公平性を達成するためのきめ細かいデバイアス戦略の可能性を強調している。
論文 参考訳(メタデータ) (2024-08-07T17:14:58Z) - GPTBIAS: A Comprehensive Framework for Evaluating Bias in Large Language
Models [83.30078426829627]
大規模言語モデル(LLM)は人気を集め、大規模なユーザコミュニティで広く採用されている。
既存の評価手法には多くの制約があり、それらの結果は限定的な解釈可能性を示している。
本稿では,LPMの高性能性を活用し,モデル内のバイアスを評価するGPTBIASというバイアス評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-11T12:02:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。