論文の概要: Judging the Judges: A Systematic Evaluation of Bias Mitigation Strategies in LLM-as-a-Judge Pipelines
- arxiv url: http://arxiv.org/abs/2604.23178v1
- Date: Sat, 25 Apr 2026 07:18:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:07.193021
- Title: Judging the Judges: A Systematic Evaluation of Bias Mitigation Strategies in LLM-as-a-Judge Pipelines
- Title(参考訳): 裁判官の判断: LLM-as-a-Judgeパイプラインにおけるバイアス軽減戦略の体系的評価
- Authors: Sadman Kabir Soumik,
- Abstract要約: 4つのプロバイダファミリーの5つの審査モデルに対して,9つのデバイアスング戦略を比較した。
スタイルバイアスは支配的バイアス(全モデルで0.76-0.92)であり、位置バイアス(=0.04)をはるかに超えている。
統合予算戦略により、Claude Sonnet 4 は+11.2 pp (p 0.0001) に大幅に改善され、他のモデルの方向性に好意的な傾向が見られた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLM-as-a-Judge has become the dominant paradigm for evaluating language model outputs, yet LLM judges exhibit systematic biases that compromise evaluation reliability. We present a comprehensive empirical study comparing nine debiasing strategies across five judge models from four provider families (Google, Anthropic, OpenAI, Meta), three benchmarks (MT-Bench n=400, LLMBar n=200, custom n=225), and four bias types. Our key findings: (1) Style bias is the dominant bias (0.76-0.92 across all models), far exceeding position bias (<= 0.04), yet has received minimal research attention. (2) All models show a conciseness preference on expansion pairs, but truncation controls confirm they correctly distinguish quality from length (0.92-1.00 accuracy), suggesting quality-sensitive evaluation rather than a simple length bias. (3) Debiasing is beneficial but model-dependent: the combined budget strategy significantly improves Claude Sonnet 4 by +11.2 pp (p < 0.0001), with directionally positive trends for other models. Only 2 of 20 non-baseline configurations show decreased agreement. We release our evaluation framework, controlled dataset, and all experimental artifacts at https://github.com/sksoumik/llm-as-judge.
- Abstract(参考訳): LLM-as-a-Judgeは言語モデルの出力を評価する主要なパラダイムとなっているが、LLMの審査員は信頼性を損なうような体系的なバイアスを示す。
我々は,5つの判断モデル(Google, Anthropic, OpenAI, Meta),3つのベンチマーク(MT-Bench n=400, LLMBar n=200, custom n=225),および4つのバイアスタイプ(MT-Bench n=400, LLMBar n=200, custom n=225)の9つのデバイアス戦略を比較した総合的研究を行った。
その結果,(1)主観的偏差は主観的偏差 (0.76-0.92) であり, 位置偏差 (=0.04) をはるかに上回っているが, 研究の注目は最小限であった。
2) 全てのモデルでは拡張ペアに対して簡潔さが優先されるが, トラルニケーション制御により, 品質と長さ(0.92-1.00精度)を正確に区別することが確認され, 単純な長さバイアスではなく, 品質に敏感な評価が示唆された。
複合予算戦略はClaude Sonnet 4 を +11.2 pp (p < 0.0001) で大幅に改善し、他のモデルの方向性に好意的な傾向を示した。
20の非ベースライン構成のうち2つだけが合意を減らした。
評価フレームワーク、制御されたデータセット、およびすべての実験成果物をhttps://github.com/sksoumik/llm-as-judge.comでリリースします。
関連論文リスト
- CogBias: Measuring and Mitigating Cognitive Bias in Large Language Models [8.81733256907103]
大規模言語モデル(LLM)は、高い意思決定コンテキストにますますデプロイされている。
認知バイアスは, 判断, 情報処理, 社会的, 反応の4種類の認知バイアスのすべてに対して, 体系的に現れることを示す。
活性化ステアリングを用いてバイアスの挙動を変調し,26~32%のバイアススコアの低減を実現した。
論文 参考訳(メタデータ) (2026-04-01T20:22:14Z) - Understanding LLM Evaluator Behavior: A Structured Multi-Evaluator Framework for Merchant Risk Assessment [26.786161923794115]
大規模言語モデル(LLM)は、推論品質の評価手段としてますます使われていますが、その信頼性と支払いリスク設定の偏りはよく分かっていません。
本稿では,Merchant Category Code(MCC)に基づく商業リスク評価において,LCM推論を評価するための構造化マルチ評価フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-04T22:55:16Z) - Beyond Consensus: Mitigating the Agreeableness Bias in LLM Judge Evaluations [0.20027036140258694]
新しいLarge Language Models(LLM)が数週間毎に利用可能になる。
LLMは高い精度で有効な出力を識別できるが、無効な出力を識別する能力は極めて乏しい。
我々は、欠落データに対して回復力のある最適なマイノリティ・ベト戦略を導入し、このバイアスを広範囲に緩和する。
論文 参考訳(メタデータ) (2025-10-13T18:19:23Z) - TrustJudge: Inconsistencies of LLM-as-a-Judge and How to Alleviate Them [58.04324690859212]
自動評価器(LLM-as-a-judge)としての大規模言語モデル(LLM)は、現在の評価フレームワークにおいて重大な矛盾を明らかにしている。
スコア比較不整合とペアワイズ・トランジティビティ不整合という2つの基本的不整合を同定する。
我々は2つの重要なイノベーションを通じてこれらの制限に対処する確率的フレームワークであるTrustJudgeを提案する。
論文 参考訳(メタデータ) (2025-09-25T13:04:29Z) - Play Favorites: A Statistical Method to Measure Self-Bias in LLM-as-a-Judge [17.40713507922006]
大規模言語モデル(LLM)は、他の出力の迅速かつ信頼性の高い評価を提供する裁判官として機能する。
LLMは、自己バイアス(self-bias)として知られる、過度に好ましい評価を自身のアウトプットに体系的に割り当てる。
本稿では,自己バイアスを特定・推定できる仮定を明示的に定式化する統計的枠組みを提案する。
論文 参考訳(メタデータ) (2025-08-08T21:22:12Z) - Assessing Judging Bias in Large Reasoning Models: An Empirical Study [99.86300466350013]
DeepSeek-R1やOpenAI-o1のような大きな推論モデル(LRM)は、顕著な推論能力を示している。
本稿では、主観的嗜好アライメントデータセットと客観的事実ベースデータセットの両方において、LLMとLRMの偏りを判定するベンチマークを示す。
論文 参考訳(メタデータ) (2025-04-14T07:14:27Z) - Attention Speaks Volumes: Localizing and Mitigating Bias in Language Models [15.53216696218776]
本稿では,大きな言語モデル(LLM)において,曖昧な比較プロンプトが提供される場合のバイアスの発生メカニズムについて検討する。
本稿では,LLMの特定の層にバイアスを局所化する手法である$textttATLAS$を提案する。
論文 参考訳(メタデータ) (2024-10-29T20:15:56Z) - CompassJudger-1: All-in-one Judge Model Helps Model Evaluation and Evolution [74.41064280094064]
textbfJudger-1は、最初のオープンソースのtextbfall-in-one judge LLMである。
CompassJudger-1は、優れた汎用性を示す汎用LLMである。
textbfJudgerBenchは、様々な主観評価タスクを含む新しいベンチマークである。
論文 参考訳(メタデータ) (2024-10-21T17:56:51Z) - Identifying and Mitigating Social Bias Knowledge in Language Models [52.52955281662332]
個々人の社会的偏見をきめ細かなキャリブレーションを可能にする新しいデバイアス・アプローチであるFairness Stamp(FAST)を提案する。
FASTは最先端のベースラインを超え、デバイアス性能が優れている。
これは、大きな言語モデルにおける公平性を達成するためのきめ細かいデバイアス戦略の可能性を強調している。
論文 参考訳(メタデータ) (2024-08-07T17:14:58Z) - Dissecting Human and LLM Preferences [80.55271307662365]
人間は誤りに敏感ではなく、自分の姿勢を支持する反応を好んでおり、モデルが限界を認めている場合、明確な嫌悪を示します。
GPT-4-Turboのような先進的なLCMは、より正確さ、明快さ、無害さを強調している。
嗜好に基づく評価は意図的に操作可能であることを示す。
論文 参考訳(メタデータ) (2024-02-17T14:34:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。