論文の概要: CyclicJudge: Mitigating Judge Bias Efficiently in LLM-based Evaluation
- arxiv url: http://arxiv.org/abs/2603.01865v1
- Date: Mon, 02 Mar 2026 13:46:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.894667
- Title: CyclicJudge: Mitigating Judge Bias Efficiently in LLM-based Evaluation
- Title(参考訳): CyclicJudge: LLMに基づく評価において効率よく判断を下す
- Authors: Ziyi Zhu, Olivier Tieleman, Alexey Bukhtiyarov, Jinghong Chen,
- Abstract要約: この研究は、ベンチマークスコアの分散をシナリオ、生成、判断、残留コンポーネントに分割する分散分解を導入する。
この分析に基づいて、審査員のラウンドロビン割り当てであるCyclicJudgeが最適なアロケーション戦略であることが示されている。
- 参考スコア(独自算出の注目度): 6.3121191919394475
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLM-as-judge evaluation has become standard practice for open-ended model assessment; however, judges exhibit systematic biases that cannot be eliminated by increasing the number of scenarios or generations. These biases are often similar in magnitude to the model differences that benchmarks are designed to detect, resulting in unreliable rankings when single-judge evaluations are used. This work introduces a variance decomposition that partitions benchmark score variance into scenario, generation, judge, and residual components. Based on this analysis, CyclicJudge, a round-robin assignment of judges, is demonstrated to be the optimal allocation strategy. It eliminates bias precisely while requiring each judge only once per cycle, maintaining the cost of single-judge evaluation. Empirical validation on MT-Bench supports all theoretical predictions.
- Abstract(参考訳): LLM-as-judgeの評価は、オープンエンドモデルアセスメントの標準的な実践となっているが、審査員はシナリオ数や世代数を増やすことで排除できない体系的なバイアスを示す。
これらのバイアスは、ベンチマークが検出するように設計されているモデルの違いと大まかに類似しており、単一の評価が使用される場合、信頼性の低いランキングとなる。
この研究は、ベンチマークスコアの分散をシナリオ、生成、判断、残留コンポーネントに分割する分散分解を導入する。
この分析に基づいて、審査員のラウンドロビン割り当てであるCyclicJudgeが最適なアロケーション戦略であることが示されている。
偏見を正確に排除し、各審査員は1サイクルに1回しか必要とせず、シングルジャッジ評価のコストを維持する。
MT-Benchの実証検証は、すべての理論的予測をサポートする。
関連論文リスト
- IF-RewardBench: Benchmarking Judge Models for Instruction-Following Evaluation [85.56193980646981]
命令追従のための総合的メタ評価ベンチマークであるIF-RewardBenchを提案する。
各命令に対して、複数の応答間の全てのペアの選好を含む選好グラフを構築する。
IF-RewardBenchの実験は、現在の審査モデルに重大な欠陥を呈している。
論文 参考訳(メタデータ) (2026-03-05T02:21:17Z) - Who can we trust? LLM-as-a-jury for Comparative Assessment [42.32900791516691]
大規模言語モデル(LLM)は、自然言語生成評価のための自動評価器として、ますます採用されている。
LLMの判断はタスクや側面によって大きく異なるが、その判断確率は偏りがあり矛盾する可能性がある。
我々は,各審査員がアイテムランキングを共同で推定し,ペア比較だけで信頼性を判断する識別パラメータを導入する,Bradley-Terryモデルの拡張であるBT-sigmaを提案する。
論文 参考訳(メタデータ) (2026-02-18T17:04:02Z) - FairJudge: An Adaptive, Debiased, and Consistent LLM-as-a-Judge [10.584937371987742]
既存のLCM-as-a-Judgeシステムでは、タスクやドメイン固有の評価基準への適応性が制限されている。
適応的で、偏りがあり、一貫したLCM-as-a-JudgeであるFairJudgeを提案する。
論文 参考訳(メタデータ) (2026-02-06T11:35:32Z) - CompassJudger-2: Towards Generalist Judge Model via Verifiable Rewards [72.44810390478229]
CompassJudger-2は、タスク駆動のマルチドメインデータキュレーション戦略によって制限を克服する新しいジェネラリストジャッジモデルである。
CompassJudger-2は、複数の判定と報奨ベンチマークで優れた結果を得る。
論文 参考訳(メタデータ) (2025-07-12T01:34:24Z) - Evaluating Scoring Bias in LLM-as-a-Judge [8.67484421243584]
大規模言語モデル (LLM) は複雑なタスクの評価に使用される。
LLM-as-a-Judgeには様々なバイアスがあり、判断の公平性と信頼性に悪影響を及ぼす。
論文 参考訳(メタデータ) (2025-06-27T15:25:23Z) - Quantitative LLM Judges [60.773734899532336]
本研究では,既存のLLM審査員の評価スコアを,与えられた領域内の人間と一致させる定量的LLM審査員を提案する。
モデルは、その合理性とスコアを使用して、元の審査員のスコアを改善するために訓練される。
実験の結果, 定量的な判断は, ポストホックモデリングにより, 既存の判断の予測力を向上できることがわかった。
論文 参考訳(メタデータ) (2025-06-03T14:44:23Z) - Evaluating Judges as Evaluators: The JETTS Benchmark of LLM-as-Judges as Test-Time Scaling Evaluators [66.83088028268318]
本稿では,テスト時間スケーリングベンチマークの判定評価について紹介する。
3つのタスク設定の下で、3つのドメイン(推論、コード生成、命令従)での判定性能を評価する。
我々のベンチマークは、審査員が再評価において結果報酬モデルと競合する一方で、ビームサーチにおけるプロセス報酬モデルよりも一貫して悪いことを示している。
論文 参考訳(メタデータ) (2025-04-21T17:33:23Z) - Judge as A Judge: Improving the Evaluation of Retrieval-Augmented Generation through the Judge-Consistency of Large Language Models [68.92020689188887]
Retrieval-Augmented Generation (RAG) は、Large Language Models (LLM) に対する幻覚を緩和する効果を証明している。
既存の自動評価メトリクスは、トレーニングと評価の間にRAGモデルによって生成されたアウトプットを正確に評価することはできない。
本稿では,RAGモデルのより正確な評価を実現するため,LCMの強化を目的とした判断一貫性(ConsJudge)手法を提案する。
論文 参考訳(メタデータ) (2025-02-26T04:50:43Z) - JudgeBench: A Benchmark for Evaluating LLM-based Judges [61.048125269475854]
judgeBenchは、知識、推論、数学、コーディングにまたがる挑戦的な応答ペアに関するLSMベースの判断を評価するためのベンチマークである。
審査員、微調整された審査員、マルチエージェントの審査員、報酬モデルに関する包括的な評価は、審査員ベンチが以前のベンチマークよりもかなり大きな課題を課していることを示している。
論文 参考訳(メタデータ) (2024-10-16T17:58:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。