Fugu-MT 論文翻訳(概要): Quantifying and Mitigating Self-Preference Bias of LLM Judges

論文の概要: Quantifying and Mitigating Self-Preference Bias of LLM Judges

arxiv url: http://arxiv.org/abs/2604.22891v2
Date: Tue, 28 Apr 2026 13:54:05 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-29 14:06:43.824396
Title: Quantifying and Mitigating Self-Preference Bias of LLM Judges
Title（参考訳）: LLM審査員の自己選好バイアスの定量化と緩和
Authors: Jinming Yang, Chuxian Qiu, Zhenyu Deng, Xinshan Jiao, Tao Zhou,
Abstract要約: 自己選好バイアス(英: Self-Preference Bias、SPB)は、LSMが評価中に生成した出力を体系的に好まない、または好ましくない方向性評価偏差である。既存の測定は、コストのかかる人的アノテーションと、評価的なスタンスによる生成能力に頼っているため、現実のシステムにおける大規模展開には実用的ではない。本研究では,SPBの定量化と緩和のための完全自動化フレームワークを提案する。
参考スコア（独自算出の注目度）: 5.017055831476582
License: http://creativecommons.org/licenses/by/4.0/
Abstract: LLM-as-a-Judge has become a dominant approach in automated evaluation systems, playing critical roles in model alignment, leaderboard construction, quality control, and so on. However, the scalability and trustworthiness of this approach can be substantially distorted by Self-Preference Bias (SPB), which is a directional evaluative deviation in which LLMs systematically favor or disfavor their own generated outputs during evaluation. Existing measurements rely on costly human annotations and conflate generative capability with evaluative stance, and thus are impractical for large-scale deployment in real-world systems. To address this issue, we introduce a fully automated framework to quantifying and mitigating SPB, which constructs equal-quality pairs of responses with negligible quality differences, enabling statistical disentanglement of discriminability from bias propensity without human gold standards. Empirical analysis across 20 mainstream LLMs reveals that advanced capabilities are often uncorrelated, or even negatively correlated, with low SPB. To mitigate this bias, we propose a structured multi-dimensional evaluation strategy grounded in cognitive load decomposition, which reduces SPB by 31.5\% on average.
Abstract（参考訳）: LLM-as-a-Judgeは、モデルアライメント、リーダーボードの構築、品質管理などにおいて重要な役割を果たす自動評価システムにおいて、支配的なアプローチとなっている。しかし、このアプローチのスケーラビリティと信頼性は、LSMが評価中に生成した出力を体系的に好むか好まない方向性評価偏差である自己選好バイアス(SPB)によって実質的に歪むことができる。既存の測定は、コストのかかる人的アノテーションと、評価的なスタンスによる生成能力に頼っているため、現実のシステムにおける大規模展開には実用的ではない。この問題に対処するために,SPBの定量化と緩和のための完全に自動化されたフレームワークを導入する。これは,品質差が無視できる等質な応答対を構築し,人間の金基準を使わずに,偏見の正当性から差別性を統計的に切り離すことを可能にする。 20個のLLMの実証分析により、高度な能力はしばしばSPBの低い非相関性、あるいは負の相関性であることが明らかとなった。このバイアスを軽減するために,認知的負荷分解に基づく構造的多次元評価戦略を提案し,SPBを平均31.5\%削減する。

関連論文リスト

Automated Self-Testing as a Quality Gate: Evidence-Driven Release Management for LLM Applications [51.56484100374058]
我々は,エビデンスに基づくリリース決定を伴う品質ゲートを導入する自動自己テストフレームワークを提案する。内部展開型多エージェント対話型AIシステムの縦型ケーススタディにより,本フレームワークの評価を行った。
論文参考訳（メタデータ） (2026-03-13T20:44:15Z)
Robust LLM Performance Certification via Constrained Maximum Likelihood Estimation [14.465019747508604]
制約付き最大自由度推定(MLE)に基づくLLM故障率推定の新しい,実用的で効率的なアプローチを提案する。我々は、予測パワー推論(PPI)のような最先端のベースラインに対して、包括的な実証研究を通じてアプローチを検証する。
論文参考訳（メタデータ） (2026-03-11T21:48:40Z)
CDRRM: Contrast-Driven Rubric Generation for Reliable and Interpretable Reward Modeling [61.75914342638658]
CDRRM(Contrast-Driven Reward Model)は、高品質なルーリック生成と優先判断のためのフレームワークである。この作業は、報酬モデリングのためのスケーラブルで解釈可能で、データ効率のよいパスを提供する。
論文参考訳（メタデータ） (2026-03-09T07:15:23Z)
Mitigating Reward Hacking in RLHF via Bayesian Non-negative Reward Modeling [49.41422138354821]
非負の因子分析をBradley-Terry選好モデルに統合する原理的報酬モデリングフレームワークを提案する。 BNRMは、スパースで非負の潜在因子生成過程を通じて報酬を表す。 BNRMは報酬の過度な最適化を著しく軽減し、分布シフトによるロバスト性を改善し、強いベースラインよりも解釈可能な報酬分解をもたらすことを示す。
論文参考訳（メタデータ） (2026-02-11T08:14:11Z)
BiasScope: Towards Automated Detection of Bias in LLM-as-a-Judge Evaluation [31.32711926164484]
BiasScopeは,モデル評価中の潜在的なバイアスを自動的に,あるいは大規模に検出するフレームワークである。 judgeBench-Pro は LLM-as-a-judge の堅牢性を評価する上で,より難しいベンチマークである。
論文参考訳（メタデータ） (2026-02-10T03:51:03Z)
Doubly-Robust LLM-as-a-Judge: Externally Valid Estimation with Imperfect Personas [31.16720541398267]
本稿では,評価サンプリングバイアスに対処するために,2倍のロバスト推定フレームワークを提案する。このアプローチの鍵となるのは、評価者が人間のレーダとして振る舞うように促すことによって生成される「ペルソナ」格付けを使用することです。提案手法は,aとaとaとaとaとaとaとaとaとaとaとaとaとaとaとaとaとaとaとととa
論文参考訳（メタデータ） (2025-09-26T21:42:51Z)
Skewed Score: A statistical framework to assess autograders [2.9645858732618238]
LLM-as-a-judge"あるいはオートグラファーは、人間の評価に代わるスケーラブルな代替手段を提供する。彼らは様々な信頼性を示し、体系的なバイアスを示すかもしれない。そこで本稿では,研究者が自動分解器を同時に評価できる統計フレームワークを提案する。
論文参考訳（メタデータ） (2025-07-04T18:45:10Z)
T2I-Eval-R1: Reinforcement Learning-Driven Reasoning for Interpretable Text-to-Image Evaluation [60.620408007636016]
T2I-Eval-R1は,大まかな品質スコアのみを用いて,オープンソースのMLLMを訓練する新しい強化学習フレームワークである。提案手法では,グループ相対政策最適化を命令調整プロセスに統合し,スカラースコアと解釈可能な推論チェーンの両方を生成する。
論文参考訳（メタデータ） (2025-05-23T13:44:59Z)
Beyond Single-Point Judgment: Distribution Alignment for LLM-as-a-Judge [24.862965044243168]
従来の手法は、人間の評価において固有の多様性と不確実性を見越して、単一点評価に依存していた。本研究では,LLM生成した判定分布と経験的人的分布とを明確に整合させる新しいトレーニングフレームワークを提案する。我々のフレームワークは、既存のオープンソースLCMや従来の単一点アライメント手法よりも大幅に優れています。
論文参考訳（メタデータ） (2025-05-18T08:33:09Z)
Pairwise or Pointwise? Evaluating Feedback Protocols for Bias in LLM-Based Evaluation [57.380464382910375]
評価のためのフィードバックプロトコルの選択は,評価信頼性に大きく影響し,系統的なバイアスを生じさせることを示す。ジェネレータモデルは、気を散らす機能を埋め込むことで好みをひっくり返すことができる。我々は,データセットの特徴と評価目標に基づくフィードバックプロトコルの選択を推奨する。
論文参考訳（メタデータ） (2025-04-20T19:05:59Z)
Identifying and Mitigating Social Bias Knowledge in Language Models [52.52955281662332]
個々人の社会的偏見をきめ細かなキャリブレーションを可能にする新しいデバイアス・アプローチであるFairness Stamp(FAST)を提案する。 FASTは最先端のベースラインを超え、デバイアス性能が優れている。これは、大きな言語モデルにおける公平性を達成するためのきめ細かいデバイアス戦略の可能性を強調している。
論文参考訳（メタデータ） (2024-08-07T17:14:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。