論文の概要: Contrastive Decoding Mitigates Score Range Bias in LLM-as-a-Judge
- arxiv url: http://arxiv.org/abs/2510.18196v1
- Date: Tue, 21 Oct 2025 00:47:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:12.748997
- Title: Contrastive Decoding Mitigates Score Range Bias in LLM-as-a-Judge
- Title(参考訳): LLM-as-a-Judgeにおけるスコアレンジバイアスを軽減するコントラストデコーディング
- Authors: Yoshinari Fujinuma,
- Abstract要約: 大規模言語モデル(LLM)は、様々なアプリケーションで一般的に評価として使用されるが、結果の信頼性は依然として課題である。
そのような課題の1つは、直接評価にLLMs-as-judgesを使用し、参照なしで特定の範囲からスコアを割り当てることである。
まず, この課題は, LLM判定出力がスコア範囲バイアスに関連付けられ, 最適スコア範囲の探索を妨げていることを示す。
次に、このバイアスを対照的な復号化によって緩和し、スピアマン平均の11.3%の相対的な改善を、異なるスコア範囲にわたる人間の判断と相関させる。
- 参考スコア(独自算出の注目度): 3.0514919040854154
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are commonly used as evaluators in various applications, but the reliability of the outcomes remains a challenge. One such challenge is using LLMs-as-judges for direct assessment, i.e., assigning scores from a specified range without any references. We first show that this challenge stems from LLM judge outputs being associated with score range bias, i.e., LLM judge outputs are highly sensitive to pre-defined score ranges, preventing the search for optimal score ranges. We also show that similar biases exist among models from the same family. We then mitigate this bias through contrastive decoding, achieving up to 11.3% relative improvement on average in Spearman correlation with human judgments across different score ranges.
- Abstract(参考訳): 大規模言語モデル(LLM)は、様々なアプリケーションで一般的に評価として使用されるが、結果の信頼性は依然として課題である。
そのような課題の1つは、直接評価にLSMs-as-judgesを使うこと、すなわち、特定の範囲からのスコアを参照なしで割り当てることである。
この課題は, LLMの判定出力がスコア範囲バイアスに関連付けられていること,すなわち, LLMの判定出力が予め定義されたスコア範囲に非常に敏感であることから, 最適スコア範囲の探索を妨げていることを示す。
また、同じ家系のモデルの間にも同様のバイアスが存在することも示している。
次に、このバイアスを対照的な復号化によって緩和し、スピアマン平均の11.3%の相対的な改善を、異なるスコア範囲にわたる人間の判断と相関させる。
関連論文リスト
- Reference-Free Rating of LLM Responses via Latent Information [53.463883683503106]
本研究では,判断モデルに対して,自由テキスト応答にQuattスケールのスコアを割り当てるよう依頼する一般的な実践について検討する。
次に、内部モデル信号からスカラー評価を導出する潜在裁判官を提案し、評価する。
ペアとシングルレーティングのベンチマークの幅広いスイートの中で、潜在メソッドは標準のプロンプトにマッチするか、超えている。
論文 参考訳(メタデータ) (2025-09-29T12:15:52Z) - Bridging Human and LLM Judgments: Understanding and Narrowing the Gap [39.90675202514829]
大規模言語モデルは、モデルアウトプットを大規模に評価するために、審査員(LLM-as-a-judge)として使われることが多い。
我々は、人間とLLMの評価を明示的に橋渡しする統一統計フレームワークであるBridgeを提案する。
論文 参考訳(メタデータ) (2025-08-18T10:14:20Z) - Evaluating Scoring Bias in LLM-as-a-Judge [8.67484421243584]
大規模言語モデル (LLM) は複雑なタスクの評価に使用される。
LLM-as-a-Judgeには様々なバイアスがあり、判断の公平性と信頼性に悪影響を及ぼす。
論文 参考訳(メタデータ) (2025-06-27T15:25:23Z) - Preference Leakage: A Contamination Problem in LLM-as-a-judge [69.96778498636071]
審査員としてのLLM(Large Language Models)とLLMに基づくデータ合成は、2つの基本的なLLM駆動型データアノテーション法として登場した。
本研究では, 合成データ生成器とLCMに基づく評価器の関連性に起因するLCM-as-a-judgeの汚染問題である選好リークを明らかにする。
論文 参考訳(メタデータ) (2025-02-03T17:13:03Z) - Justice or Prejudice? Quantifying Biases in LLM-as-a-Judge [84.34545223897578]
多くの領域で優れているにもかかわらず、潜在的な問題は未解決のままであり、その信頼性と実用性の範囲を損なう。
提案手法は, LLM-as-a-Judgeにおける各種類のバイアスを定量化し, 解析する自動バイアス定量化フレームワークである。
当社の作業は、これらの問題に対処するステークホルダの必要性を強調し、LLM-as-a-Judgeアプリケーションで注意を喚起します。
論文 参考訳(メタデータ) (2024-10-03T17:53:30Z) - The Comparative Trap: Pairwise Comparisons Amplifies Biased Preferences of LLM Evaluators [31.520403357740317]
大規模言語モデル (LLM) は、自然言語生成タスクの評価器としてますます使われている。
LLMは、冗長性や権威的なトーンを好むなど、バイアスのある好みを示す。
ペアワイズフレームワークにポイントワイズ推論を統合するPRePairを導入する。
論文 参考訳(メタデータ) (2024-06-18T06:43:04Z) - LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond [135.8013388183257]
そこで我々は,SummEditsと呼ばれる10ドメインのベンチマークで不整合検出ベンチマークを作成し,実装する新しいプロトコルを提案する。
ほとんどのLLMはSummEditsで苦労しており、パフォーマンスはランダムに近い。
最も優れたモデルであるGPT-4は、推定された人間のパフォーマンスよりも8%低い。
論文 参考訳(メタデータ) (2023-05-23T21:50:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。