論文の概要: Evaluative Fingerprints: Stable and Systematic Differences in LLM Evaluator Behavior
- arxiv url: http://arxiv.org/abs/2601.05114v1
- Date: Thu, 08 Jan 2026 17:02:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 17:01:53.294611
- Title: Evaluative Fingerprints: Stable and Systematic Differences in LLM Evaluator Behavior
- Title(参考訳): 評価指紋:LLM評価器の安定性と系統的差異
- Authors: Wajid Nasser,
- Abstract要約: 審査員は一貫性があるが、互いに一致していない。
評価は3,240件を超え、中間合意はほぼゼロに近い。
審査員の平均得点は、審査員の実際の値に該当しない合成判定を生成する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: LLM-as-judge systems promise scalable, consistent evaluation. We find the opposite: judges are consistent, but not with each other; they are consistent with themselves. Across 3,240 evaluations (9 judges x 120 unique video x pack items x 3 independent runs), inter-judge agreement is near-zero (Krippendorff's α = 0.042). On two dimensions, judges disagree more than random noise would predict (α < 0). Yet this disagreement isn't chaos; it's structured. A classifier identifies which judge produced an evaluation with 77.1% accuracy from rubric scores alone, rising to 89.9% with disposition features. Within model families, the signal is even stronger: GPT-4.1 and GPT-5.2 are distinguishable with 99.6% accuracy. We call this the reliability paradox: judges cannot agree on what constitutes quality, yet their disagreement patterns are so stable they function as fingerprints. Each judge implements a distinct, stable theory of quality: an "evaluative disposition" that shapes how it interprets any rubric. We characterize these dispositions along multiple axes: harshness/leniency, dimension emphasis, within-judge stability (ICC), and evidence behavior (receipt validity, semantic linkage via NLI, and shotgun index). The implication is stark: LLM judges are not interchangeable instruments measuring a shared construct. They are distinct measurement devices, each encoding its own implicit theory of quality. Averaging their scores produces a synthetic verdict that corresponds to no judge's actual values.
- Abstract(参考訳): LLM-as-judgeシステムはスケーラブルで一貫した評価を約束する。
裁判官は一貫性があるが、互いに一致していない。
3,240点以上の評価 (9 は x 120 のユニークなビデオ x パックアイテム x 3 の独立実行) と、Judge 間の合意はゼロに近い(クリッペンドルフの α = 0.042)。
2次元では、裁判官はランダムノイズが予測する(α < 0)以上のことには同意しない。
しかし、この意見の相違はカオスではありません。
分類器は、審査員がルーリックスコアのみから77.1%の精度で評価し、配置特徴により89.9%まで上昇したことを識別する。
GPT-4.1とGPT-5.2は99.6%の精度で識別可能である。
私たちはこれを信頼性のパラドックスと呼んでいる: 裁判官は品質を構成するものについて同意できないが、彼らの不一致パターンは非常に安定しており、指紋として機能する。
各裁判官は、どのルーブをどう解釈するかを形作る「評価的配置」という、はっきりした安定した品質理論を実装している。
本研究は,複数の軸に沿った分布の特徴として,過酷さ・強度,寸法強調,内面安定(ICC),エビデンス行動(応答妥当性,NLIによる意味的結合,ショットガン指標)を挙げる。
LLM判事は共有構造を測定する交換可能な機器ではない。
これらは異なる測定装置であり、それぞれが独自の暗黙的な品質理論を符号化している。
スコアを平均化すると、裁判官の実際の値に該当しない合成判定が生成される。
関連論文リスト
- C2-Faith: Benchmarking LLM Judges for Causal and Coverage Faithfulness in Chain-of-Thought Reasoning [0.6138671548064355]
大型言語モデル (LLMs) は、チェーン・オブ・ソート (CoT) 推論の判断としてますます使われている。
C2-Faithは、因果性(各ステップは以前の文脈から論理的に従うのか?
二つの因果検出,因果ステップの定位,カバレッジスコアの3つの課題において,フロンティア判事の評価を行った。
論文 参考訳(メタデータ) (2026-03-05T13:36:47Z) - Reference-Free Rating of LLM Responses via Latent Information [53.463883683503106]
本研究では,判断モデルに対して,自由テキスト応答にQuattスケールのスコアを割り当てるよう依頼する一般的な実践について検討する。
次に、内部モデル信号からスカラー評価を導出する潜在裁判官を提案し、評価する。
ペアとシングルレーティングのベンチマークの幅広いスイートの中で、潜在メソッドは標準のプロンプトにマッチするか、超えている。
論文 参考訳(メタデータ) (2025-09-29T12:15:52Z) - TrustJudge: Inconsistencies of LLM-as-a-Judge and How to Alleviate Them [58.04324690859212]
自動評価器(LLM-as-a-judge)としての大規模言語モデル(LLM)は、現在の評価フレームワークにおいて重大な矛盾を明らかにしている。
スコア比較不整合とペアワイズ・トランジティビティ不整合という2つの基本的不整合を同定する。
我々は2つの重要なイノベーションを通じてこれらの制限に対処する確率的フレームワークであるTrustJudgeを提案する。
論文 参考訳(メタデータ) (2025-09-25T13:04:29Z) - When Judgment Becomes Noise: How Design Failures in LLM Judge Benchmarks Silently Undermine Validity [21.192000569821943]
我々は、厳密な目標と検証可能な構成がなければ、ベンチマークのランキングは、ほぼノイズの多い高信頼度ランキングを生成することができると論じる。
本稿では,Arena-Hard Autoが使用するELOスタイルのアグリゲーションが崩壊し,真のランキングの不確かさをマスクすることを示す。
我々の結果は、妥当性を損なう設計上の失敗を強調し、より良いスコープで信頼性に配慮したベンチマークを構築するための実用的な原則を提供する。
論文 参考訳(メタデータ) (2025-09-24T16:26:47Z) - UDA: Unsupervised Debiasing Alignment for Pair-wise LLM-as-a-Judge [23.497453639857852]
本研究では,エロ評価システムを動的に調整することで,不一致を解消する枠組みであるUDAを提案する。
UDAは、すべての裁判官のエロ軌道間の分散を最小限にすることを目的として、完全に教師なしの方法で運営されている。
実験の結果、UDA は Judge の標準偏差を 63.4% まで減少させ、人間の判断との平均的相関を 24.7% 向上させることがわかった。
論文 参考訳(メタデータ) (2025-08-13T11:41:01Z) - Evaluating Judges as Evaluators: The JETTS Benchmark of LLM-as-Judges as Test-Time Scaling Evaluators [66.83088028268318]
本稿では,テスト時間スケーリングベンチマークの判定評価について紹介する。
3つのタスク設定の下で、3つのドメイン(推論、コード生成、命令従)での判定性能を評価する。
我々のベンチマークは、審査員が再評価において結果報酬モデルと競合する一方で、ビームサーチにおけるプロセス報酬モデルよりも一貫して悪いことを示している。
論文 参考訳(メタデータ) (2025-04-21T17:33:23Z) - Validating LLM-as-a-Judge Systems under Rating Indeterminacy [65.137380612741]
評価の不確定性の下でLLM-as-a-judgeシステムを検証するための枠組みを提案する。
本研究では, 強制選択評価指示に応答する際の評価の不確定性を人間とLLMがどう解決するかの相違が, 偏見の検証に大きく寄与することを示した。
論文 参考訳(メタデータ) (2025-03-07T22:09:47Z) - Judging the Judges: Evaluating Alignment and Vulnerabilities in LLMs-as-Judges [6.609843448260634]
LLM-as-a-judgeパラダイムは,大規模言語モデルを評価するアプローチとして急速に普及している。
本稿では,人間間の合意が高いクリーンなシナリオに焦点を当てる。
我々は、複雑性や長さを早めるための感度や、寛大さへの傾向など、審査モデルの脆弱性を識別する。
論文 参考訳(メタデータ) (2024-06-18T13:49:54Z) - JudgeLM: Fine-tuned Large Language Models are Scalable Judges [48.053949045598344]
大規模言語モデル(LLM)をオープンなシナリオで評価することは、既存のベンチマークやメトリクスがそれらを包括的に測定できないため、難しい。
本稿では,拡張性のある審査員 (JudgeLM) としてLLMを微調整し,LLMを効率よく,かつ効率的に評価する手法を提案する。
我々は7B,13Bから33Bパラメータの異なるスケールでJiceLMを訓練し、その能力と振る舞いを体系的に分析する。
論文 参考訳(メタデータ) (2023-10-26T17:48:58Z) - Equality before the Law: Legal Judgment Consistency Analysis for
Fairness [55.91612739713396]
本論文では,LInCo(Legal Inconsistency Coefficient)の判定不整合性評価指標を提案する。
法的な判断予測(LJP)モデルを用いて異なる集団の裁判官をシミュレートし、異なる集団で訓練されたLJPモデルによる判断結果の不一致を判断する。
私達はLInCoを実際の場合の不一致を探検するために使用し、次の観察に来ます:(1)地域およびジェンダーの不一致は法制度でありますが、ジェンダーの不一致は地方不一致より大いにより少しです。
論文 参考訳(メタデータ) (2021-03-25T14:28:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。