論文の概要: Who can we trust? LLM-as-a-jury for Comparative Assessment
- arxiv url: http://arxiv.org/abs/2602.16610v1
- Date: Wed, 18 Feb 2026 17:04:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-19 15:58:30.660938
- Title: Who can we trust? LLM-as-a-jury for Comparative Assessment
- Title(参考訳): LLM-as-a-jury for Comparison Assessment(LCM-as-a-jury)
- Authors: Mengjie Qian, Guangzhi Sun, Mark J. F. Gales, Kate M. Knill,
- Abstract要約: 大規模言語モデル(LLM)は、自然言語生成評価のための自動評価器として、ますます採用されている。
LLMの判断はタスクや側面によって大きく異なるが、その判断確率は偏りがあり矛盾する可能性がある。
我々は,各審査員がアイテムランキングを共同で推定し,ペア比較だけで信頼性を判断する識別パラメータを導入する,Bradley-Terryモデルの拡張であるBT-sigmaを提案する。
- 参考スコア(独自算出の注目度): 42.32900791516691
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) are increasingly applied as automatic evaluators for natural language generation assessment often using pairwise comparative judgements. Existing approaches typically rely on single judges or aggregate multiple judges assuming equal reliability. In practice, LLM judges vary substantially in performance across tasks and aspects, and their judgment probabilities may be biased and inconsistent. Furthermore, human-labelled supervision for judge calibration may be unavailable. We first empirically demonstrate that inconsistencies in LLM comparison probabilities exist and show that it limits the effectiveness of direct probability-based ranking. To address this, we study the LLM-as-a-jury setting and propose BT-sigma, a judge-aware extension of the Bradley-Terry model that introduces a discriminator parameter for each judge to jointly infer item rankings and judge reliability from pairwise comparisons alone. Experiments on benchmark NLG evaluation datasets show that BT-sigma consistently outperforms averaging-based aggregation methods, and that the learned discriminator strongly correlates with independent measures of the cycle consistency of LLM judgments. Further analysis reveals that BT-sigma can be interpreted as an unsupervised calibration mechanism that improves aggregation by modelling judge reliability.
- Abstract(参考訳): 大規模言語モデル(LLM)は、ペア比較判定を用いた自然言語生成評価のための自動評価器として、ますます採用されている。
既存のアプローチは通常、同一の信頼性を仮定して、単一の審査員または複数の審査員を集約する。
実際には、LCMの判断はタスクや側面によって性能が大きく異なり、その判断確率は偏りがあり、矛盾する可能性がある。
さらに、審査校正のための人為的な監督は利用できないかもしれない。
まず、LLM比較確率の不整合の存在を実証し、直接確率に基づくランキングの有効性を制限していることを示す。
そこで本研究では,LLM-as-a-jury設定について検討し,各審査員がアイテムランキングを共同で推定し,ペア比較のみから信頼性を判断する識別器パラメータを導入するBradley-Terryモデルの拡張であるBT-sigmaを提案する。
NLG評価データセットのベンチマーク実験により,BT-シグマは平均的集約法より一貫して優れており,学習した判別器はLCM判定の周期整合性の独立度尺度と強く相関していることがわかった。
さらに分析した結果,BT-シグマは判断信頼性をモデル化することにより,アグリゲーションを改善する非教師なしキャリブレーション機構として解釈できることがわかった。
関連論文リスト
- A Judge-Aware Ranking Framework for Evaluating Large Language Models without Ground Truth [4.9467757325435775]
大規模言語モデル(LLM)をオープンなタスクで評価することは、LLM-as-a-judgeパラダイムを通じてますます行われています。
すべての裁判官を平等に扱うことは、偏見のあるリーダーボードを生み出し、不確実性の推定を誤解させる可能性がある。
そこで本研究では,Bradley-Terry-Luceモデルを拡張し,判定固有の識別パラメータを導入することにより,判定対応のランキングフレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-29T15:01:28Z) - JudgeBoard: Benchmarking and Enhancing Small Language Models for Reasoning Evaluation [13.831735556002426]
小型言語モデル(SLM)は様々な推論タスクを約束している。
解答の正しさを判断する能力は、大言語モデル(LLM)と比較しても明らかでない。
論文 参考訳(メタデータ) (2025-11-20T01:14:39Z) - Reference-Free Rating of LLM Responses via Latent Information [53.463883683503106]
本研究では,判断モデルに対して,自由テキスト応答にQuattスケールのスコアを割り当てるよう依頼する一般的な実践について検討する。
次に、内部モデル信号からスカラー評価を導出する潜在裁判官を提案し、評価する。
ペアとシングルレーティングのベンチマークの幅広いスイートの中で、潜在メソッドは標準のプロンプトにマッチするか、超えている。
論文 参考訳(メタデータ) (2025-09-29T12:15:52Z) - TrustJudge: Inconsistencies of LLM-as-a-Judge and How to Alleviate Them [58.04324690859212]
自動評価器(LLM-as-a-judge)としての大規模言語モデル(LLM)は、現在の評価フレームワークにおいて重大な矛盾を明らかにしている。
スコア比較不整合とペアワイズ・トランジティビティ不整合という2つの基本的不整合を同定する。
我々は2つの重要なイノベーションを通じてこれらの制限に対処する確率的フレームワークであるTrustJudgeを提案する。
論文 参考訳(メタデータ) (2025-09-25T13:04:29Z) - Play Favorites: A Statistical Method to Measure Self-Bias in LLM-as-a-Judge [17.40713507922006]
大規模言語モデル(LLM)は、他の出力の迅速かつ信頼性の高い評価を提供する裁判官として機能する。
LLMは、自己バイアス(self-bias)として知られる、過度に好ましい評価を自身のアウトプットに体系的に割り当てる。
本稿では,自己バイアスを特定・推定できる仮定を明示的に定式化する統計的枠組みを提案する。
論文 参考訳(メタデータ) (2025-08-08T21:22:12Z) - Quantitative LLM Judges [60.773734899532336]
本研究では,既存のLLM審査員の評価スコアを,与えられた領域内の人間と一致させる定量的LLM審査員を提案する。
モデルは、その合理性とスコアを使用して、元の審査員のスコアを改善するために訓練される。
実験の結果, 定量的な判断は, ポストホックモデリングにより, 既存の判断の予測力を向上できることがわかった。
論文 参考訳(メタデータ) (2025-06-03T14:44:23Z) - Verdict: A Library for Scaling Judge-Time Compute [5.468405526095168]
Verdictは、自動評価器の精度、信頼性、解釈性を高めるために、判断時間計算をスケールするためのオープンソースのライブラリである。
評決は、マグニチュードの大きな微調整された審査員との競争を成し遂げる。
論文 参考訳(メタデータ) (2025-02-25T09:26:44Z) - Systematic Evaluation of LLM-as-a-Judge in LLM Alignment Tasks: Explainable Metrics and Diverse Prompt Templates [11.948519516797745]
LLM審査員の信頼性とアライメントを評価・比較・可視化するオープンソースフレームワークを開発した。
以上の結果から,LLM判定性能に対するプロンプトテンプレートの影響や,LLM判定器とヒト評価器の中間的なアライメントレベルに有意な影響が示唆された。
論文 参考訳(メタデータ) (2024-08-23T11:49:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。