論文の概要: Balanced Accuracy: The Right Metric for Evaluating LLM Judges - Explained through Youden's J statistic
- arxiv url: http://arxiv.org/abs/2512.08121v1
- Date: Mon, 08 Dec 2025 23:58:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-10 22:28:07.758666
- Title: Balanced Accuracy: The Right Metric for Evaluating LLM Judges - Explained through Youden's J statistic
- Title(参考訳): バランスの取れた正確性: LLM審査員を評価するための正しい基準 - YoudenのJ統計を通して
- Authors: Stephane Collot, Colin Fraser, Justin Zhao, William F. Shen, Timon Willi, Ilias Leontiadis,
- Abstract要約: 大規模言語モデルの厳密な評価は、望ましい行動や望ましくない行動の頻度によるモデルの比較に依存する。
この選択に使用される一般的なメトリクス、例えば、精度、精度、F1は、クラス不均衡や正のクラスの任意の選択に敏感である。
平衡精度は$J$の等価線型変換であり、より良く、より堅牢な分類器選択をもたらすことを示す。
- 参考スコア(独自算出の注目度): 4.271443100949229
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Rigorous evaluation of large language models (LLMs) relies on comparing models by the prevalence of desirable or undesirable behaviors, such as task pass rates or policy violations. These prevalence estimates are produced by a classifier, either an LLM-as-a-judge or human annotators, making the choice of classifier central to trustworthy evaluation. Common metrics used for this choice, such as Accuracy, Precision, and F1, are sensitive to class imbalance and to arbitrary choices of positive class, and can favor judges that distort prevalence estimates. We show that Youden's $J$ statistic is theoretically aligned with choosing the best judge to compare models, and that Balanced Accuracy is an equivalent linear transformation of $J$. Through both analytical arguments and empirical examples and simulations, we demonstrate how selecting judges using Balanced Accuracy leads to better, more robust classifier selection.
- Abstract(参考訳): 大規模言語モデル(LLM)の厳密な評価は、タスクパス率やポリシー違反といった望ましい行動や望ましくない行動の頻度によるモデルの比較に依存する。
これらの有病率推定は LLM-as-a-judge または human annotator のいずれかの分類器によって生成され、分類器の選択は信頼に値する評価の中心となる。
この選択に使用される一般的な指標、例えば、精度、精度、F1は、クラス不均衡や正のクラスの任意の選択に敏感であり、有病率推定を歪める判断を好むことができる。
We show that that Youden's $J$ statistic is to choose the best judge to compare model, and that Balanced Accuracy is a equivalent linear transformation of $J$。
解析的議論と経験的事例とシミュレーションの両方を通して、バランスの取れた精度を用いた審査員の選択がより良く、より堅牢な分類器の選択にどのように寄与するかを実証する。
関連論文リスト
- IF-RewardBench: Benchmarking Judge Models for Instruction-Following Evaluation [85.56193980646981]
命令追従のための総合的メタ評価ベンチマークであるIF-RewardBenchを提案する。
各命令に対して、複数の応答間の全てのペアの選好を含む選好グラフを構築する。
IF-RewardBenchの実験は、現在の審査モデルに重大な欠陥を呈している。
論文 参考訳(メタデータ) (2026-03-05T02:21:17Z) - CyclicJudge: Mitigating Judge Bias Efficiently in LLM-based Evaluation [6.3121191919394475]
この研究は、ベンチマークスコアの分散をシナリオ、生成、判断、残留コンポーネントに分割する分散分解を導入する。
この分析に基づいて、審査員のラウンドロビン割り当てであるCyclicJudgeが最適なアロケーション戦略であることが示されている。
論文 参考訳(メタデータ) (2026-03-02T13:46:32Z) - Who can we trust? LLM-as-a-jury for Comparative Assessment [42.32900791516691]
大規模言語モデル(LLM)は、自然言語生成評価のための自動評価器として、ますます採用されている。
LLMの判断はタスクや側面によって大きく異なるが、その判断確率は偏りがあり矛盾する可能性がある。
我々は,各審査員がアイテムランキングを共同で推定し,ペア比較だけで信頼性を判断する識別パラメータを導入する,Bradley-Terryモデルの拡張であるBT-sigmaを提案する。
論文 参考訳(メタデータ) (2026-02-18T17:04:02Z) - Efficient Inference for Noisy LLM-as-a-Judge Evaluation [8.2511120576505]
大規模言語モデル(LLM)は、生成的AI出力の自動評価器としてますます使われている。
実際には、LLMの判断は根底にある真実の完全な予測であり、体系的な非ランダムな誤りを示すことができる。
論文 参考訳(メタデータ) (2026-01-08T22:46:26Z) - Reference-Free Rating of LLM Responses via Latent Information [53.463883683503106]
本研究では,判断モデルに対して,自由テキスト応答にQuattスケールのスコアを割り当てるよう依頼する一般的な実践について検討する。
次に、内部モデル信号からスカラー評価を導出する潜在裁判官を提案し、評価する。
ペアとシングルレーティングのベンチマークの幅広いスイートの中で、潜在メソッドは標準のプロンプトにマッチするか、超えている。
論文 参考訳(メタデータ) (2025-09-29T12:15:52Z) - EigenBench: A Comparative Behavioral Measure of Value Alignment [0.28707625120094377]
EigenBenchは、言語モデルの値をベンチマークするためのブラックボックスメソッドである。
合理的な判断者が正しいラベルに同意できない主観的な特性を定量化するように設計されている。
GPQAベンチマークのモデルランキングを、客観的ラベルにアクセスすることなく復元することができる。
論文 参考訳(メタデータ) (2025-09-02T04:14:26Z) - Quantitative LLM Judges [60.773734899532336]
本研究では,既存のLLM審査員の評価スコアを,与えられた領域内の人間と一致させる定量的LLM審査員を提案する。
モデルは、その合理性とスコアを使用して、元の審査員のスコアを改善するために訓練される。
実験の結果, 定量的な判断は, ポストホックモデリングにより, 既存の判断の予測力を向上できることがわかった。
論文 参考訳(メタデータ) (2025-06-03T14:44:23Z) - Pairwise or Pointwise? Evaluating Feedback Protocols for Bias in LLM-Based Evaluation [57.380464382910375]
評価のためのフィードバックプロトコルの選択は,評価信頼性に大きく影響し,系統的なバイアスを生じさせることを示す。
ジェネレータモデルは、気を散らす機能を埋め込むことで好みをひっくり返すことができる。
我々は,データセットの特徴と評価目標に基づくフィードバックプロトコルの選択を推奨する。
論文 参考訳(メタデータ) (2025-04-20T19:05:59Z) - CalibraEval: Calibrating Prediction Distribution to Mitigate Selection Bias in LLMs-as-Judges [21.580762639442913]
推論中に選択バイアスを緩和する新しいラベルフリー手法であるCalibraEvalを紹介する。
CalibraEvalは、バイアスのない予測分布に合わせて観測された予測分布を調整するための最適化タスクとしてデバイアスを再構成する。
本稿では,CalibraEvalが選択バイアスを効果的に軽減し,既存のデバイアス法と比較して性能を向上させることを示す。
論文 参考訳(メタデータ) (2024-10-20T13:47:39Z) - Self-rationalization improves LLM as a fine-grained judge [21.917301609125417]
本稿では,判断モデルの合理性を改善する反復的プロセスである自己帰納化を導入する。
自己合理化は、モデルが同じ入力に対して合理性を持つ複数の判断を生成させることで機能する。
我々のモデルは、SFTで訓練されたモデルと比較して平均62%の利益率で、より高い品質の合理性を生み出すことを学習している。
論文 参考訳(メタデータ) (2024-10-07T21:05:53Z) - Direct Judgement Preference Optimization [79.54459973726405]
我々は、他のモデルのアウトプットを評価し、批判するために、生成的判断として大きな言語モデル(LLM)を訓練する。
我々は,異なるユースケースに対する選好ペアの収集に3つのアプローチを採用し,それぞれが異なる視点から生成判断を改善することを目的としている。
提案モデルは,位置や長さの偏りなどの固有バイアスに強く対応し,実践者が指定した評価プロトコルに柔軟に適用し,下流ジェネレータモデルを改善する上で有用な言語フィードバックを提供する。
論文 参考訳(メタデータ) (2024-09-23T02:08:20Z) - Self-Evaluation Improves Selective Generation in Large Language Models [54.003992911447696]
オープンエンド生成タスクをトークンレベルの予測タスクに再構成する。
我々はLSMに答えを自己評価するように指示する。
自己評価に基づくスコアリング手法をベンチマークする。
論文 参考訳(メタデータ) (2023-12-14T19:09:22Z) - A Skew-Sensitive Evaluation Framework for Imbalanced Data Classification [11.125446871030734]
不均衡なデータセットのクラス分布スキューは、多数派クラスに対する予測バイアスのあるモデルにつながる可能性がある。
本稿では,不均衡なデータ分類のための簡易かつ汎用的な評価フレームワークを提案する。
論文 参考訳(メタデータ) (2020-10-12T19:47:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。