論文の概要: Judging LLMs on a Simplex
- arxiv url: http://arxiv.org/abs/2505.21972v1
- Date: Wed, 28 May 2025 04:50:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 17:35:50.418348
- Title: Judging LLMs on a Simplex
- Title(参考訳): LLMをシンプルに判断する
- Authors: Patrick Vossler, Fan Xia, Yifan Mai, Jean Feng,
- Abstract要約: 一般的な実践は、大言語モデル(LLM)自体を裁判官として使用することであるが、このアプローチの理論的性質はまだよく理解されていない。
判定と候補の両方を確率的単純度上の点として表現する幾何学的枠組みは,何であるか,何であるかを識別できないのか,有用な知見を提供することができる。
- 参考スコア(独自算出の注目度): 2.088672652658465
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automated evaluation of free-form outputs from large language models (LLMs) is challenging because many distinct answers can be equally valid. A common practice is to use LLMs themselves as judges, but the theoretical properties of this approach are not yet well understood. We show that a geometric framework that represents both judges and candidates as points on a probability simplex can provide helpful insight on what is or is not identifiable using LLM judges. Our theoretical analysis uncovers a "phase transition" in ranking identifiability: for binary scoring systems, true rankings are identifiable even with weak judges under mild assumptions, while rankings become non-identifiable for three or more scoring levels even with infinite data, absent additional prior knowledge. This non-identifiability highlights how uncertainty in rankings stems from not only aleatoric uncertainty (i.e., inherent stochasticity in the data) but also epistemic uncertainty regarding which assumptions hold, an aspect that has received limited attention until now. To integrate both types of uncertainty, we use Bayesian inference to encode assumptions as priors and conduct sensitivity analysis of ranking estimates and credible intervals. Empirical evaluations across multiple benchmarks demonstrate that Bayesian inference yields more accurate rankings and substantially improves coverage rates. These results underscore the importance of taking a more holistic approach to uncertainty quantification when using LLMs as judges.
- Abstract(参考訳): 大規模言語モデル(LLM)からの自由形式のアウトプットの自動評価は、多くの異なる回答が等しく有効であるので困難である。
LLM自体を裁判官として使用するのが一般的であるが、このアプローチの理論的性質はまだよく分かっていない。
確率的単純点の点として, 判定と候補の両方を表す幾何学的枠組みが, LLMの判定値を用いて何であるか, あるいは何であるかを判断する上で有用であることを示す。
連立スコアシステムでは、真のランキングは弱い判断者でも軽微な仮定で識別可能であり、一方、ランキングは無限のデータでも3つ以上のスコアレベルでは識別不能となり、追加の事前知識が欠如している。
この非識別性は、ランキングの不確実性が、アレタリックな不確実性(すなわちデータに固有の確率性)だけでなく、どの仮定がどの仮定を持つかに関するエピステマティックな不確実性から生じることを強調している。
両タイプの不確実性を統合するため,仮定を事前としてエンコードし,ランキング推定値と信頼区間の感度解析を行う。
複数のベンチマークに対する実証的な評価は、ベイズ推定がより正確なランキングをもたらし、カバレッジ率を大幅に改善することを示している。
これらの結果は、LCMを審査員として使用する場合、不確実性定量化に対してより包括的なアプローチをとることの重要性を浮き彫りにしている。
関連論文リスト
- Ethical AI on the Waitlist: Group Fairness Evaluation of LLM-Aided Organ Allocation [19.66750942418172]
オルガンアロケーションをケーススタディとして,(1)選択1と(2)ランクオールの2つのタスクを紹介した。
ランクオールでは、LLMは腎臓の全ての候補をランク付けし、実際の割り当てプロセスを反映している。
従来の公正度指標はランク付けを考慮しないため、バイアスを捉えるためにボルダスコアの新たな応用を提案する。
論文 参考訳(メタデータ) (2025-03-29T04:36:25Z) - PredictaBoard: Benchmarking LLM Score Predictability [50.47497036981544]
大きな言語モデル(LLM)は予測不能に失敗することが多い。
これは、安全なデプロイメントを保証する上で、大きな課題となる。
PredictaBoardは,新しいベンチマークフレームワークである。
論文 参考訳(メタデータ) (2025-02-20T10:52:38Z) - Confidence Diagram of Nonparametric Ranking for Uncertainty Assessment in Large Language Models Evaluation [20.022623972491733]
大きな言語モデル(LLM)のランク付けは、$N$のポリシーに基づいてアライメントを改善する効果的なツールであることが証明されている。
本稿では,言語モデルのランキングの中から仮説テストのための新しい推論フレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-07T02:34:30Z) - JudgeBench: A Benchmark for Evaluating LLM-based Judges [61.048125269475854]
judgeBenchは、知識、推論、数学、コーディングにまたがる挑戦的な応答ペアに関するLSMベースの判断を評価するためのベンチマークである。
審査員、微調整された審査員、マルチエージェントの審査員、報酬モデルに関する包括的な評価は、審査員ベンチが以前のベンチマークよりもかなり大きな課題を課していることを示している。
論文 参考訳(メタデータ) (2024-10-16T17:58:19Z) - Evaluating language models as risk scores [23.779329697527054]
質問応答 LLM を用いてリスクスコアを生成するソフトウェアパッケージである folktexts を紹介する。
提案した5つのベンチマークタスクにまたがって17の最近のLCMを評価した。
複数選択質問応答によるゼロショットリスクスコアは高い予測信号を持つが、広く誤校正されている。
論文 参考訳(メタデータ) (2024-07-19T18:13:37Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - Self-Evaluation Improves Selective Generation in Large Language Models [54.003992911447696]
オープンエンド生成タスクをトークンレベルの予測タスクに再構成する。
我々はLSMに答えを自己評価するように指示する。
自己評価に基づくスコアリング手法をベンチマークする。
論文 参考訳(メタデータ) (2023-12-14T19:09:22Z) - When Does Confidence-Based Cascade Deferral Suffice? [69.28314307469381]
カスケードは、推論コストをサンプル毎に適応的に変化させる古典的な戦略である。
deferralルールは、シーケンス内の次の分類子を呼び出すか、または予測を終了するかを決定する。
カスケードの構造に執着しているにもかかわらず、信頼に基づく推論は実際は極めてうまく機能することが多い。
論文 参考訳(メタデータ) (2023-07-06T04:13:57Z) - Evaluating AI systems under uncertain ground truth: a case study in dermatology [43.8328264420381]
不確実性を無視することは、モデル性能の過度に楽観的な推定につながることを示す。
皮膚状態の分類では,データセットの大部分が重大な真理不確実性を示すことが判明した。
論文 参考訳(メタデータ) (2023-07-05T10:33:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。