論文の概要: Confident Rankings with Fewer Items: Adaptive LLM Evaluation with Continuous Scores
- arxiv url: http://arxiv.org/abs/2601.13885v1
- Date: Tue, 20 Jan 2026 11:59:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:23.296162
- Title: Confident Rankings with Fewer Items: Adaptive LLM Evaluation with Continuous Scores
- Title(参考訳): 低い項目による信頼度ランキング:連続スコアを用いた適応LLM評価
- Authors: Esma Balkır, Alice Pernthaller, Marco Basaldella, José Hernández-Orallo, Nigel Collier,
- Abstract要約: IRTベースの適応テストの原則的拡張を連続有界スコア(ROUGE, BLEU, LLM-as-a-Judge)に適用する。
本稿では,信頼性の高いモデルランキングを実現するための適応的停止基準付き不確実性意識ランクアを導入し,できるだけ少数の項目をテストする。
提案手法では,各項目の2%をランダムサンプリングよりも格付け相関を0.12改善し,95%の精度で信頼度予測を行う。
- 参考スコア(独自算出の注目度): 25.638175689769934
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Computerized Adaptive Testing (CAT) has proven effective for efficient LLM evaluation on multiple-choice benchmarks, but modern LLM evaluation increasingly relies on generation tasks where outputs are scored continuously rather than marked correct/incorrect. We present a principled extension of IRT-based adaptive testing to continuous bounded scores (ROUGE, BLEU, LLM-as-a-Judge) by replacing the Bernoulli response distribution with a heteroskedastic normal distribution. Building on this, we introduce an uncertainty aware ranker with adaptive stopping criteria that achieves reliable model ranking while testing as few items and as cheaply as possible. We validate our method on five benchmarks spanning n-gram-based, embedding-based, and LLM-as-judge metrics. Our method uses 2% of the items while improving ranking correlation by 0.12 τ over random sampling, with 95% accuracy on confident predictions.
- Abstract(参考訳): CAT(Computerized Adaptive Testing)は、マルチ選択ベンチマーク上での効率的なLCM評価に有効であることが証明されているが、現代のLCM評価は、マークされた正誤ではなく、出力を連続的にスコアする生成タスクに依存している。
本稿では,Bernolli応答分布をヘテロスケダティック正規分布に置き換えることで,IRTベースの適応テストを連続有界スコア(ROUGE,BLEU,LLM-as-a-Judge)に拡張する。
これに基づいて,適応的停止基準付き不確実性意識ランクアを導入し,信頼性の高いモデルランキングを実現するとともに,少数の項目を可能な限り安価にテストする。
本手法は, n-gram-based, Embedding-based, LLM-as-judge の5つのベンチマークで検証した。
提案手法では,各項目の2%をランダムサンプリングによるランキング相関を0.12 τ改善し,95%の精度で信頼度予測を行う。
関連論文リスト
- How to Correctly Report LLM-as-a-Judge Evaluations [13.389479132464778]
大型言語モデル (LLM) は、人間の代わりに評価器として使われることが多い。
拡張性はあるものの、LLMの不完全特異性と感度のため、その判断はうるさい。
この研究は、そのようなバイアスを補正し、テストデータセットとキャリブレーションデータセットの両方の不確かさを反映した信頼区間を構築する、シンプルなプラグインフレームワークを示す。
論文 参考訳(メタデータ) (2025-11-26T07:46:46Z) - Reference-Free Rating of LLM Responses via Latent Information [53.463883683503106]
本研究では,判断モデルに対して,自由テキスト応答にQuattスケールのスコアを割り当てるよう依頼する一般的な実践について検討する。
次に、内部モデル信号からスカラー評価を導出する潜在裁判官を提案し、評価する。
ペアとシングルレーティングのベンチマークの幅広いスイートの中で、潜在メソッドは標準のプロンプトにマッチするか、超えている。
論文 参考訳(メタデータ) (2025-09-29T12:15:52Z) - Towards Reproducible LLM Evaluation: Quantifying Uncertainty in LLM Benchmark Scores [2.886479348067378]
我々は、大きな言語モデルの能力をテストするために設計されたベンチマークを使用して、基準方向を推論する。
本稿では,ベンチマークスコアの不確かさを定量的に定量化するための簡易な手法を提案する。
論文 参考訳(メタデータ) (2024-10-04T15:04:28Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - Regression-aware Inference with LLMs [52.764328080398805]
提案手法は,一般的な回帰と評価指標に準最適であることを示す。
本稿では,ベイズ最適解を推定し,サンプル応答からクローズド形式の評価指標を推定する代替推論手法を提案する。
論文 参考訳(メタデータ) (2024-03-07T03:24:34Z) - Self-Evaluation Improves Selective Generation in Large Language Models [54.003992911447696]
オープンエンド生成タスクをトークンレベルの予測タスクに再構成する。
我々はLSMに答えを自己評価するように指示する。
自己評価に基づくスコアリング手法をベンチマークする。
論文 参考訳(メタデータ) (2023-12-14T19:09:22Z) - LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond [135.8013388183257]
そこで我々は,SummEditsと呼ばれる10ドメインのベンチマークで不整合検出ベンチマークを作成し,実装する新しいプロトコルを提案する。
ほとんどのLLMはSummEditsで苦労しており、パフォーマンスはランダムに近い。
最も優れたモデルであるGPT-4は、推定された人間のパフォーマンスよりも8%低い。
論文 参考訳(メタデータ) (2023-05-23T21:50:06Z) - Let's Sample Step by Step: Adaptive-Consistency for Efficient Reasoning
and Coding with LLMs [60.58434523646137]
大規模言語モデル(LLM)からの出力の正確性を改善するための一般的なアプローチは、自己整合性である。
コスト効率のよいモデルに依存しない手法であるAdaptive-Consistencyを導入し,各質問のサンプル数を動的に調整する。
実験の結果,Adaptive-Consistencyはサンプル予算を最大7.9倍に削減し,平均精度は0.1%以下であった。
論文 参考訳(メタデータ) (2023-05-19T17:49:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。