論文の概要: When Can We Trust LLM Graders? Calibrating Confidence for Automated Assessment
- arxiv url: http://arxiv.org/abs/2603.29559v1
- Date: Tue, 31 Mar 2026 10:38:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-01 15:25:03.557136
- Title: When Can We Trust LLM Graders? Calibrating Confidence for Automated Assessment
- Title(参考訳): LLMグレーダを信頼できるのはいつか? 自動評価のための信頼性の校正
- Authors: Robinson Ferrer, Damla Turgut, Zhongzhou Chen, Shashank Sonkar,
- Abstract要約: 大規模言語モデル(LLM)は自動階調の保証を示すが、その出力は信頼できない。
これにより、信頼性の高い予測が自動的に処理され、不確実なケースが人間のレビューにフラグ付けされる選択的な自動化が可能になる。
- 参考スコア(独自算出の注目度): 1.896929753246251
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) show promise for automated grading, but their outputs can be unreliable. Rather than improving grading accuracy directly, we address a complementary problem: \textit{predicting when an LLM grader is likely to be correct}. This enables selective automation where high-confidence predictions are processed automatically while uncertain cases are flagged for human review. We compare three confidence estimation methods (self-reported confidence, self-consistency voting, and token probability) across seven LLMs of varying scale (4B to 120B parameters) on three educational datasets: RiceChem (long-answer chemistry), SciEntsBank, and Beetle (short-answer science). Our experiments reveal that self-reported confidence consistently achieves the best calibration across all conditions (avg ECE 0.166 vs 0.229 for self-consistency). Surprisingly, self-consistency remains 38\% worse despite requiring 5$\times$ the inference cost. Larger models exhibit substantially better calibration though gains vary by dataset and method (e.g., a 28\% ECE reduction for self-reported), with GPT-OSS-120B achieving the best calibration (avg ECE 0.100) and strong discrimination (avg AUC 0.668). We also observe that confidence is strongly top-skewed across methods, creating a ``confidence floor'' that practitioners must account for when setting thresholds. These findings suggest that simply asking LLMs to report their confidence provides a practical approach for identifying reliable grading predictions. Code is available \href{https://github.com/sonkar-lab/llm_grading_calibration}{here}.
- Abstract(参考訳): 大規模言語モデル(LLM)は自動階調の保証を示すが、その出力は信頼できない。
直接グルーピング精度を改善するのではなく、補完的な問題に対処する: \textit{predicting if a LLM grader is correct}。
これにより、信頼性の高い予測が自動的に処理され、不確実なケースが人間のレビューにフラグ付けされる選択的な自動化が可能になる。
本研究では,LiceChem(ロング・アンサー・ケミカル),SciEntsBank(ショート・アンサー・サイエンス),Beetle(ショート・アンサー・サイエンス)の3つの教育データセットに対して,信頼度推定法(自己報告の信頼度,自己整合性投票,トークン確率)を比較した。
実験の結果, 自己申告された信頼度は, 自己整合性ではECE 0.166対0.229と, 全条件で常に最高の校正を達成できることがわかった。
驚くべきことに、推論コストが5$\timesであるにもかかわらず、自己整合性は38\%悪化している。
GPT-OSS-120Bは最高のキャリブレーション(ECE 0.100)と強い差別(AUC 0.668)を達成している。
また、信頼はメソッド間で強く結びついており、しきい値を設定する際に、実践者が考慮しなければならない‘信頼の床’を創出します。
これらの結果から,LCMに信頼度を報告させるだけで,信頼性の高いグレーディング予測を識別するための実践的なアプローチが得られることが示唆された。
コードは href{https://github.com/sonkar-lab/llm_grading_calibration}{here} で入手できる。
関連論文リスト
- CHiL(L)Grader: Calibrated Human-in-the-Loop Short-Answer Grading [1.5829605001132387]
そこで我々はCHiL(L)Graderを紹介した。CHiL(L)Graderは、調整された信頼度推定をループ内ワークフローに組み込んだ最初の自動グレーティングフレームワークである。
CHiL(L)Graderは、不確実なケースを人間のグレーダーにルーティングしながら、信頼性の高い予測のみを自動化する。
受理予測と棄却予測の間の0.347のQWKギャップは、信頼に基づくルーティングの有効性を確認する。
論文 参考訳(メタデータ) (2026-03-12T14:04:58Z) - Annotation-Efficient Universal Honesty Alignment [70.05453324928955]
既存の手法では、トレーニングなしの信頼度推定や、正当性アノテーションによるトレーニングベースキャリブレーションに頼っている。
Elicitation-Then-Calibration (EliCal) は、まず安価な自己整合性監視を用いて内部信頼を引き出す2段階のフレームワークである。
EliCalは1kの正当性アノテーション(全監督の0.18%)でほぼ最適アライメントを実現し、キャリブレーションのみのベースラインよりも目立たないMMLUタスクでのアライメント性能が向上した。
論文 参考訳(メタデータ) (2025-10-20T13:05:22Z) - Judging with Confidence: Calibrating Autoraters to Preference Distributions [56.17041629492863]
信頼性の高いオートラッターは、対象の個体群によって定義される嗜好の完全な分布をモデル化することを学ぶ必要がある、と我々は主張する。
異なるデータ条件に合わせた2つの学習方法を提案する。
この結果から, 分布マッチング目的の微調整オートレーダは, 目的の好み分布に整合した有言確率予測を導出することがわかった。
論文 参考訳(メタデータ) (2025-09-30T20:36:41Z) - ConfTuner: Training Large Language Models to Express Their Confidence Verbally [58.63318088243125]
大規模言語モデル(LLM)は、科学、法律、医療といった高度な領域にますます展開されている。
LLMは、しばしば「過信」(overconfidence)として知られる、高い信頼で誤った答えを生成するために観察される。
論文 参考訳(メタデータ) (2025-08-26T09:25:32Z) - The Confidence Paradox: Can LLM Know When It's Wrong [5.445980143646736]
Document Visual Question Answering (DocVQA)モデルは、しばしば過信または倫理的に不一致な応答を生成する。
重み付き損失とコントラスト学習を用いてモデルの信頼度と正しさを一致させるモデルに依存しない自己教師型フレームワークであるHonestVQAを提案する。
論文 参考訳(メタデータ) (2025-06-30T02:06:54Z) - Your Pre-trained LLM is Secretly an Unsupervised Confidence Calibrator [20.81467363927836]
ポストトレーニングされた言語モデル(PoLM)は、しばしば過剰な自信に悩まされ、正しい出力と間違った出力の両方に高い信頼を割り当てる。
PoLMの校正における大きな障害は、個々の下流タスクのためのラベル付きデータの不足である。
本稿では,時間後信頼度校正におけるパラメータを最適化するために,DACA(Disagreement-Aware Confidence Alignment)を提案する。
論文 参考訳(メタデータ) (2025-05-22T13:55:39Z) - LACIE: Listener-Aware Finetuning for Confidence Calibration in Large Language Models [69.68379406317682]
暗黙的および明示的な信頼マーカーを校正するリスナー対応微調整法 (LACIE) を提案する。
我々は,LACIEがリスナーをモデル化し,回答が正しいかどうかだけでなく,リスナーに受け入れられるかどうかを考察する。
LACIEによるトレーニングの結果、正しい回答の受け入れレベルを維持しながら、誤った回答が受け入れられる割合が47%減少することがわかった。
論文 参考訳(メタデータ) (2024-05-31T17:16:38Z) - Pearls from Pebbles: Improved Confidence Functions for Auto-labeling [51.44986105969375]
しきい値に基づく自動ラベル付け(TBAL)は、上記のモデルの信頼度スコアのしきい値を見つけ、ラベルなしのデータポイントを正確にラベル付けすることで機能する。
本稿では,近位TBAL信頼度関数の研究のための枠組みを提案する。
本稿では,TBALシステムの性能を最大化するポストホック法を提案する。
論文 参考訳(メタデータ) (2024-04-24T20:22:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。