論文の概要: Do Small Language Models Know When They're Wrong? Confidence-Based Cascade Scoring for Educational Assessment
- arxiv url: http://arxiv.org/abs/2604.19781v1
- Date: Sun, 29 Mar 2026 20:28:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-04 02:32:14.072562
- Title: Do Small Language Models Know When They're Wrong? Confidence-Based Cascade Scoring for Educational Assessment
- Title(参考訳): 小言語モデルは、いつ間違っているかを知っているか? 信頼に基づく教育評価のためのカスケード・スコアリング
- Authors: Tyler Burleigh,
- Abstract要約: 学生の仕事の大規模評価を自動化するには、コストとレイテンシに対する正確さのバランスが必要だ。
カスケード」システムでは、小さな言語モデル(LM)はより簡単なスコアリングタスクを処理し、より難しいタスクをより大きなLMにエスカレートする。
GPT-5.4, Claude 4.5+, Gemini 3.1 モデルペアを用いたカスケードシステムの評価を行った。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automated scoring of student work at scale requires balancing accuracy against cost and latency. In "cascade" systems, small language models (LMs) handle easier scoring tasks while escalating harder ones to larger LMs -- but the challenge is determining which cases to escalate. We explore verbalized confidence -- asking the LM to state a numerical confidence alongside its prediction -- as a routing signal. Using 2,100 expert-scored decisions from student-AI math conversations, we evaluate cascade systems built from GPT-5.4, Claude 4.5+, and Gemini 3.1 model pairs. We find that: (1) confidence discrimination varies widely across small LMs, with the best achieving AUROC 0.857 and the worst producing a near-degenerate confidence distribution; (2) confidence tracks human scoring difficulty, with lower LM confidence where annotators disagreed and took longer to score; (3) the best cascade approached large-LM accuracy (kappa 0.802 vs. 0.819) at 76% lower cost and 61% lower latency. Confidence discrimination is the bottleneck: the two small LMs with meaningful confidence variance yielded cascades with no statistically detectable kappa loss, while the third -- whose confidence was near-degenerate -- could not close the accuracy gap regardless of threshold. Small LMs with strong discrimination let practitioners trade cost for accuracy along the frontier; those without it do not.
- Abstract(参考訳): 学生の仕事の大規模評価を自動化するには、コストとレイテンシに対する正確さのバランスが必要だ。
カスケード(cascade)システムでは、小さな言語モデル(LM)が、より難しいタスクをエスカレートしながら、より簡単なスコアリングタスクを処理します。しかし課題は、どのケースをエスカレートするかを決定することです。
GPT-5.4, Claude 4.5+, Gemini 3.1 モデルペアで構築したカスケードシステムの評価を行った。
その結果,(1) AUROC 0.857を最良に達成し,最悪の信頼性分布を生み出す,(2) AUROC 0.857を最良とする,(2) AUROC 0.857を最良に生成する,(2)アノテータが不一致で得点に時間が掛かる,低いLMの信頼性を示す,(3) 最高のカスケードは76%の低コストで,かつ61%のレイテンシで,大容量のLM精度(Kappa 0.802 vs. 0.819)に近づいた,という結果を得た。
統計的に検出可能なカッパ損失を伴わないカスケードを有意な信頼性のばらつきを持つ2つの小さなLMと、ほぼ退縮した第3のLMは、しきい値に関係なく精度のギャップを埋めることができなかった。
差別の強い小さなLMでは、実践者がフロンティアに沿って正確さで取引する。
関連論文リスト
- Distilling Self-Consistency into Verbal Confidence: A Pre-Registered Negative Result and Post-Hoc Rescue on Gemma 3 4B [0.0]
インストラクトチューニングされた小さなLLMは、最小の誘引の下で変性した言語的信頼を生み出す。
自信条件付き教師付き微調整と自己整合性に基づく目標が内部情報と音声読取のギャップを埋めるかどうかを検証した。
論文 参考訳(メタデータ) (2026-04-27T05:53:26Z) - When Can We Trust LLM Graders? Calibrating Confidence for Automated Assessment [1.896929753246251]
大規模言語モデル(LLM)は自動階調の保証を示すが、その出力は信頼できない。
これにより、信頼性の高い予測が自動的に処理され、不確実なケースが人間のレビューにフラグ付けされる選択的な自動化が可能になる。
論文 参考訳(メタデータ) (2026-03-31T10:38:22Z) - Know When You're Wrong: Aligning Confidence with Correctness for LLM Error Detection [0.0]
大規模言語モデル(LLM)は、ますます重要な意思決定システムにデプロイされている。
出力アンカートークン確率に基づく正規化信頼スコアを導入する。
これにより、最小限のオーバーヘッドでエラーや幻覚を直接検出できる。
論文 参考訳(メタデータ) (2026-02-18T07:05:12Z) - Does Inference Scaling Improve Reasoning Faithfulness? A Multi-Model Analysis of Self-Consistency Tradeoffs [0.0]
自己整合性は、推論タスクにおける大きな言語モデルの精度を改善するための一般的な手法として現れてきた。
推論スケーリングは信頼の推論を改善するのか?
我々は、100 GSM8Kの数学的推論問題に対して、4つのフロンティアモデル(GPT-5.2、Claude Opus 4.5、Gemini-3-flash-preview、DeepSeek-v3.2)にわたる総合的な実証的研究を行った。
論文 参考訳(メタデータ) (2026-01-10T04:20:00Z) - Sample Smart, Not Hard: Correctness-First Decoding for Better Reasoning in LLMs [72.82403830490084]
我々は、復号規則は正確さによって校正されるべきであり、自信だけではならないと論じている。
Greedy-Threshold はこの目標を達成するための単純な戦略を提案します。
この結果から,不確実性の下での復号化が問題視され,数学や一般推論のベンチマークで有意な差がみられた。
論文 参考訳(メタデータ) (2025-10-07T14:46:12Z) - Can Large Language Models Express Uncertainty Like Human? [71.27418419522884]
我々は,人間に注釈を付けた信頼スコアを持つヘッジ式の最初の多種多様な大規模データセットをリリースする。
現代大言語モデルにまたがる言語信頼に関する最初の体系的研究を行う。
論文 参考訳(メタデータ) (2025-09-29T02:34:30Z) - ConfTuner: Training Large Language Models to Express Their Confidence Verbally [58.63318088243125]
大規模言語モデル(LLM)は、科学、法律、医療といった高度な領域にますます展開されている。
LLMは、しばしば「過信」(overconfidence)として知られる、高い信頼で誤った答えを生成するために観察される。
論文 参考訳(メタデータ) (2025-08-26T09:25:32Z) - Uncertainty in Language Models: Assessment through Rank-Calibration [65.10149293133846]
言語モデル(LM)は、自然言語生成において有望な性能を示している。
与えられた入力に応答する際の不確実性を正確に定量化することは重要である。
我々は、LMの確実性と信頼性を評価するために、Rank$-$Calibration$と呼ばれる斬新で実用的なフレームワークを開発する。
論文 参考訳(メタデータ) (2024-04-04T02:31:05Z) - Adversarial Training with Rectified Rejection [114.83821848791206]
本稿では,信頼度(T-Con)を確実性オラクルとして利用し,信頼度を補正してT-Conを予測することを提案する。
軽度の条件下では、正当性(R-Con)拒絶器と信頼性(R-Con)拒絶器を結合して、不正に分類された入力と正しく分類された入力を区別できることを示す。
論文 参考訳(メタデータ) (2021-05-31T08:24:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。