論文の概要: Confidence Estimation in Automatic Short Answer Grading with LLMs
- arxiv url: http://arxiv.org/abs/2605.00200v1
- Date: Thu, 30 Apr 2026 20:26:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-04 17:43:28.742143
- Title: Confidence Estimation in Automatic Short Answer Grading with LLMs
- Title(参考訳): LLMを用いた自動短解像の信頼度推定
- Authors: Longwei Cong, Sonja Hahn, Sebastian Gombert, Leon Camus, Hendrik Drachsler, Ulf Kroehne,
- Abstract要約: 生成型大言語モデル(LLM)を用いた自動短解像(ASAG)は,タスク固有の微調整を伴わずに高い性能を示した。
LLMのグレーディングは依然として不完全であり、安全で効果的な人間とAIのコラボレーションには信頼性の高い信頼度推定が不可欠である。
本稿では,モデルに基づく信頼度信号とデータセット由来のアレータ的不確実性の明示的な推定を統合したハイブリッド信頼フレームワークを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automatic Short Answer Grading (ASAG) with generative large language models (LLMs) has recently demonstrated strong performance without task-specific fine-tuning, while also enabling the generation of synthetic feedback for educational assessment. Despite these advances, LLM-based grading remains imperfect, making reliable confidence estimates essential for safe and effective human-AI collaboration in educational decision-making. In this work, we investigate confidence estimation for ASAG with LLMs by jointly considering model-based confidence signals and dataset-derived uncertainty. We systematically compare three model-based confidence estimation strategies, namely verbalizing, latent, and consistency-based confidence estimation, and show that model-based confidence alone is insufficient to reliably capture uncertainty in ASAG. To address this limitation, we propose a hybrid confidence framework that integrates model-based confidence signals with an explicit estimate of dataset-derived aleatoric uncertainty. Aleatoric uncertainty is operationalized by clustering semantically embedded student responses and quantifying within-cluster heterogeneity. Our results demonstrate that the proposed hybrid confidence measure yields more reliable confidence estimates and improves selective grading performance compared to single-source approaches. Overall, this work advances confidence-aware LLM-based grading for human-in-the-loop assessment, supporting more trustworthy AI-assisted educational assessment systems.
- Abstract(参考訳): 生成型大規模言語モデル(LLM)を用いた自動短解像(ASAG)は,タスク固有の微調整を伴わずに高い性能を示しつつ,教育評価のための合成フィードバックの生成を可能にしている。
これらの進歩にもかかわらず、LLMに基づく格付けは依然として不完全であり、教育意思決定において安全かつ効果的な人間とAIのコラボレーションに不可欠な信頼度を推定する。
本研究では,モデルに基づく信頼信号とデータセット由来の不確かさを共同で検討し,LCMを用いたASAGの信頼度推定について検討する。
我々は,3つのモデルベース信頼度推定戦略,すなわち言語化,潜伏,一貫性に基づく信頼度推定を体系的に比較し,モデルベース信頼度だけではASAGの不確実性を確実に把握できないことを示す。
この制限に対処するため、モデルに基づく信頼信号とデータセット由来のアレタリック不確実性の明確な推定を統合したハイブリッド信頼フレームワークを提案する。
アレータリック不確実性は、意味的に埋め込まれた学生の反応をクラスタリングし、クラスタ内の不均一性を定量化する。
提案手法により,提案手法により信頼性が向上し,選択的な評価性能が向上することを示した。
全体として、この研究は、より信頼できるAI支援教育アセスメントシステムをサポートする、人間によるループアセスメントのための信頼性を意識したLCMベースのグレーディングを推進している。
関連論文リスト
- BrowseConf: Confidence-Guided Test-Time Scaling for Web Agents [58.05949210993854]
本研究では,長期にわたる行動の後,言語化された信頼度スコアを用いて,検索エージェントが自身の信頼を伝達できるかどうかを検討する。
本研究では,信頼度スコアを用いて回答の質を判断し,信頼度レベルに達するまで再度試すテスト時間スケーリング(TTS)手法を提案する。
論文 参考訳(メタデータ) (2025-10-27T15:58:51Z) - Mind the Generation Process: Fine-Grained Confidence Estimation During LLM Generation [63.49409574310576]
大規模言語モデル(LLM)は自信過剰を示し、信頼度の高いスコアを誤った予測に割り当てる。
本研究では,テキスト生成中に高精度できめ細かな信頼スコアを提供する信頼度推定手法であるFineCEを紹介する。
論文で使用されたコードとすべてのベースラインはGitHubで公開されている。
論文 参考訳(メタデータ) (2025-08-16T13:29:35Z) - Confidence Under the Hood: An Investigation into the Confidence-Probability Alignment in Large Language Models [14.5291643644017]
信頼性・確率アライメントの概念を紹介します。
モデルの内部と信頼感の一致を調査する。
分析したモデルのうち、OpenAIのGPT-4は信頼性と信頼性のアライメントが最強であった。
論文 参考訳(メタデータ) (2024-05-25T15:42:04Z) - When to Trust LLMs: Aligning Confidence with Response Quality [49.371218210305656]
我々はconfidence-Quality-ORDer保存アライメントアプローチ(CONQORD)を提案する。
品質報酬と秩序保存アライメント報酬機能を統合する。
実験により,CONQORDは信頼性と応答精度のアライメント性能を著しく向上することが示された。
論文 参考訳(メタデータ) (2024-04-26T09:42:46Z) - Think Twice Before Trusting: Self-Detection for Large Language Models through Comprehensive Answer Reflection [90.71323430635593]
本稿では, LLM生成解を超える包括的解答空間を考察した, 新たな自己検出パラダイムを提案する。
このパラダイムに基づいて、2段階のフレームワークを導入し、まずまずLLMに各候補の回答を反映し、正当化するように指示する。
このフレームワークは、優れた自己検出のための既存のアプローチとシームレスに統合できる。
論文 参考訳(メタデータ) (2024-03-15T02:38:26Z) - An evaluation of word-level confidence estimation for end-to-end
automatic speech recognition [70.61280174637913]
エンドツーエンド自動音声認識(ASR)における信頼度推定の検討
4つのよく知られた音声データセットにおける信頼度手法の広範なベンチマークを提供する。
以上の結果から,ロジットを学習温度でスケーリングすることで,強いベースラインが得られることが示唆された。
論文 参考訳(メタデータ) (2021-01-14T09:51:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。