論文の概要: How Uncertain Is the Grade? A Benchmark of Uncertainty Metrics for LLM-Based Automatic Assessment
- arxiv url: http://arxiv.org/abs/2602.16039v1
- Date: Tue, 17 Feb 2026 21:46:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-19 15:58:30.447896
- Title: How Uncertain Is the Grade? A Benchmark of Uncertainty Metrics for LLM-Based Automatic Assessment
- Title(参考訳): グレードはどの程度不確かか? LLMによる自動評価のための不確かさ指標のベンチマーク
- Authors: Hang Li, Kaiqi Yang, Xianxuan Long, Fedor Filippov, Yucheng Chu, Yasemin Copur-Gencturk, Peng He, Cory Miller, Namsoo Shin, Joseph Krajcik, Hui Liu, Jiliang Tang,
- Abstract要約: 大規模言語モデル(LLM)の急速な普及は、教育における自動評価の展望を変えつつある。
アウトプットの不確実性は自動評価において不可能な課題である。
信頼性の低い、あるいは品質の低い不確実性推定は、下流での不安定な介入につながる可能性がある。
- 参考スコア(独自算出の注目度): 30.331175047465408
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid rise of large language models (LLMs) is reshaping the landscape of automatic assessment in education. While these systems demonstrate substantial advantages in adaptability to diverse question types and flexibility in output formats, they also introduce new challenges related to output uncertainty, stemming from the inherently probabilistic nature of LLMs. Output uncertainty is an inescapable challenge in automatic assessment, as assessment results often play a critical role in informing subsequent pedagogical actions, such as providing feedback to students or guiding instructional decisions. Unreliable or poorly calibrated uncertainty estimates can lead to unstable downstream interventions, potentially disrupting students' learning processes and resulting in unintended negative consequences. To systematically understand this challenge and inform future research, we benchmark a broad range of uncertainty quantification methods in the context of LLM-based automatic assessment. Although the effectiveness of these methods has been demonstrated in many tasks across other domains, their applicability and reliability in educational settings, particularly for automatic grading, remain underexplored. Through comprehensive analyses of uncertainty behaviors across multiple assessment datasets, LLM families, and generation control settings, we characterize the uncertainty patterns exhibited by LLMs in grading scenarios. Based on these findings, we evaluate the strengths and limitations of different uncertainty metrics and analyze the influence of key factors, including model families, assessment tasks, and decoding strategies, on uncertainty estimates. Our study provides actionable insights into the characteristics of uncertainty in LLM-based automatic assessment and lays the groundwork for developing more reliable and effective uncertainty-aware grading systems in the future.
- Abstract(参考訳): 大規模言語モデル(LLM)の急速な普及は、教育における自動評価の展望を変えつつある。
これらのシステムは、多様な質問タイプへの適応性と出力フォーマットの柔軟性を示す一方で、LLMの本質的に確率的な性質から、出力の不確実性に関連する新たな課題も導入している。
アウトプットの不確実性は、自動評価において不可能な課題であり、評価結果は、学生にフィードバックを提供したり、指導的決定を導くなど、その後の教育的行動を伝える上で重要な役割を果たすことが多い。
信頼性の低い、または品質の低い不確実性推定は、不安定な下流への介入を引き起こし、生徒の学習過程を妨害し、意図しない否定的な結果をもたらす可能性がある。
この課題を体系的に理解し,今後の研究に報知するために,LLMに基づく自動評価の文脈において,幅広い不確実性定量化手法をベンチマークする。
これらの手法の有効性は、他の領域にまたがる多くのタスクで実証されてきたが、教育環境における適用性と信頼性、特に自動階調においては、まだ未定のままである。
複数の評価データセット、LLMファミリー、生成制御設定における不確実性行動の包括的解析を通じて、グレーディングシナリオにおいてLLMが示す不確実性パターンを特徴付ける。
これらの結果に基づき、異なる不確実性指標の強度と限界を評価し、モデルファミリー、評価タスク、復号化戦略を含む重要な要因が不確実性推定に与える影響を分析する。
本研究は, LLMに基づく自動評価における不確実性の特徴に関する実用的な知見を提供し, 今後, より信頼性が高く, 効果的な不確実性を考慮した評価システムを構築するための基盤となるものと考えられる。
関連論文リスト
- Towards Reliable LLM-based Robot Planning via Combined Uncertainty Estimation [68.106428321492]
大規模言語モデル (LLM) は高度な推論能力を示し、ロボットが自然言語の命令を理解し、適切な接地で高レベルな計画を生成することができる。
LLMの幻覚は重大な課題であり、しばしば過度に信頼され、不一致または安全でない計画に繋がる。
本研究は, 信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性評価を別々に評価するものである。
論文 参考訳(メタデータ) (2025-10-09T10:26:58Z) - TokUR: Token-Level Uncertainty Estimation for Large Language Model Reasoning [27.449948943467163]
token-level Uncertainty Estimation framework for Reasoning (TokUR)を提案する。
TokURは、大規模言語モデルにおいて、数学的推論における応答を自己評価し、自己改善することを可能にする。
様々な難易度を持つ数学的推論データセットの実験により、TokURは答えの正しさとモデルロバストネスと強い相関を示すことが示された。
論文 参考訳(メタデータ) (2025-05-16T22:47:32Z) - SAUP: Situation Awareness Uncertainty Propagation on LLM Agent [52.444674213316574]
大規模言語モデル(LLM)は多段階エージェントシステムに統合され、様々なアプリケーションにまたがる複雑な意思決定プロセスを可能にする。
既存の不確実性推定手法は主に最終段階の出力に重点を置いており、これは多段階決定プロセスにおける累積的不確実性やエージェントとその環境間の動的相互作用を考慮できない。
LLMエージェントの推論プロセスの各ステップを通じて不確実性を伝播する新しいフレームワークであるSAUPを提案する。
論文 参考訳(メタデータ) (2024-12-02T01:31:13Z) - Do LLMs estimate uncertainty well in instruction-following? [9.081508933326644]
大規模言語モデル(LLM)は、ユーザ指示に従うことができるため、さまざまなドメインにわたるパーソナルAIエージェントとして価値のあるものになり得る。
命令追従の文脈におけるLCMの不確実性推定能力の最初の体系的評価について述べる。
以上の結果から,既存の不確実性手法は,特にモデルが後続の命令で微妙な誤りを犯した場合に困難であることがわかった。
論文 参考訳(メタデータ) (2024-10-18T16:32:10Z) - Towards Effective Evaluations and Comparisons for LLM Unlearning Methods [97.2995389188179]
本稿では,大規模言語モデルにおける機械学習評価の精度向上を図る。
評価指標の堅牢性と、競合する目標間のトレードオフという、2つの重要な課題に対処します。
論文 参考訳(メタデータ) (2024-06-13T14:41:00Z) - Uncertainty Estimation by Fisher Information-based Evidential Deep
Learning [61.94125052118442]
不確実性推定は、ディープラーニングを実用アプリケーションで信頼できるものにする鍵となる要素である。
漁業情報に基づくエビデンシャルディープラーニング(mathcalI$-EDL)を提案する。
特に,各サンプルが有する証拠の情報量を測定するためにFisher Information Matrix (FIM)を導入し,目的的損失項を動的に重み付けし,不確実なクラスの表現学習に集中させる。
論文 参考訳(メタデータ) (2023-03-03T16:12:59Z) - Uncertainty-Driven Action Quality Assessment [11.958132175629368]
本稿では,複数の判定スコアの多様性を捉えるために,不確実性駆動型AQA (UD-AQA) という新しい確率モデルを提案する。
我々は,AQA回帰損失の再重み付けに使用される各予測の不確かさを推定する。
提案手法は,オリンピックイベントMTL-AQAとFineDivingの3つのベンチマークと,手術スキルJIGSAWSデータセットの3つのベンチマークで比較結果を得た。
論文 参考訳(メタデータ) (2022-07-29T07:21:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。