論文の概要: CHiL(L)Grader: Calibrated Human-in-the-Loop Short-Answer Grading
- arxiv url: http://arxiv.org/abs/2603.11957v1
- Date: Thu, 12 Mar 2026 14:04:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-13 14:46:26.131432
- Title: CHiL(L)Grader: Calibrated Human-in-the-Loop Short-Answer Grading
- Title(参考訳): CHiL(L)グラダー:キャリブレーションされたHuman-the-Loopショートアンサーグレーディング
- Authors: Pranav Raikote, Korbinian Randl, Ioanna Miliou, Athanasios Lakes, Panagiotis Papapetrou,
- Abstract要約: そこで我々はCHiL(L)Graderを紹介した。CHiL(L)Graderは、調整された信頼度推定をループ内ワークフローに組み込んだ最初の自動グレーティングフレームワークである。
CHiL(L)Graderは、不確実なケースを人間のグレーダーにルーティングしながら、信頼性の高い予測のみを自動化する。
受理予測と棄却予測の間の0.347のQWKギャップは、信頼に基づくルーティングの有効性を確認する。
- 参考スコア(独自算出の注目度): 1.5829605001132387
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Scaling educational assessment with large language models requires not just accuracy, but the ability to recognize when predictions are trustworthy. Instruction-tuned models tend to be overconfident, and their reliability deteriorates as curricula evolve, making fully autonomous deployment unsafe in high-stakes settings. We introduce CHiL(L)Grader, the first automated grading framework that incorporates calibrated confidence estimation into a human-in-the-loop workflow. Using post-hoc temperature scaling, confidence-based selective prediction, and continual learning, CHiL(L)Grader automates only high-confidence predictions while routing uncertain cases to human graders, and adapts to evolving rubrics and unseen questions. Across three short-answer grading datasets, CHiL(L)Grader automatically scores 35-65% of responses at expert-level quality (QWK >= 0.80). A QWK gap of 0.347 between accepted and rejected predictions confirms the effectiveness of the confidence-based routing. Each correction cycle strengthens the model's grading capability as it learns from teacher feedback. These results show that uncertainty quantification is key for reliable AI-assisted grading.
- Abstract(参考訳): 大きな言語モデルで教育評価をスケールするには、正確さだけでなく、予測が信頼できるときに認識する能力が必要である。
インストラクションチューニングされたモデルは過信されがちで、キュリキュラが進化するにつれて信頼性が低下し、高速環境では完全に自律的なデプロイメントが安全でない。
そこで我々はCHiL(L)Graderを紹介した。CHiL(L)Graderは、調整された信頼度推定をループ内ワークフローに組み込んだ最初の自動グレーティングフレームワークである。
CHiL(L)Graderは、保温後の温度スケーリング、信頼性に基づく選択的予測、継続的な学習を用いて、不確実なケースを人間のグレーダーにルーティングしながら、高信頼の予測のみを自動化し、ルーブリックや目に見えない質問に適応する。
CHiL(L)Graderは3つのショートアンサーグレーディングデータセットの中で、エキスパートレベルの品質(QWK >= 0.80)で35-65%のレスポンスを自動的にスコアする。
受理された予測と棄却された予測の間の0.347のQWKギャップは、信頼に基づくルーティングの有効性を確認する。
各修正サイクルは、教師のフィードバックから学習するモデルの格付け能力を強化する。
これらの結果から,不確実性定量化がAI支援の信頼性向上の鍵であることが示唆された。
関連論文リスト
- On Calibration of Large Language Models: From Response To Capability [66.59139960234326]
大規模言語モデル(LLM)は汎用的な問題解決手段として広くデプロイされている。
本稿では,クエリ上でモデルが期待する精度を目標とするキャリブレーションを提案する。
我々の結果は、キャパシティ校正された信頼度がpass@$k$予測と推論予算割り当てを改善することを示している。
論文 参考訳(メタデータ) (2026-02-14T01:07:45Z) - Verbalized Confidence Triggers Self-Verification: Emergent Behavior Without Explicit Reasoning Supervision [12.287123198288079]
大規模言語モデル(LLM)の安全な配置には不確実性校正が不可欠である
我々は,スカラー信頼ラベルのみを用いた教師付き微調整が,言語モデルの自己検証行動を引き出すのに十分であることがわかった。
キャリブレーションされた不確実性に基づいて,テスト時間スケーリングによる性能向上を図った簡易な再考手法を提案する。
論文 参考訳(メタデータ) (2025-06-04T08:56:24Z) - CARIL: Confidence-Aware Regression in Imitation Learning for Autonomous Driving [0.0]
エンドツーエンドの視覚に基づく模倣学習は、自動運転の有望な結果を証明している。
従来のアプローチでは、正確な制御を提供するレグレッションベースモデルと、信頼性スコアを提供するが、離散化による精度の低下に悩まされる分類ベースモデルのいずれかに依存している。
我々は、回帰と分類の両ヘッドを統合したデュアルヘッドニューラルネットワークアーキテクチャを導入し、模倣学習における決定信頼性を向上させる。
論文 参考訳(メタデータ) (2025-03-02T08:19:02Z) - Selective Learning: Towards Robust Calibration with Dynamic Regularization [79.92633587914659]
ディープラーニングにおけるミススキャリブレーションとは、予測された信頼とパフォーマンスの間には相違がある、という意味である。
トレーニング中に何を学ぶべきかを学ぶことを目的とした動的正規化(DReg)を導入し、信頼度調整のトレードオフを回避する。
論文 参考訳(メタデータ) (2024-02-13T11:25:20Z) - TeLeS: Temporal Lexeme Similarity Score to Estimate Confidence in
End-to-End ASR [1.8477401359673709]
クラス確率に基づく信頼スコアは、自信過剰なASR予測の品質を正確に表すものではない。
信頼度推定モデル(CEM)を訓練するためのTeLeS(Temporal-Lexeme similarity)の信頼性スコアを提案する。
我々は、ヒンディー語、タミル語、カナダ語という3つの言語で訓練されたASRモデルを用いて、様々なトレーニングデータサイズで実験を行う。
論文 参考訳(メタデータ) (2024-01-06T16:29:13Z) - On the Calibration of Uncertainty Estimation in LiDAR-based Semantic
Segmentation [7.100396757261104]
本稿では,個々のクラスに対するセグメンテーションモデルの信頼性校正品質を測定する指標を提案する。
また,手書きまたは自動注釈付きデータセットの品質向上のためにラベル問題を自動的に検出する手法の二重利用を提案する。
論文 参考訳(メタデータ) (2023-08-04T10:59:24Z) - Just Ask for Calibration: Strategies for Eliciting Calibrated Confidence
Scores from Language Models Fine-Tuned with Human Feedback [91.22679548111127]
信頼できる現実世界の予測システムは、よく校正された信頼スコアを生成するべきである。
出力トークンとして出力される言語的信頼度は、通常、モデルの条件付き確率よりも良く校正されていることを示す。
論文 参考訳(メタデータ) (2023-05-24T10:12:33Z) - Reliability-Aware Prediction via Uncertainty Learning for Person Image
Retrieval [51.83967175585896]
UALは、データ不確実性とモデル不確実性を同時に考慮し、信頼性に配慮した予測を提供することを目的としている。
データ不確実性はサンプル固有のノイズを捕捉する」一方、モデル不確実性はサンプルの予測に対するモデルの信頼を表現している。
論文 参考訳(メタデータ) (2022-10-24T17:53:20Z) - Balancing Cost and Quality: An Exploration of Human-in-the-loop
Frameworks for Automated Short Answer Scoring [36.58449231222223]
短い回答スコアリング(英: Short answer score、SAS)とは、学習者によって書かれた短いテキストを段階的に評価するタスクである。
本稿では,グルーピングコストを最小化するためのHuman-in-the-loopフレームワークの利用について検討する。
提案手法により,自動スコアリングモデルと人間のグリーマーによる目標スコアリング品質の達成が可能となった。
論文 参考訳(メタデータ) (2022-06-16T16:43:18Z) - An evaluation of word-level confidence estimation for end-to-end
automatic speech recognition [70.61280174637913]
エンドツーエンド自動音声認識(ASR)における信頼度推定の検討
4つのよく知られた音声データセットにおける信頼度手法の広範なベンチマークを提供する。
以上の結果から,ロジットを学習温度でスケーリングすることで,強いベースラインが得られることが示唆された。
論文 参考訳(メタデータ) (2021-01-14T09:51:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。