論文の概要: Principled Design of Interpretable Automated Scoring for Large-Scale Educational Assessments
- arxiv url: http://arxiv.org/abs/2511.17069v1
- Date: Fri, 21 Nov 2025 09:19:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-24 18:08:18.953008
- Title: Principled Design of Interpretable Automated Scoring for Large-Scale Educational Assessments
- Title(参考訳): 大規模教育評価のための解釈可能な自動スコーリングの原理設計
- Authors: Yunsung Kim, Mike Hardy, Joseph Tey, Candace Thille, Chris Piech,
- Abstract要約: AnalyticScoreは、応答の明確な識別可能な要素を抽出し、各応答を人間の解釈可能な値に分解する。
AnalyticScoreは、ASAP-SASデータセットから平均10項目にわたって、解釈不能なSOTAの0.06 QWK以内である。
- 参考スコア(独自算出の注目度): 2.2219355720968967
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: AI-driven automated scoring systems offer scalable and efficient means of evaluating complex student-generated responses. Yet, despite increasing demand for transparency and interpretability, the field has yet to develop a widely accepted solution for interpretable automated scoring to be used in large-scale real-world assessments. This work takes a principled approach to address this challenge. We analyze the needs and potential benefits of interpretable automated scoring for various assessment stakeholders and develop four principles of interpretability -- Faithfulness, Groundedness, Traceability, and Interchangeability (FGTI) -- targeted at those needs. To illustrate the feasibility of implementing these principles, we develop the AnalyticScore framework for short answer scoring as a baseline reference framework for future research. AnalyticScore operates by (1) extracting explicitly identifiable elements of the responses, (2) featurizing each response into human-interpretable values using LLMs, and (3) applying an intuitive ordinal logistic regression model for scoring. In terms of scoring accuracy, AnalyticScore outperforms many uninterpretable scoring methods, and is within only 0.06 QWK of the uninterpretable SOTA on average across 10 items from the ASAP-SAS dataset. By comparing against human annotators conducting the same featurization task, we further demonstrate that the featurization behavior of AnalyticScore aligns well with that of humans.
- Abstract(参考訳): AIによる自動スコアリングシステムは、複雑な学生生成応答を評価するスケーラブルで効率的な手段を提供する。
しかし、透明性と解釈可能性の需要が増大しているにもかかわらず、この分野は、大規模な実世界の評価に使用される自動採点のための広く受け入れられたソリューションをまだ開発していない。
この作業には、この問題に対処するための原則的なアプローチが必要だ。
我々は、様々な評価ステークホルダーに対する解釈可能な自動スコアリングの必要性と潜在的利益を分析し、それらのニーズをターゲットとした解釈可能性の4つの原則(信条、グラウンデッドネス、トレーサビリティ、インターチェンジビリティ(FGTI))を開発します。
本稿では,これらの原則の実現可能性を説明するために,今後の研究のベースライン基準フレームワークとして,短い回答スコアのための分析スコアフレームワークを開発した。
AnalyticScore は,(1) 応答の明確な識別可能な要素を抽出し,(2) 応答を LLM を用いて人間の解釈可能な値に分解し,(3) 直感的な順序ロジスティック回帰モデルを用いて評価する。
スコアの精度に関しては、AnalyticScoreは多くの非解釈的スコアリング法より優れており、ASAP-SASデータセットから平均10項目にわたって、非解釈的SOTAの0.06 QWK以内である。
また,人間アノテータと同一の成果化タスクを比較することにより,解析スコアの成果化挙動が人間の成果とよく一致していることを示す。
関連論文リスト
- AutoSCORE: Enhancing Automated Scoring with Multi-Agent Large Language Models via Structured Component Recognition [27.312190686305588]
大規模言語モデル(LLM)は、自動スコアリングにおいて大きな可能性を示している。
エンド・ツー・エンドのレーダとしての使用は、低い正確性、迅速な感度、限定的な解釈可能性、ルーリックなミスアライメントといった課題に直面している。
本稿では,多エージェント LLM フレームワークである AutoSCORE を提案する。
論文 参考訳(メタデータ) (2025-09-26T05:45:14Z) - SCAN: Structured Capability Assessment and Navigation for LLMs [54.54085382131134]
textbfSCAN (Structured Capability Assessment and Navigation) は、大規模言語モデルの詳細な特徴付けを可能にする実用的なフレームワークである。
SCANには4つの重要なコンポーネントが含まれている。
TaxBuilder – クエリから機能表示タグを抽出して階層的な分類構造を構築する。
RealMixは、各機能タグに対する十分な評価データを保証するクエリ合成とフィルタリングのメカニズムである。
PC$2$ベースのLCM-as-a-Judge法は従来のLCM-as-a-Judge法と比較して大幅に精度が向上する
論文 参考訳(メタデータ) (2025-05-10T16:52:40Z) - SedarEval: Automated Evaluation using Self-Adaptive Rubrics [4.97150240417381]
本稿では,自己適応型ルーブリックに基づく新しい評価パラダイムを提案する。
SedarEvalは、細心の注意を払って1,000の質問から成り、それぞれが独自の自己適応型ルーリックを持っている。
我々は、人間の学級に取って代わるために、特殊評価器言語モデル(評価器LM)を訓練する。
論文 参考訳(メタデータ) (2025-01-26T16:45:09Z) - OmniEval: An Omnidirectional and Automatic RAG Evaluation Benchmark in Financial Domain [62.89809156574998]
金融分野において全方向自動RAGベンチマークであるOmniEvalを導入する。
我々のベンチマークは多次元評価フレームワークによって特徴づけられる。
実験では、広範囲なテストデータセットを含むOmniEvalの包括性を実証した。
論文 参考訳(メタデータ) (2024-12-17T15:38:42Z) - TestAgent: Automatic Benchmarking and Exploratory Interaction for Evaluating LLMs in Vertical Domains [19.492393243160244]
大規模言語モデル(LLM)は、高度に専門化された垂直ドメインにデプロイされることが多い。
既存の垂直領域の評価は、通常、静的な単一ターンデータセットの労働集約的な構築に依存している。
垂直領域における自動ベンチマークと探索動的評価のためのフレームワークであるTestAgentを提案する。
論文 参考訳(メタデータ) (2024-10-15T11:20:42Z) - Self-Training with Pseudo-Label Scorer for Aspect Sentiment Quad Prediction [54.23208041792073]
Aspect Sentiment Quad Prediction (ASQP) は、与えられたレビューに対して全てのクワッド(アスペクト項、アスペクトカテゴリー、意見項、感情極性)を予測することを目的としている。
ASQPタスクにおける重要な課題はラベル付きデータの不足であり、既存のメソッドのパフォーマンスを制限している。
そこで我々は,擬似ラベルスコアラーを用いた自己学習フレームワークを提案し,レビューと擬似ラベルの一致をスコアラーが評価する。
論文 参考訳(メタデータ) (2024-06-26T05:30:21Z) - Bring Your Own Data! Self-Supervised Evaluation for Large Language
Models [52.15056231665816]
大規模言語モデル(LLM)の自己教師型評価のためのフレームワークを提案する。
閉書知識,毒性,長期文脈依存性を測定するための自己指導型評価戦略を実証する。
自己監督評価と人監督評価との間には強い相関関係が認められた。
論文 参考訳(メタデータ) (2023-06-23T17:59:09Z) - ROSCOE: A Suite of Metrics for Scoring Step-by-Step Reasoning [63.77667876176978]
大規模言語モデルでは、最終回答を正当化するためにステップバイステップの推論を生成するように促された場合、ダウンストリームタスクの解釈可能性が改善されている。
これらの推論ステップは、モデルの解釈可能性と検証を大幅に改善するが、客観的にそれらの正確性を研究することは困難である。
本稿では、従来のテキスト生成評価指標を改善し拡張する、解釈可能な教師なし自動スコアのスイートであるROSを提案する。
論文 参考訳(メタデータ) (2022-12-15T15:52:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。