Fugu-MT 論文翻訳(概要): Leveraging AI Graders for Missing Score Imputation to Achieve Accurate Ability Estimation in Constructed-Response Tests

論文の概要: Leveraging AI Graders for Missing Score Imputation to Achieve Accurate Ability Estimation in Constructed-Response Tests

arxiv url: http://arxiv.org/abs/2506.20119v1
Date: Wed, 25 Jun 2025 04:17:57 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-26 21:00:42.59942
Title: Leveraging AI Graders for Missing Score Imputation to Achieve Accurate Ability Estimation in Constructed-Response Tests
Title（参考訳）: 構成応答テストにおけるAIグレーダを用いた精度評価のためのスコアインプットの欠如
Authors: Masaki Uto, Yuma Ito,
Abstract要約: 項目応答理論(IRT)は、不完全なスコアデータから能力の推定を可能にすることで、有望なソリューションを提供する。失うスコアの割合が増加するにつれて、能力推定の精度は低下する。本研究は, 自動スコアリング技術を利用して, 欠落点を計算するための新しい手法を提案する。
参考スコア（独自算出の注目度）: 0.6445605125467574
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Evaluating the abilities of learners is a fundamental objective in the field of education. In particular, there is an increasing need to assess higher-order abilities such as expressive skills and logical thinking. Constructed-response tests such as short-answer and essay-based questions have become widely used as a method to meet this demand. Although these tests are effective, they require substantial manual grading, making them both labor-intensive and costly. Item response theory (IRT) provides a promising solution by enabling the estimation of ability from incomplete score data, where human raters grade only a subset of answers provided by learners across multiple test items. However, the accuracy of ability estimation declines as the proportion of missing scores increases. Although data augmentation techniques for imputing missing scores have been explored in order to address this limitation, they often struggle with inaccuracy for sparse or heterogeneous data. To overcome these challenges, this study proposes a novel method for imputing missing scores by leveraging automated scoring technologies for accurate IRT-based ability estimation. The proposed method achieves high accuracy in ability estimation while markedly reducing manual grading workload.
Abstract（参考訳）: 学習者の能力を評価することは、教育の分野における基本的な目的である。特に、表現力や論理的思考といった高次能力を評価する必要性が高まっている。短解答やエッセイに基づく質問のような構成的応答テストは、この要求を満たす方法として広く利用されている。これらのテストは効果的であるが、かなりの手作業による評価が必要であり、労働集約的かつコストがかかる。項目応答理論(IRT)は,学習者が提供した回答のサブセットのみを複数のテスト項目に分類し,不完全なスコアデータから能力を評価することによって,有望な解を提供する。しかし、失うスコアの割合が増加するにつれて、能力推定の精度は低下する。この制限に対処するために、欠落したスコアを計算するためのデータ拡張技術が検討されているが、スパースデータや異種データの不正確さに悩まされることがしばしばある。これらの課題を克服するため,IRT ベースの能力推定に自動スコアリング技術を活用することで,欠落点の推算を行う新しい手法を提案する。提案手法は,手動グルーピング作業量を著しく削減しつつ,高い精度で能力推定を行う。

関連論文リスト

Improving annotator selection in Active Learning using a mood and fatigue-aware Recommender System [0.0]
本研究は,アクティブラーニング(AL)におけるクエリ毎に最適なアノテータを選択することの課題を克服することに焦点を当てる。 ALはラベル付きデータを取得する際のコストと時間に関連する課題を認識し、ラベル付きデータの数を削減します。クエリアノテータペアの戦略の多くは、ムード、注意、モチベーション、疲労レベルといった生産性に影響を与える内部要因を考慮していない。
論文参考訳（メタデータ） (2025-07-31T17:41:30Z)
Reliable and Efficient Amortized Model-based Evaluation [57.6469531082784]
幅広いベンチマークの平均スコアは、実際に言語モデルを使用することをガイドするシグナルを提供する。コストを下げるための一般的な試みは、ベンチマークのサブセットの平均スコアを計算することである。このアプローチは、平均スコアがベンチマークサブセットの質問の難しさと合わさったため、信頼性の低いLM性能をしばしば引き起こす。我々は、その内容から質問難度を予測するモデルを訓練し、信頼性のある測定をコストのごく一部で行えるようにした。
論文参考訳（メタデータ） (2025-03-17T16:15:02Z)
General Scales Unlock AI Evaluation with Explanatory and Predictive Power [57.7995945974989]
ベンチマークはAIの進歩を導くものだが、汎用AIシステムには限られた説明力と予測力を提供している。私たちは、一般的なAIベンチマークが実際に何を計測しているかを説明することができる、AI評価のための一般的な尺度を紹介します。私たちの完全に自動化された方法論は、飽和しない一般的なスケールにインスタンス要求を配置する18の新しく作られたルーリックの上に構築されます。
論文参考訳（メタデータ） (2025-03-09T01:13:56Z)
Uncertainty Quantification in Retrieval Augmented Question Answering [57.05827081638329]
本稿では,QAモデルが備える通路の有効性を推定することで,QAモデルの不確実性を定量化する。我々は、目標QAモデルの通過効率を予測するために軽量ニューラルネットワークを訓練し、単純な情報理論のメトリクスが解の正しさをある程度予測できる一方で、より高価なサンプリングベースの手法を効率的に近似または上回ることを示す。
論文参考訳（メタデータ） (2025-02-25T11:24:52Z)
Wrong Answers Can Also Be Useful: PlausibleQA -- A Large-Scale QA Dataset with Answer Plausibility Scores [16.434748534272014]
PlausibleQAは1万の質問と10万の候補回答からなるデータセットで、妥当性スコアと正当化が付与されている。提案手法は,Multiple-Choice Question Answering (MCQA) とQARAに対して有効であることを示す。
論文参考訳（メタデータ） (2025-02-22T21:14:18Z)
Chatbots im Schulunterricht: Wir testen das Fobizz-Tool zur automatischen Bewertung von Hausaufgaben [0.0]
本研究では,ドイツのFobizz社によるAIによるグレーディングツール"AI Grading Assistant"について検討した。ツールの数値グレードと定性的フィードバックは、しばしばランダムであり、提案が組み込まれても改善されない。この研究は、教育における体系的な問題に対する迅速な修正としてAIを採用するというより広い傾向を批判している。
論文参考訳（メタデータ） (2024-12-09T16:50:02Z)
Legitimate ground-truth-free metrics for deep uncertainty classification scoring [3.9599054392856483]
製造における不確実性定量化(UQ)手法の使用は依然として限られている。この制限は、UQ基底真理を欠いたUQ手法を検証するという課題によってさらに悪化する。本稿では,これらの指標を考察し,理論的に良好であり,実際に不確実な基礎的真理に結びついていることを証明する。
論文参考訳（メタデータ） (2024-10-30T14:14:32Z)
Active Learning to Guide Labeling Efforts for Question Difficulty Estimation [1.0514231683620516]
トランスフォーマーベースのニューラルネットワークは、主に教師なしの手法ではなく、教師なし学習における独立した研究によって、最先端のパフォーマンスを達成する。この研究は、教師付きヒューマン・イン・ザ・ループアプローチであるQDEのアクティブ・ラーニングを探求することで、研究ギャップを埋める。 PowerVarianceの取得によるアクティブな学習は、トレーニングデータの10%だけをラベル付けした後、完全に教師されたモデルに近いパフォーマンスを達成することを示す実験である。
論文参考訳（メタデータ） (2024-09-14T02:02:42Z)
Towards Effective Evaluations and Comparisons for LLM Unlearning Methods [97.2995389188179]
本稿では,大規模言語モデルにおける機械学習評価の精度向上を図る。評価指標の堅牢性と、競合する目標間のトレードオフという、2つの重要な課題に対処します。
論文参考訳（メタデータ） (2024-06-13T14:41:00Z)
Evaluating Mathematical Reasoning Beyond Accuracy [50.09931172314218]
推論ステップの品質を評価するための新しい方法論であるReasonEvalを紹介します。 ReasonEvalはメタ評価データセットのベースライン手法よりも一貫して優れていることを示す。我々は、ReasonEvalがデータ選択において重要な役割を果たすことを観察する。
論文参考訳（メタデータ） (2024-04-08T17:18:04Z)
Evaluating Open-QA Evaluation [29.43815593419996]
本研究では,大規模言語モデル(LLM)の事実を直接推定できるオープン質問回答(Open QA)タスクの評価に焦点をあてる。オープンQA内の標準回答に関連するAI生成回答の精度を評価するために,新たなタスクであるQA評価(QA-Eval)とそれに対応するデータセットEVOUNAを導入する。
論文参考訳（メタデータ） (2023-05-21T10:40:55Z)
ROSCOE: A Suite of Metrics for Scoring Step-by-Step Reasoning [63.77667876176978]
大規模言語モデルでは、最終回答を正当化するためにステップバイステップの推論を生成するように促された場合、ダウンストリームタスクの解釈可能性が改善されている。これらの推論ステップは、モデルの解釈可能性と検証を大幅に改善するが、客観的にそれらの正確性を研究することは困難である。本稿では、従来のテキスト生成評価指標を改善し拡張する、解釈可能な教師なし自動スコアのスイートであるROSを提案する。
論文参考訳（メタデータ） (2022-12-15T15:52:39Z)
A New Score for Adaptive Tests in Bayesian and Credal Networks [64.80185026979883]
テストは、そのシークエンスと質問数とが、テイカーの推定スキルに基づいて動的に調整されるときに適応する。後部確率のモードに基づいて、別のスコアの族を提示するので、説明し易い。
論文参考訳（メタデータ） (2021-05-25T20:35:42Z)
Fast Uncertainty Quantification for Deep Object Pose Estimation [91.09217713805337]
深層学習に基づくオブジェクトポーズ推定は、しばしば信頼できない、自信過剰である。本研究では,6-DoFオブジェクトのポーズ推定のための,シンプルで効率的かつプラグアンドプレイなUQ手法を提案する。
論文参考訳（メタデータ） (2020-11-16T06:51:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。