論文の概要: AI-Enabled grading with near-domain data for scaling feedback with human-level accuracy
- arxiv url: http://arxiv.org/abs/2512.04113v1
- Date: Mon, 01 Dec 2025 05:11:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-05 21:11:45.785063
- Title: AI-Enabled grading with near-domain data for scaling feedback with human-level accuracy
- Title(参考訳): 人間レベルの精度でフィードバックをスケールするAI-Enabled grading
- Authors: Shyam Agarwal, Ali Moghimi, Kevin C. Haudek,
- Abstract要約: 本報告では, 難解質問に対する新鮮かつ実践的なアプローチを提案する。
我々のフレームワークは、事前書き直しを必要とせず、実践的な教室設定を念頭に、明示的に設計されている。
- 参考スコア(独自算出の注目度): 0.5735035463793009
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Constructed-response questions are crucial to encourage generative processing and test a learner's understanding of core concepts. However, the limited availability of instructor time, large class sizes, and other resource constraints pose significant challenges in providing timely and detailed evaluation, which is crucial for a holistic educational experience. In addition, providing timely and frequent assessments is challenging since manual grading is labor intensive, and automated grading is complex to generalize to every possible response scenario. This paper proposes a novel and practical approach to grade short-answer constructed-response questions. We discuss why this problem is challenging, define the nature of questions on which our method works, and finally propose a framework that instructors can use to evaluate their students' open-responses, utilizing near-domain data like data from similar questions administered in previous years. The proposed method outperforms the state of the art machine learning models as well as non-fine-tuned large language models like GPT 3.5, GPT 4, and GPT 4o by a considerable margin of over 10-20% in some cases, even after providing the LLMs with reference/model answers. Our framework does not require pre-written grading rubrics and is designed explicitly with practical classroom settings in mind. Our results also reveal exciting insights about learning from near-domain data, including what we term as accuracy and data advantages using human-labeled data, and we believe this is the first work to formalize the problem of automated short answer grading based on the near-domain data.
- Abstract(参考訳): 構成された応答型質問は、生成的処理を奨励し、学習者のコアコンセプトに対する理解をテストするために不可欠である。
しかし、インストラクター時間、大規模なクラスサイズ、その他のリソース制約の制限は、タイムリーかつ詳細な評価を提供することにおいて重大な課題を生じさせ、総合的な教育経験にとって不可欠である。
さらに、手動グレードは労働集約的であるため、タイムリーかつ頻繁な評価の提供は困難であり、自動化グレードは、可能なすべてのレスポンスシナリオに一般化するために複雑である。
本報告では, 難解質問に対する新鮮かつ実践的なアプローチを提案する。
我々は,この問題がなぜ難しいのかを議論し,我々の手法がどの問題に作用するかを定義し,また,教師が学生のオープン・レスポンシブ評価に利用できるフレームワークを提案する。
提案手法は,GPT 3.5,GPT 4,GPT 4oといった未調整の大規模言語モデルと同様に,LLMに参照/モデル回答を提供しても,ある程度のマージンを10~20%上回っている。
我々のフレームワークは、事前書き直しを必要とせず、実践的な教室設定を念頭に、明示的に設計されている。
また,人間ラベル付きデータを用いた精度やデータ優位性など,近領域データから学習する際のエキサイティングな洞察も示しています。
関連論文リスト
- Embedding Domain Knowledge for Large Language Models via Reinforcement Learning from Augmented Generation [18.99847259801634]
本稿では,RLAG(Reinforcement Learning from Augmented Generation)を提案し,ドメイン知識を大規模言語モデルに組み込む。
提案手法は, サンプリング世代間を反復的に循環し, 計算した報酬によってモデルを最適化する。
医学、法学、天文学、および現在のイベントデータセットにわたる実験結果から、提案手法がベースラインアプローチを著しく上回ることを示す。
論文 参考訳(メタデータ) (2025-09-24T14:30:16Z) - Automatic Question & Answer Generation Using Generative Large Language Model (LLM) [0.0]
本研究では,NLPにおける教師なし学習手法の活用を提案する。
カスタマイズされたモデルは、教育者、インストラクター、テキストベースの評価に従事する個人に対して効率的なソリューションを提供する。
論文 参考訳(メタデータ) (2025-08-26T23:36:13Z) - Does Machine Unlearning Truly Remove Knowledge? [80.83986295685128]
本研究では,3つのベンチマークデータセット,6つのアンラーニングアルゴリズム,および5つのプロンプトベースの監査手法からなる,アンラーニング評価のための総合的な監査フレームワークを提案する。
異なるアンラーニング戦略の有効性とロバスト性を評価する。
論文 参考訳(メタデータ) (2025-05-29T09:19:07Z) - "I understand why I got this grade": Automatic Short Answer Grading with Feedback [33.63970664152288]
本稿では,フィードバックによる短時間回答自動グルーピングのためのデータセットであるEngineering Short Answer Feedback (EngSAF)を紹介する。
我々は,我々のラベル認識合成フィードバック生成(LASFG)戦略を用いて,最先端の大規模言語モデル(LLM)の生成能力を活用することで,データセットにフィードバックを組み込む。
最高のパフォーマンスモデル(Mistral-7B)は、それぞれ75.4%と58.7%の精度で、未確認の回答と未確認の質問テストセットで達成している。
論文 参考訳(メタデータ) (2024-06-30T15:42:18Z) - Deep Learning-Based Object Pose Estimation: A Comprehensive Survey [73.74933379151419]
ディープラーニングに基づくオブジェクトポーズ推定の最近の進歩について論じる。
また、複数の入力データモダリティ、出力ポーズの自由度、オブジェクト特性、下流タスクについても調査した。
論文 参考訳(メタデータ) (2024-05-13T14:44:22Z) - Automatic Short Math Answer Grading via In-context Meta-learning [2.0263791972068628]
本研究では,数学質問に対する児童生徒の回答に対する自動短解格付けの問題について検討する。
我々は、数学的な内容に適応した人気のある言語モデルBERTの変種である MathBERT をベースモデルとして使用しています。
第二に、言語モデルへの入力としてスコアリングサンプルを提供する、コンテキスト内学習アプローチを用いる。
論文 参考訳(メタデータ) (2022-05-30T16:26:02Z) - The World is Not Binary: Learning to Rank with Grayscale Data for
Dialogue Response Selection [55.390442067381755]
人間の努力なしに、グレースケールのデータを自動的に構築できることが示される。
本手法では,自動グレースケールデータ生成装置として,市販の応答検索モデルと応答生成モデルを用いる。
3つのベンチマークデータセットと4つの最先端マッチングモデルの実験は、提案手法が大幅に、一貫したパフォーマンス改善をもたらすことを示している。
論文 参考訳(メタデータ) (2020-04-06T06:34:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。