論文の概要: Focusing on Students, not Machines: Grounded Question Generation and Automated Answer Grading
- arxiv url: http://arxiv.org/abs/2506.12066v1
- Date: Mon, 02 Jun 2025 05:32:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-22 23:32:14.616501
- Title: Focusing on Students, not Machines: Grounded Question Generation and Automated Answer Grading
- Title(参考訳): 機械ではなく学生に焦点をあてる: 根拠付き質問生成と自動回答グラフ
- Authors: Gérôme Meyer, Philip Breuer,
- Abstract要約: 本論文は,授業教材に根ざした質問を生成し,生徒の回答を自動的に評価するシステムの基礎を提示する。
ビジュアルレイアウトで文書をチャンクする高度な手法を導入し、特にPDF文書をターゲットとした。
自動グルーピングシステムの比較を容易にするために、短い回答の自動グルーピングのための新しいベンチマークを導入した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Digital technologies are increasingly used in education to reduce the workload of teachers and students. However, creating open-ended study or examination questions and grading their answers is still a tedious task. This thesis presents the foundation for a system that generates questions grounded in class materials and automatically grades student answers. It introduces a sophisticated method for chunking documents with a visual layout, specifically targeting PDF documents. This method enhances the accuracy of downstream tasks, including Retrieval Augmented Generation (RAG). Our thesis demonstrates that high-quality questions and reference answers can be generated from study material. Further, it introduces a new benchmark for automated grading of short answers to facilitate comparison of automated grading systems. An evaluation of various grading systems is conducted and indicates that Large Language Models (LLMs) can generalise to the task of automated grading of short answers from their pre-training tasks. As with other tasks, increasing the parameter size of the LLMs leads to greater performance. Currently, available systems still need human oversight, especially in examination scenarios.
- Abstract(参考訳): デジタル技術は、教師や学生の作業量を減らすために、教育でますます使われています。
しかし、オープンエンドの学習や試験の質問を作成し、回答を格付けすることは、いまだに面倒な作業である。
本論文は,授業教材に根ざした質問を生成し,生徒の回答を自動的に評価するシステムの基礎を提示する。
ビジュアルレイアウトで文書をチャンクする高度な手法を導入し、特にPDF文書をターゲットとした。
この方法は、検索拡張生成(RAG)を含む下流タスクの精度を高める。
我々の論文は、質の高い質問や参考回答を研究資料から生成できることを実証している。
さらに、自動階調システムの比較を容易にするために、短い回答の自動階調のための新しいベンチマークを導入した。
各種グルーピングシステムの評価を行い,Large Language Models (LLMs) が事前学習タスクから短い回答を自動グルーピングするタスクに一般化可能であることを示す。
他のタスクと同様に、LLMのパラメータサイズが大きくなるとパフォーマンスが向上する。
現在、利用可能なシステムは、特に検査シナリオにおいて、人間の監視を必要とする。
関連論文リスト
- Research on the Application of Large Language Models in Automatic Question Generation: A Case Study of ChatGLM in the Context of High School Information Technology Curriculum [3.0753648264454547]
モデルは多様な質問を生成するためにガイドされ、ドメインの専門家によって包括的に評価される。
以上の結果から,ChatGLMは人為的な質問に対して,明快さと教師の利用意欲で優れていたことが示唆された。
論文 参考訳(メタデータ) (2024-08-21T11:38:32Z) - MMAU: A Holistic Benchmark of Agent Capabilities Across Diverse Domains [54.117238759317004]
大規模マルチタスクエージェント理解(MMAU)ベンチマークは、複雑な環境設定を必要としない包括的なオフラインタスクを特徴としている。
ツールユース、DAG(Directed Acyclic Graph)QA、データサイエンスと機械学習コーディング、コンテストレベルのプログラミング、数学の5分野にわたるモデルを評価する。
3K以上の異なるプロンプトを含む20の精巧に設計されたタスクにより、MMAUはLLMエージェントの強度と限界を評価するための包括的なフレームワークを提供する。
論文 参考訳(メタデータ) (2024-07-18T00:58:41Z) - "I understand why I got this grade": Automatic Short Answer Grading with Feedback [36.74896284581596]
本稿では,5.8kの学生回答と参照回答と自動短解答(ASAG)タスクに対する質問のデータセットを提案する。
EngSAFデータセットは、複数のエンジニアリングドメインのさまざまな主題、質問、回答パターンをカバーするために、慎重にキュレートされている。
論文 参考訳(メタデータ) (2024-06-30T15:42:18Z) - Grade Like a Human: Rethinking Automated Assessment with Large Language Models [11.442433408767583]
大規模言語モデル(LLM)は自動階調に使われてきたが、人間と同等のパフォーマンスを達成できていない。
本稿では,次のキーコンポーネントを含むすべてのグルーピング手順に対処するLLMに基づくグルーピングシステムを提案する。
論文 参考訳(メタデータ) (2024-05-30T05:08:15Z) - Automated Distractor and Feedback Generation for Math Multiple-choice
Questions via In-context Learning [43.83422798569986]
マルチチョイス質問(MCQ)は、管理しやすく、格付けし、信頼性の高い評価形式であるため、ほぼ全てのレベルの教育においてユビキタスである。
これまで、高品質なイントラクタを作るというタスクは、教師やコンテンツデザイナーを学ぶための労働集約的なプロセスのままだった。
本稿では,テキスト内学習をベースとした簡易な学習手法を提案する。
論文 参考訳(メタデータ) (2023-08-07T01:03:04Z) - Automatic Short Math Answer Grading via In-context Meta-learning [2.0263791972068628]
本研究では,数学質問に対する児童生徒の回答に対する自動短解格付けの問題について検討する。
我々は、数学的な内容に適応した人気のある言語モデルBERTの変種である MathBERT をベースモデルとして使用しています。
第二に、言語モデルへの入力としてスコアリングサンプルを提供する、コンテキスト内学習アプローチを用いる。
論文 参考訳(メタデータ) (2022-05-30T16:26:02Z) - Quiz Design Task: Helping Teachers Create Quizzes with Automated
Question Generation [87.34509878569916]
本稿では,教師が読解クイズを自動生成するためのユースケースに焦点を当てた。
本研究は,クイズを構築中の教師が質問を受講し,それに応じるか,あるいは拒否するかのどちらかを理由として行う。
論文 参考訳(メタデータ) (2022-05-03T18:59:03Z) - ProtoTransformer: A Meta-Learning Approach to Providing Student Feedback [54.142719510638614]
本稿では,フィードバックを数発の分類として提供するという課題について考察する。
メタラーナーは、インストラクターによるいくつかの例から、新しいプログラミング質問に関する学生のコードにフィードバックを与えるように適応します。
本手法は,第1段階の大学が提供したプログラムコースにおいて,16,000名の学生試験ソリューションに対するフィードバックの提供に成功している。
論文 参考訳(メタデータ) (2021-07-23T22:41:28Z) - Get It Scored Using AutoSAS -- An Automated System for Scoring Short
Answers [63.835172924290326]
SAS(Automatic Short Answer Scoring)への高速でスケーラブルで正確なアプローチを提示します。
SASのためのシステム、すなわちAutoSASの設計と開発を提案し、説明します。
AutoSASは最先端のパフォーマンスを示し、いくつかの質問のプロンプトで8%以上良い結果が得られる。
論文 参考訳(メタデータ) (2020-12-21T10:47:30Z) - Knowledge Distillation for Improved Accuracy in Spoken Question
Answering [63.72278693825945]
我々は,音声文書や書面文書から知識蒸留を行うための訓練戦略を考案した。
我々の研究は、言語モデルから知識の抽出を監督信号として進めている。
実験により,本手法はSpken-SQuADデータセット上で,最先端の言語モデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2020-10-21T15:18:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。