論文の概要: Automated Generation of Curriculum-Aligned Multiple-Choice Questions for Malaysian Secondary Mathematics Using Generative AI
- arxiv url: http://arxiv.org/abs/2508.04442v1
- Date: Wed, 06 Aug 2025 13:30:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-07 20:09:22.737132
- Title: Automated Generation of Curriculum-Aligned Multiple-Choice Questions for Malaysian Secondary Mathematics Using Generative AI
- Title(参考訳): 生成AIを用いたマレーシアの二次数学におけるカリキュラムアライメント型マルチコース質問の自動生成
- Authors: Rohaizah Abdul Wahid, Muhamad Said Nizamuddin Nadim, Suliana Sulaiman, Syahmi Akmal Shaharudin, Muhammad Danial Jupikil, Iqqwan Jasman Su Azlan Su,
- Abstract要約: 本稿では,マレーシアの教育システムにおけるスケーラブルで高品質な教育評価ツールの必要性について論じる。
生成AI(GenAI)の可能性を強調しながら、事実の正確性とカリキュラムの整合性を保証するという課題を認識している。
- 参考スコア(独自算出の注目度): 0.10995326465245928
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper addresses the critical need for scalable and high-quality educational assessment tools within the Malaysian education system. It highlights the potential of Generative AI (GenAI) while acknowledging the significant challenges of ensuring factual accuracy and curriculum alignment, especially for low-resource languages like Bahasa Melayu. This research introduces and compares four incremental pipelines for generating Form 1 Mathematics multiple-choice questions (MCQs) in Bahasa Melayu using OpenAI's GPT-4o. The methods range from non-grounded prompting (structured and basic) to Retrieval-Augmented Generation (RAG) approaches (one using the LangChain framework, one implemented manually). The system is grounded in official curriculum documents, including teacher-prepared notes and the yearly teaching plan (RPT). A dual-pronged automated evaluation framework is employed to assess the generated questions. Curriculum alignment is measured using Semantic Textual Similarity (STS) against the RPT, while contextual validity is verified through a novel RAG-based Question-Answering (RAG-QA) method. The results demonstrate that RAG-based pipelines significantly outperform non-grounded prompting methods, producing questions with higher curriculum alignment and factual validity. The study further analyzes the trade-offs between the ease of implementation of framework-based RAG and the fine-grained control offered by a manual pipeline. This work presents a validated methodology for generating curriculum-specific educational content in a low-resource language, introduces a symbiotic RAG-QA evaluation technique, and provides actionable insights for the development and deployment of practical EdTech solutions in Malaysia and similar regions.
- Abstract(参考訳): 本稿では,マレーシアの教育システムにおいて,スケーラブルで高品質な教育評価ツールの必要性について論じる。
生成AI(GenAI)の可能性を強調しながら、特にBahasa Melayuのような低リソース言語において、事実の正確性とカリキュラムの整合性を保証するという重要な課題を認識している。
本研究は,OpenAI の GPT-4o を用いて,バハサ・メラウで形式 1 算数多重選択問題 (MCQ) を生成するための4つのインクリメンタルパイプラインを紹介し,比較する。
メソッドは、非接地プロンプト(構造化および基本)から、(手動で実装されたLangChainフレームワークを使用した)検索型拡張生成(RAG)アプローチまで、さまざまである。
この制度は、教員準備ノートや年次教育計画(RPT)など、公式のカリキュラム文書に基礎を置いている。
生成した質問を評価するために、二段階の自動評価フレームワークが使用される。
RPTに対するセマンティックテキスト類似度(STS)を用いてカリキュラムアライメントを測定し,RAG-QA(RAG-QA)法を用いて文脈的妥当性を検証した。
その結果,RAGをベースとしたパイプラインは,非接地的プロンプト法を著しく上回り,カリキュラムの整合性や事実妥当性が向上した。
この研究は、フレームワークベースのRAGの実装の容易さと手動パイプラインが提供するきめ細かい制御とのトレードオフをさらに分析する。
本研究は、低リソース言語でカリキュラム固有の教育コンテンツを生成するための検証手法を提案し、共生的なRAG-QA評価手法を導入し、マレーシア等における実践的EdTechソリューションの開発と展開に関する実用的な洞察を提供する。
関連論文リスト
- Leveraging In-Context Learning and Retrieval-Augmented Generation for Automatic Question Generation in Educational Domains [0.4857223913212445]
本研究は,教育現場における質問の自動生成技術に焦点をあてる。
少数例を用いたICL用GPT-4とRAG用検索モジュールを用いたBARTを実装した。
ハイブリッドモデルはRAGとICLを組み合わせてこれらの問題に対処し、質問品質を改善する。
論文 参考訳(メタデータ) (2025-01-29T03:25:19Z) - Benchmarking Large Language Models for Conversational Question Answering in Multi-instructional Documents [61.41316121093604]
対話型質問応答(CQA)の文脈における大規模言語モデル(LLM)を評価するための新しいベンチマークであるInsCoQAを提案する。
InsCoQAは、百科事典スタイルの教育内容から派生したもので、複数の文書から手続き的ガイダンスを抽出し、解釈し、正確に要約する能力のモデルを評価する。
また,LLM支援型評価器であるInsEvalを提案する。
論文 参考訳(メタデータ) (2024-10-01T09:10:00Z) - Application of Large Language Models in Automated Question Generation: A Case Study on ChatGLM's Structured Questions for National Teacher Certification Exams [2.7363336723930756]
本研究では,全国教師認定試験(NTCE)における構造化質問の自動生成における大規模言語モデル(LLM)ChatGLMの適用可能性について検討する。
筆者らは,ChatGLMを指導し,一連の模擬質問を生成するとともに,過去の質問を総合的に比較した。
研究結果は,ChatGLMが生み出した質問は,実際の試験質問と同様,高い合理性,科学的性,実践性を示すことを示している。
論文 参考訳(メタデータ) (2024-08-19T13:32:14Z) - DARA: Decomposition-Alignment-Reasoning Autonomous Language Agent for Question Answering over Knowledge Graphs [70.54226917774933]
本稿では,DARA(Decomposition Alignment-Reasoning Agent)フレームワークを提案する。
DARAは2つのメカニズムを通じて、質問を形式的なクエリに効果的に解析する。
我々は,DARAがKGQAの最先端列挙およびランク付けに基づく手法に匹敵する性能が得られることを示す。
論文 参考訳(メタデータ) (2024-06-11T09:09:37Z) - Automated Evaluation of Retrieval-Augmented Language Models with Task-Specific Exam Generation [9.390902237835457]
検索型大規模言語モデル(RAG)のタスク固有精度を計測する新しい手法を提案する。
複数の選択質問からなる自動生成合成試験において、RAGをスコアリングして評価を行う。
論文 参考訳(メタデータ) (2024-05-22T13:14:11Z) - PROXYQA: An Alternative Framework for Evaluating Long-Form Text Generation with Large Language Models [72.57329554067195]
ProxyQAは、長文生成を評価するための革新的なフレームワークである。
さまざまなドメインにまたがる詳細なヒューマンキュレートされたメタクエストで構成されており、それぞれに事前にアノテートされた回答を持つ特定のプロキシクエストが伴っている。
プロキシクエリに対処する際の評価器の精度を通じて、生成されたコンテンツの品質を評価する。
論文 参考訳(メタデータ) (2024-01-26T18:12:25Z) - Automating question generation from educational text [1.9325905076281444]
質問ベースの活動(QBA)の使用は、教育において広く普及しており、学習と評価プロセスの不可欠な部分を形成している。
学校における形式的・要約的評価のための自動質問生成ツールの設計と評価を行う。
論文 参考訳(メタデータ) (2023-09-26T15:18:44Z) - Benchmarking Foundation Models with Language-Model-as-an-Examiner [47.345760054595246]
本稿では,新しいベンチマークフレームワークLanguage-Model-as-an-Examinerを提案する。
LMは、その知識に基づいて質問を定式化し、基準のない方法で応答を評価する、知識に富んだ検査者として機能する。
論文 参考訳(メタデータ) (2023-06-07T06:29:58Z) - Rethinking Label Smoothing on Multi-hop Question Answering [87.68071401870283]
MHQA (Multi-Hop Question Answering) は質問応答において重要な分野である。
本研究では,マルチホップ推論の性能を制限する主要な要因を解析する。
学習プロセスに不確実性を組み込んだ新しいラベル平滑化手法F1 Smoothingを提案する。
論文 参考訳(メタデータ) (2022-12-19T14:48:08Z) - Automatic Short Math Answer Grading via In-context Meta-learning [2.0263791972068628]
本研究では,数学質問に対する児童生徒の回答に対する自動短解格付けの問題について検討する。
我々は、数学的な内容に適応した人気のある言語モデルBERTの変種である MathBERT をベースモデルとして使用しています。
第二に、言語モデルへの入力としてスコアリングサンプルを提供する、コンテキスト内学習アプローチを用いる。
論文 参考訳(メタデータ) (2022-05-30T16:26:02Z) - Knowledge Distillation for Improved Accuracy in Spoken Question
Answering [63.72278693825945]
我々は,音声文書や書面文書から知識蒸留を行うための訓練戦略を考案した。
我々の研究は、言語モデルから知識の抽出を監督信号として進めている。
実験により,本手法はSpken-SQuADデータセット上で,最先端の言語モデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2020-10-21T15:18:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。