論文の概要: Application of Large Language Models in Automated Question Generation: A Case Study on ChatGLM's Structured Questions for National Teacher Certification Exams
- arxiv url: http://arxiv.org/abs/2408.09982v2
- Date: Tue, 20 Aug 2024 02:41:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-21 12:23:48.868459
- Title: Application of Large Language Models in Automated Question Generation: A Case Study on ChatGLM's Structured Questions for National Teacher Certification Exams
- Title(参考訳): 大規模言語モデルの自動質問生成への応用:全国教師認定試験におけるChatGLMの構造的質問を事例として
- Authors: Ling He, Yanxin Chen, Xiaoqiang Hu,
- Abstract要約: 本研究では,全国教師認定試験(NTCE)における構造化質問の自動生成における大規模言語モデル(LLM)ChatGLMの適用可能性について検討する。
筆者らは,ChatGLMを指導し,一連の模擬質問を生成するとともに,過去の質問を総合的に比較した。
研究結果は,ChatGLMが生み出した質問は,実際の試験質問と同様,高い合理性,科学的性,実践性を示すことを示している。
- 参考スコア(独自算出の注目度): 2.7363336723930756
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This study delves into the application potential of the large language models (LLMs) ChatGLM in the automatic generation of structured questions for National Teacher Certification Exams (NTCE). Through meticulously designed prompt engineering, we guided ChatGLM to generate a series of simulated questions and conducted a comprehensive comparison with questions recollected from past examinees. To ensure the objectivity and professionalism of the evaluation, we invited experts in the field of education to assess these questions and their scoring criteria. The research results indicate that the questions generated by ChatGLM exhibit a high level of rationality, scientificity, and practicality similar to those of the real exam questions across most evaluation criteria, demonstrating the model's accuracy and reliability in question generation. Nevertheless, the study also reveals limitations in the model's consideration of various rating criteria when generating questions, suggesting the need for further optimization and adjustment. This research not only validates the application potential of ChatGLM in the field of educational assessment but also provides crucial empirical support for the development of more efficient and intelligent educational automated generation systems in the future.
- Abstract(参考訳): 本研究では,全国教師認定試験(NTCE)における構造化質問の自動生成において,大規模言語モデル(LLM)ChatGLMの適用可能性について検討する。
念入りに設計した急進的なエンジニアリングを通じて,ChatGLMを指導し,一連の模擬質問を生成するとともに,過去の調査から得られた質問を総合的に比較した。
評価の客観性と専門性を確保するため,これらの質問と評価基準を評価するため,教育分野の専門家を招待した。
研究結果は,ChatGLMが生成した質問は,ほとんどの評価基準において,実際の試験質問と同様の合理性,科学的性,実践性を示し,モデルの精度と質問生成の信頼性を示す。
それにもかかわらず、この研究は、質問を生成する際の様々な評価基準について、モデルが考慮すべき限界を明らかにし、さらなる最適化と調整の必要性を示唆している。
本研究は、ChatGLMの教育評価分野への適用可能性を検証するだけでなく、将来より効率的でインテリジェントな教育自動生成システムを開発する上で、重要な実証的支援を提供する。
関連論文リスト
- A Novel Psychometrics-Based Approach to Developing Professional Competency Benchmark for Large Language Models [0.0]
本稿では,厳密な心理測定原理に基づくベンチマーク開発への包括的アプローチを提案する。
我々は、教育と教育の分野で新しいベンチマークを作成することで、このアプローチを説明する最初の試みを行う。
我々はブルームの分類学によってガイドされ、テスト開発で訓練された教育専門家のコンソーシアムによって厳格に設計された新しいベンチマークを構築した。
論文 参考訳(メタデータ) (2024-10-29T19:32:43Z) - AGENT-CQ: Automatic Generation and Evaluation of Clarifying Questions for Conversational Search with LLMs [53.6200736559742]
エージェント-CQは、世代ステージと評価ステージの2つのステージから構成される。
CrowdLLMは、人間のクラウドソーシング判断をシミュレートして、生成された質問や回答を評価する。
ClariQデータセットの実験では、質問と回答の品質を評価するCrowdLLMの有効性が示されている。
論文 参考訳(メタデータ) (2024-10-25T17:06:27Z) - Benchmarking Large Language Models for Conversational Question Answering in Multi-instructional Documents [61.41316121093604]
対話型質問応答(CQA)の文脈における大規模言語モデル(LLM)を評価するための新しいベンチマークであるInsCoQAを提案する。
InsCoQAは、百科事典スタイルの教育内容から派生したもので、複数の文書から手続き的ガイダンスを抽出し、解釈し、正確に要約する能力のモデルを評価する。
また,LLM支援型評価器であるInsEvalを提案する。
論文 参考訳(メタデータ) (2024-10-01T09:10:00Z) - Research on the Application of Large Language Models in Automatic Question Generation: A Case Study of ChatGLM in the Context of High School Information Technology Curriculum [3.0753648264454547]
モデルは多様な質問を生成するためにガイドされ、ドメインの専門家によって包括的に評価される。
以上の結果から,ChatGLMは人為的な質問に対して,明快さと教師の利用意欲で優れていたことが示唆された。
論文 参考訳(メタデータ) (2024-08-21T11:38:32Z) - Evaluating the Generation Capabilities of Large Chinese Language Models [27.598864484231477]
本稿では,CG-Evalについて紹介する。
学術分野にまたがる大規模な中国語モデルの生成能力を評価する。
Gscoreは、参照標準に対するモデルのテキスト生成の品質測定を自動化する。
論文 参考訳(メタデータ) (2023-08-09T09:22:56Z) - Benchmarking Foundation Models with Language-Model-as-an-Examiner [47.345760054595246]
本稿では,新しいベンチマークフレームワークLanguage-Model-as-an-Examinerを提案する。
LMは、その知識に基づいて質問を定式化し、基準のない方法で応答を評価する、知識に富んだ検査者として機能する。
論文 参考訳(メタデータ) (2023-06-07T06:29:58Z) - Evaluating the Performance of Large Language Models on GAOKAO Benchmark [53.663757126289795]
本稿では,中国のガオカオ検定の質問をサンプルとして用いた直感的なベンチマークであるガオカオベンチについて紹介する。
人間の評価により, GPT-4, ChatGPT, ERNIE-Botを含むLLMの変換総得点を得た。
また、LLMを用いて主観的質問を格付けし、モデルスコアが人間のスコアと適度な一貫性を達成することを確認する。
論文 参考訳(メタデータ) (2023-05-21T14:39:28Z) - Reinforcement Learning Guided Multi-Objective Exam Paper Generation [21.945655389912112]
そこで本研究では,MOEPGと呼ばれる多目的文書生成フレームワークを提案する。
難易度、試験スコアの配分、スキルカバレッジを含む3つの試験領域固有の目的を同時に最適化する。
試験用紙生成シナリオの多重ジレンマにMOEPGが適用可能であることを示す。
論文 参考訳(メタデータ) (2023-03-02T07:55:52Z) - What should I Ask: A Knowledge-driven Approach for Follow-up Questions
Generation in Conversational Surveys [63.51903260461746]
対話型調査における知識駆動型フォローアップ質問生成のための新しい課題を提案する。
そこで我々は,対話履歴とラベル付き知識を用いた人手によるフォローアップ質問の新しいデータセットを構築した。
次に,その課題に対する2段階の知識駆動モデルを提案する。
論文 参考訳(メタデータ) (2022-05-23T00:57:33Z) - Quiz Design Task: Helping Teachers Create Quizzes with Automated
Question Generation [87.34509878569916]
本稿では,教師が読解クイズを自動生成するためのユースケースに焦点を当てた。
本研究は,クイズを構築中の教師が質問を受講し,それに応じるか,あるいは拒否するかのどちらかを理由として行う。
論文 参考訳(メタデータ) (2022-05-03T18:59:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。