論文の概要: From Answers to Questions: EQGBench for Evaluating LLMs' Educational Question Generation
- arxiv url: http://arxiv.org/abs/2508.10005v1
- Date: Tue, 05 Aug 2025 14:16:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-15 22:24:47.996052
- Title: From Answers to Questions: EQGBench for Evaluating LLMs' Educational Question Generation
- Title(参考訳): 質問への答え:LLMの教育的質問生成評価のためのEQGBench
- Authors: Chengliang Zhou, Mei Wang, Ting Zhang, Qiannan Zhu, Jian Li, Hua Huang,
- Abstract要約: 大規模言語モデル (LLM) は数学的な問題解決において顕著な能力を示した。
中国教育質問生成におけるLLMの性能を評価するためのベンチマークであるEQGBenchを紹介する。
このデータセットには、さまざまな知識ポイント、難易度勾配、質問タイプ仕様を含むユーザクエリが組み込まれ、現実的な教育シナリオをシミュレートする。
- 参考スコア(独自算出の注目度): 30.57730587890455
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have demonstrated remarkable capabilities in mathematical problem-solving. However, the transition from providing answers to generating high-quality educational questions presents significant challenges that remain underexplored. To advance Educational Question Generation (EQG) and facilitate LLMs in generating pedagogically valuable and educationally effective questions, we introduce EQGBench, a comprehensive benchmark specifically designed for evaluating LLMs' performance in Chinese EQG. EQGBench establishes a five-dimensional evaluation framework supported by a dataset of 900 evaluation samples spanning three fundamental middle school disciplines: mathematics, physics, and chemistry. The dataset incorporates user queries with varying knowledge points, difficulty gradients, and question type specifications to simulate realistic educational scenarios. Through systematic evaluation of 46 mainstream large models, we reveal significant room for development in generating questions that reflect educational value and foster students' comprehensive abilities.
- Abstract(参考訳): 大規模言語モデル (LLM) は数学的な問題解決において顕著な能力を示した。
しかし、回答を提供することから質の高い教育的問題を生み出すことへの移行は、未調査のままの重大な課題を呈している。
教育的質問生成(EQG)を推進し,教育的に価値があり効果的な質問を生成する上でLLMを促進するために,中国EQGにおけるLLMのパフォーマンスを評価するための総合的なベンチマークであるEQGBenchを紹介する。
EQGBenchは、数学、物理学、化学という3つの基本的な中学の分野にまたがる900の評価サンプルのデータセットによってサポートされている5次元評価フレームワークを確立する。
このデータセットには、さまざまな知識ポイント、難易度勾配、質問タイプ仕様を含むユーザクエリが組み込まれ、現実的な教育シナリオをシミュレートする。
46の主流大モデルの体系的評価を通じて,教育的価値を反映し,学生の包括的能力を育成する質問を発生させる上で,発展のための重要な余地を明らかにする。
関連論文リスト
- MDK12-Bench: A Comprehensive Evaluation of Multimodal Large Language Models on Multidisciplinary Exams [50.293164501645975]
MLLM(Multimodal large language model)は、言語と視覚を統合して問題解決を行う。
MLLMのインテリジェンスを測定するための現在のベンチマークは、限られた規模、狭い範囲、構造化されていない知識に悩まされている。
MDK12-Benchは、6つの分野にまたがる実世界のK-12試験から構築された大規模マルチディシプリナベンチマークである。
論文 参考訳(メタデータ) (2025-08-09T06:21:10Z) - From Objectives to Questions: A Planning-based Framework for Educational Mathematical Question Generation [32.76585750014007]
本稿では,自己回帰法(EQPR)を用いた数学的質問生成のための教育的質問計画を提案する。
モンテカルロ木探索に基づく計画アルゴリズムと大規模言語モデルの生成機能を組み合わせることで,質問を継続的に最適化する。
我々は,EQPRが多次元の教育目的を満たす質問生成において,大幅な改善を達成できることを実証した。
論文 参考訳(メタデータ) (2025-06-01T11:23:18Z) - AGENT-CQ: Automatic Generation and Evaluation of Clarifying Questions for Conversational Search with LLMs [53.6200736559742]
エージェント-CQは、世代ステージと評価ステージの2つのステージから構成される。
CrowdLLMは、人間のクラウドソーシング判断をシミュレートして、生成された質問や回答を評価する。
ClariQデータセットの実験では、質問と回答の品質を評価するCrowdLLMの有効性が示されている。
論文 参考訳(メタデータ) (2024-10-25T17:06:27Z) - CJEval: A Benchmark for Assessing Large Language Models Using Chinese Junior High School Exam Data [31.324617466692754]
CJEvalは中国の中学校のエクサム評価に基づくベンチマークである。
26,136個のサンプルから成っている。
このベンチマークを用いて,LLMの潜在的な応用性を評価し,その性能を総合的に分析した。
論文 参考訳(メタデータ) (2024-09-24T16:00:28Z) - Application of Large Language Models in Automated Question Generation: A Case Study on ChatGLM's Structured Questions for National Teacher Certification Exams [2.7363336723930756]
本研究では,全国教師認定試験(NTCE)における構造化質問の自動生成における大規模言語モデル(LLM)ChatGLMの適用可能性について検討する。
筆者らは,ChatGLMを指導し,一連の模擬質問を生成するとともに,過去の質問を総合的に比較した。
研究結果は,ChatGLMが生み出した質問は,実際の試験質問と同様,高い合理性,科学的性,実践性を示すことを示している。
論文 参考訳(メタデータ) (2024-08-19T13:32:14Z) - Automated Educational Question Generation at Different Bloom's Skill Levels using Large Language Models: Strategies and Evaluation [0.0]
我々は,5つの最先端の大規模言語モデルを用いて,認知レベルの多様で高品質な質問を生成する能力について検討した。
以上の結果から,LLmsは適切な情報によって認知レベルが異なる関連性のある,高品質な教育的質問を生じさせる可能性が示唆された。
論文 参考訳(メタデータ) (2024-08-08T11:56:57Z) - LOVA3: Learning to Visual Question Answering, Asking and Assessment [61.51687164769517]
質問への回答、質問、評価は、世界を理解し、知識を得るのに不可欠な3つの人間の特性である。
現在のMLLM(Multimodal Large Language Models)は主に質問応答に焦点を当てており、質問や評価スキルの可能性を無視することが多い。
LOVA3は、"Learning tO Visual Question Answering, Asking and Assessment"と名付けられた革新的なフレームワークである。
論文 参考訳(メタデータ) (2024-05-23T18:21:59Z) - Adapting Large Language Models for Education: Foundational Capabilities, Potentials, and Challenges [60.62904929065257]
大規模言語モデル(LLM)は、個々の要求を解釈することでこの問題を解決する可能性を提供する。
本稿では, 数学, 文章, プログラミング, 推論, 知識に基づく質問応答など, 教育能力に関する最近のLLM研究を概観する。
論文 参考訳(メタデータ) (2023-12-27T14:37:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。