論文の概要: NLP Methods May Actually Be Better Than Professors at Estimating Question Difficulty
- arxiv url: http://arxiv.org/abs/2508.03294v1
- Date: Tue, 05 Aug 2025 10:12:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-06 18:18:55.909509
- Title: NLP Methods May Actually Be Better Than Professors at Estimating Question Difficulty
- Title(参考訳): NLPの手法は、質問の難しさを見積もる教授より優れているかもしれない
- Authors: Leonidas Zotos, Ivo Pascal de Jong, Matias Valdenegro-Toro, Andreea Ioana Sburlea, Malvina Nissim, Hedderik van Rijn,
- Abstract要約: 様々な大規模言語モデルに基づく手法を3人の教授と比較し,真偽試験質問に対する学生の正解率を推定した。
教師付き学習環境におけるLLMの不確実性を用いて,42のトレーニングサンプルを用いて,より優れた結果を得た。
- 参考スコア(独自算出の注目度): 15.12489035385276
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Estimating the difficulty of exam questions is essential for developing good exams, but professors are not always good at this task. We compare various Large Language Model-based methods with three professors in their ability to estimate what percentage of students will give correct answers on True/False exam questions in the areas of Neural Networks and Machine Learning. Our results show that the professors have limited ability to distinguish between easy and difficult questions and that they are outperformed by directly asking Gemini 2.5 to solve this task. Yet, we obtained even better results using uncertainties of the LLMs solving the questions in a supervised learning setting, using only 42 training samples. We conclude that supervised learning using LLM uncertainty can help professors better estimate the difficulty of exam questions, improving the quality of assessment.
- Abstract(参考訳): 試験の難しさを見積もるのはよい試験を開発するのに不可欠であるが、教授は必ずしもこの課題に長けているとは限らない。
ニューラルネットワークと機械学習の分野における真偽試験問題に対して,学生の正解率を推定する能力について,大規模言語モデルに基づく各種手法と3人の教授を比較検討した。
本研究の結果から, 教授は解答の難易度と難易度を区別する能力に限界があり, Gemini 2.5 に解答を依頼することで, 解答が得られていることがわかった。
しかし, 教師付き学習環境におけるLLMの不確実性を用いて, 42例の学習サンプルを用いて, より優れた結果を得た。
LLMの不確実性を用いた教師あり学習は、教授が試験の難しさをよりよく評価し、評価の質を向上させるのに役立つと結論付けている。
関連論文リスト
- Enhancing Student Learning with LLM-Generated Retrieval Practice Questions: An Empirical Study in Data Science Courses [0.0]
大規模言語モデル(LLM)は、プロンプトに応答して検索練習質問を生成することができる。
LLMによる検索を実践した学生は,平均89%の精度で,知識保持率を著しく向上させた。
これらの結果から,LLMが生成した検索質問は,生徒の学習を効果的に支援し,検索実践をリアルタイム学習に統合するためのスケーラブルなソリューションを提供する可能性が示唆された。
論文 参考訳(メタデータ) (2025-07-08T03:23:19Z) - LLMs in the Classroom: Outcomes and Perceptions of Questions Written with the Aid of AI [0.0]
学生はChatGPTの助けを借りて質問が書かれたかどうかを知覚できなかった。
LLMによる質問に対する学生のスコアはほぼ9%低かった。
論文 参考訳(メタデータ) (2025-03-23T22:01:49Z) - DAST: Difficulty-Aware Self-Training on Large Language Models [68.30467836807362]
大規模言語モデル(LLM)の自己学習手法は、常に挑戦的なクエリのアンダーサンプルである。
本研究は,自己生成応答の量と品質を改善することに焦点を当てた,難易度を考慮した自己学習フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-12T03:36:45Z) - The Potential of Answer Classes in Large-scale Written Computer-Science Exams -- Vol. 2 [0.0]
中等教育の教員養成では、試験ごとに評価ガイドラインが義務付けられている。
この概念を462名の学生と41名の課題を持つ大学試験に適用する。
各タスクに対して、インストラクターは、期待された応答のクラスである回答クラスを開発した。
論文 参考訳(メタデータ) (2024-12-12T10:20:39Z) - Stepwise Verification and Remediation of Student Reasoning Errors with Large Language Model Tutors [78.53699244846285]
大規模言語モデル(LLM)は、高品質なパーソナライズされた教育を全員に拡大する機会を提供する。
LLMは、学生のエラーを正確に検知し、これらのエラーに対するフィードバックを調整するのに苦労する。
教師が学生の誤りを識別し、それに基づいて回答をカスタマイズする現実世界の教育実践に触発され、我々は学生ソリューションの検証に焦点をあてる。
論文 参考訳(メタデータ) (2024-07-12T10:11:40Z) - LOVA3: Learning to Visual Question Answering, Asking and Assessment [61.51687164769517]
質問への回答、質問、評価は、世界を理解し、知識を得るのに不可欠な3つの人間の特性である。
現在のMLLM(Multimodal Large Language Models)は主に質問応答に焦点を当てており、質問や評価スキルの可能性を無視することが多い。
LOVA3は、"Learning tO Visual Question Answering, Asking and Assessment"と名付けられた革新的なフレームワークである。
論文 参考訳(メタデータ) (2024-05-23T18:21:59Z) - The Earth is Flat? Unveiling Factual Errors in Large Language Models [89.94270049334479]
ChatGPTのような大規模言語モデル(LLM)は、事前学習や微調整の知識が豊富にあるため、様々な応用がある。
それにもかかわらず、医療、ジャーナリズム、教育といった重要な分野に懸念を抱き、事実と常識の誤りを引き起こす傾向にある。
LLMにおける事実不正確な事実を明らかにすることを目的とした,新しい自動テストフレームワークであるFactCheckerを紹介する。
論文 参考訳(メタデータ) (2024-01-01T14:02:27Z) - Three Questions Concerning the Use of Large Language Models to
Facilitate Mathematics Learning [4.376598435975689]
本稿では,学生の数学的問題解決能力を高めるために,大規模言語モデルを採用する際の課題について論じる。
LLMは間違った推論プロセスを生成することができ、また、学生の回答を正そうとするときに与えられた質問の理性を理解するのに困難を示す。
論文 参考訳(メタデータ) (2023-10-20T16:05:35Z) - Novice Learner and Expert Tutor: Evaluating Math Reasoning Abilities of
Large Language Models with Misconceptions [28.759189115877028]
本稿では,Large Language Models (LLM) の数学的推論能力の数学的誤解に基づく新しい評価法を提案する。
我々の第一のアプローチは、初等学習者および専門教師としてLLMをシミュレートすることであり、特定の誤解から生じる数学問題に対する誤った回答を特定することを目的としている。
論文 参考訳(メタデータ) (2023-10-03T21:19:50Z) - MathDial: A Dialogue Tutoring Dataset with Rich Pedagogical Properties
Grounded in Math Reasoning Problems [74.73881579517055]
そこで本稿では,一般学生の誤りを表現した大規模言語モデルを用いて,人間教師の対話を生成する枠組みを提案する。
このフレームワークを用いて3kの1対1の教師-学生対話のデータセットであるMathDialを収集する方法について述べる。
論文 参考訳(メタデータ) (2023-05-23T21:44:56Z) - Neural Multi-Task Learning for Teacher Question Detection in Online
Classrooms [50.19997675066203]
教師の音声記録から質問を自動的に検出するエンドツーエンドのニューラルネットワークフレームワークを構築している。
マルチタスク学習手法を取り入れることで,質問の種類によって意味的関係の理解を深めることが可能となる。
論文 参考訳(メタデータ) (2020-05-16T02:17:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。