論文の概要: From Model to Classroom: Evaluating Generated MCQs for Portuguese with Narrative and Difficulty Concerns
- arxiv url: http://arxiv.org/abs/2506.15598v1
- Date: Wed, 18 Jun 2025 16:19:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-19 19:35:51.738029
- Title: From Model to Classroom: Evaluating Generated MCQs for Portuguese with Narrative and Difficulty Concerns
- Title(参考訳): モデルから教室へ:ナラティブと難易度を考慮したポルトガル語における生成MCQの評価
- Authors: Bernardo Leite, Henrique Lopes Cardoso, Pedro Pinto, Abel Ferreira, Luís Abreu, Isabel Rangel, Sandra Monteiro,
- Abstract要約: 本稿では,ポルトガル語の読解における複数選択質問(McQ)作成における現在の生成モデルの有効性について検討する。
以上の結果から,現在のモデルでは,人間によるMCQに匹敵する品質のMCQを生成できることが示唆された。
しかし,本研究では,意味的明瞭度と応答可能性に関する問題点を同定する。
- 参考スコア(独自算出の注目度): 0.22585387137796725
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While MCQs are valuable for learning and evaluation, manually creating them with varying difficulty levels and targeted reading skills remains a time-consuming and costly task. Recent advances in generative AI provide an opportunity to automate MCQ generation efficiently. However, assessing the actual quality and reliability of generated MCQs has received limited attention -- particularly regarding cases where generation fails. This aspect becomes particularly important when the generated MCQs are meant to be applied in real-world settings. Additionally, most MCQ generation studies focus on English, leaving other languages underexplored. This paper investigates the capabilities of current generative models in producing MCQs for reading comprehension in Portuguese, a morphologically rich language. Our study focuses on generating MCQs that align with curriculum-relevant narrative elements and span different difficulty levels. We evaluate these MCQs through expert review and by analyzing the psychometric properties extracted from student responses to assess their suitability for elementary school students. Our results show that current models can generate MCQs of comparable quality to human-authored ones. However, we identify issues related to semantic clarity and answerability. Also, challenges remain in generating distractors that engage students and meet established criteria for high-quality MCQ option design.
- Abstract(参考訳): MCQは学習と評価に有用であるが、手作業で様々な難易度と目標とする読解スキルを創造することは、時間と費用のかかる作業である。
生成AIの最近の進歩は、MCQ生成を効率的に自動化する機会を提供する。
しかしながら、生成したMCQの実際の品質と信頼性を評価することは、特に発生が失敗するケースに関して、限定的な注目を集めている。
この側面は、生成されたMCQが現実世界の設定に適用されるように意図されたときに特に重要になる。
加えて、ほとんどのMCQ世代の研究は英語に焦点をあてており、他の言語は探索されていない。
本稿では,形態的リッチ言語であるポルトガル語の読解におけるMCQの生成における現在の生成モデルの有用性について検討する。
本研究は,カリキュラムに関連する物語要素に適合し,難易度が異なるMCQを生成することに焦点を当てた。
我々は,これらのMCQを専門家のレビューを通じて評価し,学生の反応から抽出した心理測定特性を分析し,小学生の適合性を評価する。
以上の結果から,現在のモデルでは,人間によるMCQに匹敵する品質のMCQを生成できることが示唆された。
しかし,本研究では,意味的明瞭度と応答可能性に関する問題点を同定する。
また、学生を巻き込み、高品質のMCQオプション設計の確立された基準を満たす気晴らしを発生させることにも課題が残る。
関連論文リスト
- Grounding-IQA: Multimodal Language Grounding Model for Image Quality Assessment [69.07445098168344]
我々は,新しい画像品質評価(IQA)タスクパラダイム,グラウンドング-IQAを導入する。
Grounding-IQAは2つのサブタスクからなる: Grounding-IQA-description (GIQA-DES) と visual question answering (GIQA-VQA)。
グラウンドディング-IQAを実現するために,提案した自動アノテーションパイプラインを通じて対応するデータセットGIQA-160Kを構築した。
提案したタスクパラダイム,データセット,ベンチマークが,よりきめ細かいIQAアプリケーションを促進することを示す。
論文 参考訳(メタデータ) (2024-11-26T09:03:16Z) - Benchmarking Uncertainty Quantification Methods for Large Language Models with LM-Polygraph [83.90988015005934]
不確実性定量化は機械学習アプリケーションにおいて重要な要素である。
最新のUQベースラインの集合を実装した新しいベンチマークを導入する。
我々は、11タスクにわたるUQと正規化技術に関する大規模な実証的研究を行い、最も効果的なアプローチを特定した。
論文 参考訳(メタデータ) (2024-06-21T20:06:31Z) - Math Multiple Choice Question Generation via Human-Large Language Model Collaboration [5.081508251092439]
複数選択質問(MCQ)は,学生の知識を評価するための一般的な方法である。
大規模言語モデル(LLM)の最近の進歩は、MCQ生成の自動化への関心を喚起している。
本稿では,LLMと教育者間の協調を支援するためのプロトタイプツールを提案する。
論文 参考訳(メタデータ) (2024-05-01T20:53:13Z) - Exploring Automated Distractor Generation for Math Multiple-choice Questions via Large Language Models [40.50115385623107]
マルチチョイス質問(MCQ)は、評価や実践において、管理しやすく、格付けし、信頼性の高いフォーマットであるため、ほぼ全てのレベルの教育においてユビキタスである。
MCQの最も重要な側面の1つは、実際の学生の間でよくある誤りや誤解を狙った誤った選択肢である。
現在まで、高品質なイントラクタを開発するというタスクは、拡張性に制限のある教師や学習コンテンツデザイナにとって、労働力と時間を要するプロセスのままである。
論文 参考訳(メタデータ) (2024-04-02T17:31:58Z) - PROXYQA: An Alternative Framework for Evaluating Long-Form Text Generation with Large Language Models [72.57329554067195]
ProxyQAは、長文生成を評価するための革新的なフレームワークである。
さまざまなドメインにまたがる詳細なヒューマンキュレートされたメタクエストで構成されており、それぞれに事前にアノテートされた回答を持つ特定のプロキシクエストが伴っている。
プロキシクエリに対処する際の評価器の精度を通じて、生成されたコンテンツの品質を評価する。
論文 参考訳(メタデータ) (2024-01-26T18:12:25Z) - Automated Distractor and Feedback Generation for Math Multiple-choice
Questions via In-context Learning [43.83422798569986]
マルチチョイス質問(MCQ)は、管理しやすく、格付けし、信頼性の高い評価形式であるため、ほぼ全てのレベルの教育においてユビキタスである。
これまで、高品質なイントラクタを作るというタスクは、教師やコンテンツデザイナーを学ぶための労働集約的なプロセスのままだった。
本稿では,テキスト内学習をベースとした簡易な学習手法を提案する。
論文 参考訳(メタデータ) (2023-08-07T01:03:04Z) - EMBRACE: Evaluation and Modifications for Boosting RACE [0.0]
RACEは英語のテキストとそれに対応する多重選択質問(MCQ)のデータセットである
RACEは、人間の読みを理解するために、中国語の英語教師によって構築された。
本稿では,高校生を対象とした RACE テストセットの詳細な分析を行う。
論文 参考訳(メタデータ) (2023-05-15T08:21:32Z) - Learning to Reuse Distractors to support Multiple Choice Question
Generation in Education [19.408786425460498]
本稿では,教師が複数選択質問(MCQ)の作成を支援するために,手作業による回答と注意散らしの集合をいかに活用するかを検討する。
データ駆動モデルをいくつか構築し,静的な特徴ベースモデルと比較した。
自動評価と人的評価は、コンテキスト認識モデルが静的な特徴ベースのアプローチを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2022-10-25T12:48:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。