論文の概要: QG-SMS: Enhancing Test Item Analysis via Student Modeling and Simulation
- arxiv url: http://arxiv.org/abs/2503.05888v1
- Date: Fri, 07 Mar 2025 19:21:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:53:33.165768
- Title: QG-SMS: Enhancing Test Item Analysis via Student Modeling and Simulation
- Title(参考訳): QG-SMS:学生モデルとシミュレーションによるテスト項目分析の強化
- Authors: Bang Nguyen, Tingting Du, Mengxia Yu, Lawrence Angrave, Meng Jiang,
- Abstract要約: テスト項目分析(テスト項目解析)をQG評価に導入する。
トピックカバレッジ、アイテムの難易度、アイテムの識別、イントラクタ効率など、ディメンションによって品質が異なる質問のペアを構築します。
学生のモデリングとシミュレーションに大規模言語モデルを活用する新しいQG評価フレームワークQG-SMSを提案する。
- 参考スコア(独自算出の注目度): 13.202947148434333
- License:
- Abstract: While the Question Generation (QG) task has been increasingly adopted in educational assessments, its evaluation remains limited by approaches that lack a clear connection to the educational values of test items. In this work, we introduce test item analysis, a method frequently used by educators to assess test question quality, into QG evaluation. Specifically, we construct pairs of candidate questions that differ in quality across dimensions such as topic coverage, item difficulty, item discrimination, and distractor efficiency. We then examine whether existing QG evaluation approaches can effectively distinguish these differences. Our findings reveal significant shortcomings in these approaches with respect to accurately assessing test item quality in relation to student performance. To address this gap, we propose a novel QG evaluation framework, QG-SMS, which leverages Large Language Model for Student Modeling and Simulation to perform test item analysis. As demonstrated in our extensive experiments and human evaluation study, the additional perspectives introduced by the simulated student profiles lead to a more effective and robust assessment of test items.
- Abstract(参考訳): 課題生成(QG)タスクは、教育評価においてますます採用されているが、その評価は、テスト項目の教育的価値に明確な関連性を持たないアプローチによって制限されている。
本研究では,テスト項目分析(テスト項目分析)をQG評価に導入する。
具体的には、トピックカバレッジ、アイテムの難易度、アイテムの識別、イントラクタ効率など、ディメンションによって品質が異なる候補のペアを構築します。
次に,既存のQG評価手法がこれらの差異を効果的に識別できるかどうかを検討する。
本研究は,テスト項目の品質と学生の成績を正確に評価する上で,これらの手法の重大な欠点を明らかにするものである。
このギャップに対処するために、学生モデリングとシミュレーションのための大規模言語モデルを利用してテスト項目分析を行う新しいQG評価フレームワーク、QG-SMSを提案する。
広範囲にわたる実験と人的評価研究で実証されたように、シミュレーションされた学生プロファイルによって導入された追加の視点は、テスト項目をより効果的かつ堅牢に評価することにつながる。
関連論文リスト
- HREF: Human Response-Guided Evaluation of Instruction Following in Language Models [61.273153125847166]
我々は新しい評価ベンチマークHREF(Human Response-Guided Evaluation of Instruction following)を開発した。
HREFは信頼性の高い評価を提供するだけでなく、個々のタスクのパフォーマンスを強調し、汚染を受けない。
本稿では,評価セットのサイズ,判断モデル,ベースラインモデル,プロンプトテンプレートなど,HREFにおける鍵設計選択の影響について検討する。
論文 参考訳(メタデータ) (2024-12-20T03:26:47Z) - NLP and Education: using semantic similarity to evaluate filled gaps in a large-scale Cloze test in the classroom [0.0]
ブラジルの学生を対象にしたクローゼテストのデータを用いて,ブラジルポルトガル語(PT-BR)のWEモデルを用いて意味的類似度を測定した。
WEモデルのスコアと審査員の評価を比較した結果,GloVeが最も効果的なモデルであることが判明した。
論文 参考訳(メタデータ) (2024-11-02T15:22:26Z) - Application of Large Language Models in Automated Question Generation: A Case Study on ChatGLM's Structured Questions for National Teacher Certification Exams [2.7363336723930756]
本研究では,全国教師認定試験(NTCE)における構造化質問の自動生成における大規模言語モデル(LLM)ChatGLMの適用可能性について検討する。
筆者らは,ChatGLMを指導し,一連の模擬質問を生成するとともに,過去の質問を総合的に比較した。
研究結果は,ChatGLMが生み出した質問は,実際の試験質問と同様,高い合理性,科学的性,実践性を示すことを示している。
論文 参考訳(メタデータ) (2024-08-19T13:32:14Z) - An Automatic Question Usability Evaluation Toolkit [1.2499537119440245]
多重選択質問(MCQ)を評価するには、労働集約的な人的評価か、可読性を優先する自動化方法のいずれかが必要となる。
MCQの総合的かつ自動化された品質評価のために,IWFルーブリックを利用したオープンソースツールであるSAQUETを紹介する。
94%以上の精度で,既存の評価手法の限界を強調し,教育評価の質向上の可能性を示した。
論文 参考訳(メタデータ) (2024-05-30T23:04:53Z) - ConSiDERS-The-Human Evaluation Framework: Rethinking Human Evaluation for Generative Large Language Models [53.00812898384698]
生成型大規模言語モデル(LLM)の人間による評価は多分野にわたる作業であるべきだと論じる。
認知バイアスが、流動的な情報や真理をいかに説明するか、そして、認識の不確実性が、Likertのような評価スコアの信頼性にどのように影響するかを強調します。
本稿では,ConSiDERS-The-Human評価フレームワークを提案する。一貫性,スコーリング基準,差別化,ユーザエクスペリエンス,責任,スケーラビリティの6つの柱からなる。
論文 参考訳(メタデータ) (2024-05-28T22:45:28Z) - Assessing test artifact quality -- A tertiary study [1.7827643249624088]
我々は、ソフトウェアテストアーティファクトの品質面に関する既存の二次研究を特定し、分析するために、系統的な文献レビューを実施してきた。
テストケース/スーツの品質を調査する環境を特徴付けるのに使用できる文脈次元と要因の集約について述べる。
論文 参考訳(メタデータ) (2024-02-14T19:31:57Z) - Q-Align: Teaching LMMs for Visual Scoring via Discrete Text-Defined
Levels [95.44077384918725]
スコアの代わりにテキスト定義のレーティングレベルを持つ大規模マルチモーダリティモデル(LMM)を提案する。
提案したQ-Alignは、画像品質評価(IQA)、画像美学評価(IAA)、映像品質評価(VQA)タスクにおける最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-12-28T16:10:25Z) - Test-Case Quality -- Understanding Practitioners' Perspectives [1.7827643249624088]
本稿では,11種類のテストケースの品質特性からなる品質モデルを提案する。
我々は,実践者と学業者の間で,テストケースの品質を定義する上でのミスアライメントを特定した。
論文 参考訳(メタデータ) (2023-09-28T19:10:01Z) - From Static Benchmarks to Adaptive Testing: Psychometrics in AI Evaluation [60.14902811624433]
本稿では,静的評価手法から適応テストへのパラダイムシフトについて論じる。
これには、ベンチマークで各テスト項目の特性と価値を推定し、リアルタイムでアイテムを動的に調整することが含まれる。
我々は、AI評価にサイコメトリックを採用する現在のアプローチ、アドバンテージ、そして根底にある理由を分析します。
論文 参考訳(メタデータ) (2023-06-18T09:54:33Z) - Benchmarking Foundation Models with Language-Model-as-an-Examiner [47.345760054595246]
本稿では,新しいベンチマークフレームワークLanguage-Model-as-an-Examinerを提案する。
LMは、その知識に基づいて質問を定式化し、基準のない方法で応答を評価する、知識に富んだ検査者として機能する。
論文 参考訳(メタデータ) (2023-06-07T06:29:58Z) - Evaluating the Performance of Large Language Models on GAOKAO Benchmark [53.663757126289795]
本稿では,中国のガオカオ検定の質問をサンプルとして用いた直感的なベンチマークであるガオカオベンチについて紹介する。
人間の評価により, GPT-4, ChatGPT, ERNIE-Botを含むLLMの変換総得点を得た。
また、LLMを用いて主観的質問を格付けし、モデルスコアが人間のスコアと適度な一貫性を達成することを確認する。
論文 参考訳(メタデータ) (2023-05-21T14:39:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。