論文の概要: Evaluating LLM-Generated Q&A Test: a Student-Centered Study
- arxiv url: http://arxiv.org/abs/2505.06591v1
- Date: Sat, 10 May 2025 10:47:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-13 20:21:48.928929
- Title: Evaluating LLM-Generated Q&A Test: a Student-Centered Study
- Title(参考訳): LLMによるQ&Aテストの評価 : 学生中心による研究
- Authors: Anna Wróblewska, Bartosz Grabek, Jakub Świstak, Daniel Dan,
- Abstract要約: 我々は, GPT-4o-mini-based Q&A test for a Natural Language Processing course を自動生成し, 学生と専門家による心理測定, 知覚品質指標の評価を行った。
混合形式IRT分析では、生成したアイテムは強い差別と適切な難易度を示し、一方、学生と専門家のスター格付けは全体的な品質を反映している。
- 参考スコア(独自算出の注目度): 0.06749750044497731
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This research prepares an automatic pipeline for generating reliable question-answer (Q&A) tests using AI chatbots. We automatically generated a GPT-4o-mini-based Q&A test for a Natural Language Processing course and evaluated its psychometric and perceived-quality metrics with students and experts. A mixed-format IRT analysis showed that the generated items exhibit strong discrimination and appropriate difficulty, while student and expert star ratings reflect high overall quality. A uniform DIF check identified two items for review. These findings demonstrate that LLM-generated assessments can match human-authored tests in psychometric performance and user satisfaction, illustrating a scalable approach to AI-assisted assessment development.
- Abstract(参考訳): 本研究では,AIチャットボットを用いた質問応答(Q&A)テストの自動パイプラインを作成する。
我々は, GPT-4o-mini-based Q&A test for a Natural Language Processing course を自動生成し, 学生と専門家による心理測定, 知覚品質指標の評価を行った。
混合形式IRT分析では、生成したアイテムは強い差別と適切な難易度を示し、一方、学生と専門家のスター格付けは全体的な品質を反映している。
統一されたDIFチェックは、レビューする2つのアイテムを特定します。
これらの結果から, LLMによる評価は, 心理測定性能とユーザ満足度において, 人為的な評価と一致し, スケーラブルなAI支援アセスメント開発へのアプローチが示唆された。
関連論文リスト
- Analyzing Examinee Comments using DistilBERT and Machine Learning to Ensure Quality Control in Exam Content [0.0]
本研究では、自然言語処理(NLP)を用いて、問題のあるテスト項目を特定するための候補コメントの分析を行う。
我々は、関連する負のフィードバックを自動的に識別する機械学習モデルを開発し、検証した。
論文 参考訳(メタデータ) (2025-04-08T22:08:37Z) - QG-SMS: Enhancing Test Item Analysis via Student Modeling and Simulation [13.202947148434333]
テスト項目分析(テスト項目解析)をQG評価に導入する。
トピックカバレッジ、アイテムの難易度、アイテムの識別、イントラクタ効率など、ディメンションによって品質が異なる質問のペアを構築します。
学生のモデリングとシミュレーションに大規模言語モデルを活用する新しいQG評価フレームワークQG-SMSを提案する。
論文 参考訳(メタデータ) (2025-03-07T19:21:59Z) - HREF: Human Response-Guided Evaluation of Instruction Following in Language Models [61.273153125847166]
我々は新しい評価ベンチマークHREF(Human Response-Guided Evaluation of Instruction following)を開発した。
HREFは信頼性の高い評価を提供するだけでなく、個々のタスクのパフォーマンスを強調し、汚染を受けない。
本稿では,評価セットのサイズ,判断モデル,ベースラインモデル,プロンプトテンプレートなど,HREFにおける鍵設計選択の影響について検討する。
論文 参考訳(メタデータ) (2024-12-20T03:26:47Z) - AGENT-CQ: Automatic Generation and Evaluation of Clarifying Questions for Conversational Search with LLMs [53.6200736559742]
エージェント-CQは、世代ステージと評価ステージの2つのステージから構成される。
CrowdLLMは、人間のクラウドソーシング判断をシミュレートして、生成された質問や回答を評価する。
ClariQデータセットの実験では、質問と回答の品質を評価するCrowdLLMの有効性が示されている。
論文 参考訳(メタデータ) (2024-10-25T17:06:27Z) - An Automatic and Cost-Efficient Peer-Review Framework for Language Generation Evaluation [29.81362106367831]
既存の評価手法は、しばしば高いコスト、限られたテスト形式、人間の参照の必要性、体系的な評価バイアスに悩まされる。
人間のアノテーションに依存する以前の研究とは対照的に、Auto-PREはそれら固有の特性に基づいて自動的に評価者を選択する。
実験結果から,我々のAuto-PREは最先端の性能を低コストで達成できることが示された。
論文 参考訳(メタデータ) (2024-10-16T06:06:06Z) - Application of Large Language Models in Automated Question Generation: A Case Study on ChatGLM's Structured Questions for National Teacher Certification Exams [2.7363336723930756]
本研究では,全国教師認定試験(NTCE)における構造化質問の自動生成における大規模言語モデル(LLM)ChatGLMの適用可能性について検討する。
筆者らは,ChatGLMを指導し,一連の模擬質問を生成するとともに,過去の質問を総合的に比較した。
研究結果は,ChatGLMが生み出した質問は,実際の試験質問と同様,高い合理性,科学的性,実践性を示すことを示している。
論文 参考訳(メタデータ) (2024-08-19T13:32:14Z) - An Automatic Question Usability Evaluation Toolkit [1.2499537119440245]
多重選択質問(MCQ)を評価するには、労働集約的な人的評価か、可読性を優先する自動化方法のいずれかが必要となる。
MCQの総合的かつ自動化された品質評価のために,IWFルーブリックを利用したオープンソースツールであるSAQUETを紹介する。
94%以上の精度で,既存の評価手法の限界を強調し,教育評価の質向上の可能性を示した。
論文 参考訳(メタデータ) (2024-05-30T23:04:53Z) - Position: AI Evaluation Should Learn from How We Test Humans [65.36614996495983]
人間の評価のための20世紀起源の理論である心理測定は、今日のAI評価における課題に対する強力な解決策になり得る、と我々は主張する。
論文 参考訳(メタデータ) (2023-06-18T09:54:33Z) - Evaluating the Performance of Large Language Models on GAOKAO Benchmark [53.663757126289795]
本稿では,中国のガオカオ検定の質問をサンプルとして用いた直感的なベンチマークであるガオカオベンチについて紹介する。
人間の評価により, GPT-4, ChatGPT, ERNIE-Botを含むLLMの変換総得点を得た。
また、LLMを用いて主観的質問を格付けし、モデルスコアが人間のスコアと適度な一貫性を達成することを確認する。
論文 参考訳(メタデータ) (2023-05-21T14:39:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。