論文の概要: Analyzing Examinee Comments using DistilBERT and Machine Learning to Ensure Quality Control in Exam Content
- arxiv url: http://arxiv.org/abs/2504.06465v1
- Date: Tue, 08 Apr 2025 22:08:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-10 13:06:49.025845
- Title: Analyzing Examinee Comments using DistilBERT and Machine Learning to Ensure Quality Control in Exam Content
- Title(参考訳): DistilBERTと機械学習を用いたエクササイズコメントの分析によるエクサムコンテンツの品質管理
- Authors: Ye, Ma,
- Abstract要約: 本研究では、自然言語処理(NLP)を用いて、問題のあるテスト項目を特定するための候補コメントの分析を行う。
我々は、関連する負のフィードバックを自動的に識別する機械学習モデルを開発し、検証した。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: This study explores using Natural Language Processing (NLP) to analyze candidate comments for identifying problematic test items. We developed and validated machine learning models that automatically identify relevant negative feedback, evaluated approaches of incorporating psychometric features enhances model performance, and compared NLP-flagged items with traditionally flagged items. Results demonstrate that candidate feedback provides valuable complementary information to statistical methods, potentially improving test validity while reducing manual review burden. This research offers testing organizations an efficient mechanism to incorporate direct candidate experience into quality assurance processes.
- Abstract(参考訳): 本研究では、自然言語処理(NLP)を用いて、問題のあるテスト項目を特定するための候補コメントの分析を行う。
我々は,関連する負のフィードバックを自動的に識別する機械学習モデルを開発し,その妥当性を検証し,心理学的特徴を取り入れた評価手法によりモデル性能が向上し,従来のフラグ付きアイテムと比較した。
その結果,候補フィードバックは統計的手法に有効な補完情報を提供し,手作業によるレビュー負担を軽減しつつ,テストの有効性を向上する可能性が示唆された。
この研究は、テスト組織に、品質保証プロセスに直接的な候補経験を組み込む効率的なメカニズムを提供する。
関連論文リスト
- Scoring Verifiers: Evaluating Synthetic Verification for Code and Reasoning [59.25951947621526]
本稿では,既存の符号化ベンチマークをスコアとランキングデータセットに変換して,合成検証の有効性を評価する手法を提案する。
我々は4つの新しいベンチマーク(HE-R, HE-R+, MBPP-R, MBPP-R+)を公表し, 標準, 推論, 報酬に基づくLCMを用いて合成検証手法を解析した。
実験の結果, 推論はテストケースの生成を著しく改善し, テストケースのスケーリングによって検証精度が向上することがわかった。
論文 参考訳(メタデータ) (2025-02-19T15:32:11Z) - HREF: Human Response-Guided Evaluation of Instruction Following in Language Models [61.273153125847166]
我々は新しい評価ベンチマークHREF(Human Response-Guided Evaluation of Instruction following)を開発した。
HREFは信頼性の高い評価を提供するだけでなく、個々のタスクのパフォーマンスを強調し、汚染を受けない。
本稿では,評価セットのサイズ,判断モデル,ベースラインモデル,プロンプトテンプレートなど,HREFにおける鍵設計選択の影響について検討する。
論文 参考訳(メタデータ) (2024-12-20T03:26:47Z) - NLP and Education: using semantic similarity to evaluate filled gaps in a large-scale Cloze test in the classroom [0.0]
ブラジルの学生を対象にしたクローゼテストのデータを用いて,ブラジルポルトガル語(PT-BR)のWEモデルを用いて意味的類似度を測定した。
WEモデルのスコアと審査員の評価を比較した結果,GloVeが最も効果的なモデルであることが判明した。
論文 参考訳(メタデータ) (2024-11-02T15:22:26Z) - Context-Aware Testing: A New Paradigm for Model Testing with Large Language Models [49.06068319380296]
我々は,コンテキストを帰納バイアスとして用いて意味のあるモデル障害を探索するコンテキスト認識テスト(CAT)を導入する。
最初のCATシステムSMART Testingをインスタンス化し、大きな言語モデルを用いて、関連性があり、起こりうる失敗を仮説化します。
論文 参考訳(メタデータ) (2024-10-31T15:06:16Z) - An Automatic and Cost-Efficient Peer-Review Framework for Language Generation Evaluation [29.81362106367831]
既存の評価手法は、しばしば高いコスト、限られたテスト形式、人間の参照の必要性、体系的な評価バイアスに悩まされる。
人間のアノテーションに依存する以前の研究とは対照的に、Auto-PREはそれら固有の特性に基づいて自動的に評価者を選択する。
実験結果から,我々のAuto-PREは最先端の性能を低コストで達成できることが示された。
論文 参考訳(メタデータ) (2024-10-16T06:06:06Z) - Zero-shot Generative Large Language Models for Systematic Review
Screening Automation [55.403958106416574]
本研究では,ゼロショット大言語モデルを用いた自動スクリーニングの有効性について検討した。
本研究では, 8種類のLCMの有効性を評価し, 予め定義されたリコール閾値を用いた校正手法について検討する。
論文 参考訳(メタデータ) (2024-01-12T01:54:08Z) - Automated Test Production -- Systematic Literature Review [0.0]
本総説は,コンピュータプログラムの自動テスト生産に関する主な貢献を明らかにすることを目的としている。
その結果、包括的な分析と洞察によって、適用性を評価することが可能になる。
論文 参考訳(メタデータ) (2024-01-04T02:21:18Z) - Measuring Software Testability via Automatically Generated Test Cases [8.17364116624769]
ソフトウェアメトリクスに基づいたテスト容易性測定のための新しい手法を提案する。
提案手法は, 自動検査生成と突然変異解析を利用して, 有効な検査症例の相対的硬度に関する証拠を定量化する。
論文 参考訳(メタデータ) (2023-07-30T09:48:51Z) - From Static Benchmarks to Adaptive Testing: Psychometrics in AI Evaluation [60.14902811624433]
本稿では,静的評価手法から適応テストへのパラダイムシフトについて論じる。
これには、ベンチマークで各テスト項目の特性と価値を推定し、リアルタイムでアイテムを動的に調整することが含まれる。
我々は、AI評価にサイコメトリックを採用する現在のアプローチ、アドバンテージ、そして根底にある理由を分析します。
論文 参考訳(メタデータ) (2023-06-18T09:54:33Z) - Towards Automatic Evaluation of Dialog Systems: A Model-Free Off-Policy
Evaluation Approach [84.02388020258141]
強化学習におけるオフポリシ評価に基づく人間評価スコア推定のための新しいフレームワークであるENIGMAを提案する。
ENIGMAはいくつかの事前収集された経験データしか必要としないため、評価中にターゲットポリシーとのヒューマンインタラクションは不要である。
実験の結果,ENIGMAは人間の評価スコアと相関して既存手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2021-02-20T03:29:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。