論文の概要: An Automatic Question Usability Evaluation Toolkit
- arxiv url: http://arxiv.org/abs/2405.20529v1
- Date: Thu, 30 May 2024 23:04:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-03 16:05:36.891800
- Title: An Automatic Question Usability Evaluation Toolkit
- Title(参考訳): ユーザビリティ自動評価ツールキット
- Authors: Steven Moore, Eamon Costello, Huy A. Nguyen, John Stamper,
- Abstract要約: 多重選択質問(MCQ)を評価するには、労働集約的な人的評価か、可読性を優先する自動化方法のいずれかが必要となる。
MCQの総合的かつ自動化された品質評価のために,IWFルーブリックを利用したオープンソースツールであるSAQUETを紹介する。
94%以上の精度で,既存の評価手法の限界を強調し,教育評価の質向上の可能性を示した。
- 参考スコア(独自算出の注目度): 1.2499537119440245
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Evaluating multiple-choice questions (MCQs) involves either labor intensive human assessments or automated methods that prioritize readability, often overlooking deeper question design flaws. To address this issue, we introduce the Scalable Automatic Question Usability Evaluation Toolkit (SAQUET), an open-source tool that leverages the Item-Writing Flaws (IWF) rubric for a comprehensive and automated quality evaluation of MCQs. By harnessing the latest in large language models such as GPT-4, advanced word embeddings, and Transformers designed to analyze textual complexity, SAQUET effectively pinpoints and assesses a wide array of flaws in MCQs. We first demonstrate the discrepancy between commonly used automated evaluation metrics and the human assessment of MCQ quality. Then we evaluate SAQUET on a diverse dataset of MCQs across the five domains of Chemistry, Statistics, Computer Science, Humanities, and Healthcare, showing how it effectively distinguishes between flawed and flawless questions, providing a level of analysis beyond what is achievable with traditional metrics. With an accuracy rate of over 94% in detecting the presence of flaws identified by human evaluators, our findings emphasize the limitations of existing evaluation methods and showcase potential in improving the quality of educational assessments.
- Abstract(参考訳): 多重選択質問(MCQ)を評価するには、労働集約的な人的評価か、可読性を優先する自動化手法のいずれかが関係する。
この問題に対処するため,我々は,MCQの総合的かつ自動品質評価を行うために,IWF(Item-Writing Flaws)ルーブリックを活用したオープンソースのツールである,スケーラブル自動質問応答性評価ツールキット(SAQUET)を紹介した。
GPT-4、高度な単語埋め込み、テキストの複雑さを分析するために設計されたトランスフォーマーなどの最新の言語モデルを活用することで、SAQUETはMCQの幅広い欠陥を効果的に特定し評価する。
まず,一般的な自動評価指標とMCQ品質の人的評価の相違について述べる。
次に、化学、統計学、コンピュータ科学、人文科学、ヘルスケアの5分野にわたるMCQの多様なデータセットに基づいてSAQUETを評価し、それが欠陥と欠陥のない質問を効果的に区別し、従来のメトリクスで達成可能なもの以上の分析レベルを提供する方法を示している。
人的評価者が同定した欠陥の有無を94%以上の精度で検出し,既存の評価手法の限界を強調し,教育評価の質向上の可能性を示した。
関連論文リスト
- AGENT-CQ: Automatic Generation and Evaluation of Clarifying Questions for Conversational Search with LLMs [53.6200736559742]
エージェント-CQは、世代ステージと評価ステージの2つのステージから構成される。
CrowdLLMは、人間のクラウドソーシング判断をシミュレートして、生成された質問や回答を評価する。
ClariQデータセットの実験では、質問と回答の品質を評価するCrowdLLMの有効性が示されている。
論文 参考訳(メタデータ) (2024-10-25T17:06:27Z) - MCQG-SRefine: Multiple Choice Question Generation and Evaluation with Iterative Self-Critique, Correction, and Comparison Feedback [6.681247642186701]
医療事例を高品質なUSMLEスタイルの質問に変換する枠組みを提案する。
MCQG-SRefineは、専門家主導のプロンプトエンジニアリングと反復的な自己批判と自己補正フィードバックを統合している。
複雑でコストのかかる専門家評価プロセスを置き換えるため, LLM-as-Judge を用いた自動計測手法を提案する。
論文 参考訳(メタデータ) (2024-10-17T03:38:29Z) - MIRROR: A Novel Approach for the Automated Evaluation of Open-Ended Question Generation [0.4857223913212445]
自動質問生成システムによって生成される質問に対する評価プロセスを自動化する新しいシステムMIRRORを提案する。
その結果,MIRRORと呼ばれるフィードバックに基づく手法を用いることで,人間の評価指標,すなわち妥当性,適切性,新規性,複雑性,文法性のスコアが向上した。
論文 参考訳(メタデータ) (2024-10-16T12:24:42Z) - A Step Towards Mixture of Grader: Statistical Analysis of Existing Automatic Evaluation Metrics [6.571049277167304]
既存の評価指標の統計について検討し,その限界をよりよく理解する。
潜在的な解決策として、Mixture Of Graderが自動QA評価器の品質を向上する可能性について論じる。
論文 参考訳(メタデータ) (2024-10-13T22:10:42Z) - QGEval: Benchmarking Multi-dimensional Evaluation for Question Generation [9.001613702628253]
人間の評価は質問生成(QG)の分野で広く使われており、自動メトリクスのゴールドスタンダードとして機能している。
統一された評価基準が欠如しており、QGモデルと自動メトリクスの両方の一貫性のある評価を妨げている。
質問生成のための多次元評価ベンチマークであるQGEvalを提案する。
論文 参考訳(メタデータ) (2024-06-09T09:51:55Z) - SQUARE: Automatic Question Answering Evaluation using Multiple Positive
and Negative References [73.67707138779245]
SQuArE (Sentence-level QUestion AnsweRing Evaluation) という新しい評価指標を提案する。
文レベルの抽出(回答選択)と生成(GenQA)の両方のQAシステムでSQuArEを評価する。
論文 参考訳(メタデータ) (2023-09-21T16:51:30Z) - From Static Benchmarks to Adaptive Testing: Psychometrics in AI Evaluation [60.14902811624433]
本稿では,静的評価手法から適応テストへのパラダイムシフトについて論じる。
これには、ベンチマークで各テスト項目の特性と価値を推定し、リアルタイムでアイテムを動的に調整することが含まれる。
我々は、AI評価にサイコメトリックを採用する現在のアプローチ、アドバンテージ、そして根底にある理由を分析します。
論文 参考訳(メタデータ) (2023-06-18T09:54:33Z) - Towards Robust Text-Prompted Semantic Criterion for In-the-Wild Video
Quality Assessment [54.31355080688127]
コントラスト言語画像事前学習(CLIP)を用いたテキストプロンプト付きセマンティック親和性品質指標(SAQI)とそのローカライズ版(SAQI-Local)を導入する。
BVQI-Localは前例のないパフォーマンスを示し、すべてのデータセットで既存のゼロショットインデックスを少なくとも24%上回る。
我々は、異なる指標の異なる品質問題を調べるために包括的な分析を行い、設計の有効性と合理性を示す。
論文 参考訳(メタデータ) (2023-04-28T08:06:05Z) - Pushing the Right Buttons: Adversarial Evaluation of Quality Estimation [25.325624543852086]
本稿では,機械翻訳(MT)システムにおける品質推定の逆検定法を提案する。
近年のSOTAによる人的判断と高い相関があるにもかかわらず、ある種の意味エラーはQEが検出する上で問題である。
第二に、平均的に、あるモデルが意味保存と意味調整の摂動を区別する能力は、その全体的な性能を予測できることが示される。
論文 参考訳(メタデータ) (2021-09-22T17:32:18Z) - GO FIGURE: A Meta Evaluation of Factuality in Summarization [131.1087461486504]
本稿では,現実性評価指標を評価するメタ評価フレームワークGO FIGUREを紹介する。
10個の実測値のベンチマーク分析により、我々のフレームワークが堅牢で効率的な評価を提供することが明らかとなった。
また、QAメトリクスは、ドメイン間の事実性を測定する標準的なメトリクスよりも一般的に改善されているが、パフォーマンスは、質問を生成する方法に大きく依存していることも明らかにしている。
論文 参考訳(メタデータ) (2020-10-24T08:30:20Z) - Tangled up in BLEU: Reevaluating the Evaluation of Automatic Machine
Translation Evaluation Metrics [64.88815792555451]
評価法は, 評価に用いる翻訳に非常に敏感であることを示す。
本研究では,人的判断に対する自動評価基準の下で,性能改善をしきい値にする方法を開発した。
論文 参考訳(メタデータ) (2020-06-11T09:12:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。