論文の概要: Evaluating the Knowledge Dependency of Questions
- arxiv url: http://arxiv.org/abs/2211.11902v1
- Date: Mon, 21 Nov 2022 23:08:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-23 17:25:06.755985
- Title: Evaluating the Knowledge Dependency of Questions
- Title(参考訳): 質問の知識依存度の評価
- Authors: Hyeongdon Moon, Yoonseok Yang, Jamin Shin, Hangyeol Yu, Seunghyun Lee,
Myeongho Jeong, Juneyoung Park, Minsam Kim, Seungtaek Choi
- Abstract要約: 知識依存解答法(KDA)を考案した新しい自動評価指標を提案する。
まず,人的調査から得られた学生の回答に基づいて,KDAの測定方法を示す。
そこで本研究では,学生の問題解決行動を模倣するために,事前学習言語モデルを活用することで,KDAを近似した2つの自動評価指標KDA_discとKDA_contを提案する。
- 参考スコア(独自算出の注目度): 12.25396414711877
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The automatic generation of Multiple Choice Questions (MCQ) has the potential
to reduce the time educators spend on student assessment significantly.
However, existing evaluation metrics for MCQ generation, such as BLEU, ROUGE,
and METEOR, focus on the n-gram based similarity of the generated MCQ to the
gold sample in the dataset and disregard their educational value. They fail to
evaluate the MCQ's ability to assess the student's knowledge of the
corresponding target fact. To tackle this issue, we propose a novel automatic
evaluation metric, coined Knowledge Dependent Answerability (KDA), which
measures the MCQ's answerability given knowledge of the target fact.
Specifically, we first show how to measure KDA based on student responses from
a human survey. Then, we propose two automatic evaluation metrics, KDA_disc and
KDA_cont, that approximate KDA by leveraging pre-trained language models to
imitate students' problem-solving behavior. Through our human studies, we show
that KDA_disc and KDA_soft have strong correlations with both (1) KDA and (2)
usability in an actual classroom setting, labeled by experts. Furthermore, when
combined with n-gram based similarity metrics, KDA_disc and KDA_cont are shown
to have a strong predictive power for various expert-labeled MCQ quality
measures.
- Abstract(参考訳): 多重選択質問の自動生成(mcq)は、教育者が学生評価に費やす時間を大幅に削減する可能性がある。
しかし、既存の評価指標であるBLEU、ROUGE、METEORは、生成されたMCQとデータセットの金試料とのn-gramに基づく類似性に注目し、その教育的価値を無視している。
彼らは、MCQが対象の事実に関する生徒の知識を評価する能力を評価するのに失敗する。
そこで本研究では,MCQが対象とする事実の知識を考慮に入れた応答可能性を測定する,知識依存解答性(KDA)という,新たな自動評価指標を提案する。
具体的には,まず,人間調査からの学生回答に基づいてkdaを測定する方法を示す。
そこで,本研究では,事前学習した言語モデルを用いて,学生の問題解決行動を模倣する2つの自動評価指標KDA_discとKDA_contを提案する。
我々は,KDA_disc と KDA_soft が,(1) KDA と (2) 実際の教室環境におけるユーザビリティに強い相関関係があることを明らかにする。
さらに,n-gramをベースとした類似度測定値と組み合わせると,KDA_discとKDA_contは,MCQの品質測定に強い予測力を有することが明らかとなった。
関連論文リスト
- A Step Towards Mixture of Grader: Statistical Analysis of Existing Automatic Evaluation Metrics [6.571049277167304]
既存の評価指標の統計について検討し,その限界をよりよく理解する。
潜在的な解決策として、Mixture Of Graderが自動QA評価器の品質を向上する可能性について論じる。
論文 参考訳(メタデータ) (2024-10-13T22:10:42Z) - An Automatic Question Usability Evaluation Toolkit [1.2499537119440245]
多重選択質問(MCQ)を評価するには、労働集約的な人的評価か、可読性を優先する自動化方法のいずれかが必要となる。
MCQの総合的かつ自動化された品質評価のために,IWFルーブリックを利用したオープンソースツールであるSAQUETを紹介する。
94%以上の精度で,既存の評価手法の限界を強調し,教育評価の質向上の可能性を示した。
論文 参考訳(メタデータ) (2024-05-30T23:04:53Z) - AQuA -- Combining Experts' and Non-Experts' Views To Assess Deliberation Quality in Online Discussions Using LLMs [0.9737366359397255]
AQuAは、議論投稿ごとに複数の指標から統一された熟考品質スコアを算出する付加的なスコアである。
我々は,20の熟考指標に対する適応モデルを開発し,専門家のアノテーションと認識された熟考度との相関係数を非専門家によって計算し,各指標を1つの熟考スコアに重み付けする。
論文 参考訳(メタデータ) (2024-04-03T14:07:02Z) - K-QA: A Real-World Medical Q&A Benchmark [12.636564634626422]
K-QA(K-QA)は、K Health上での実際の会話から発せられる1,212の患者質問を含むデータセットである。
我々は,K-QAのサブセットを自己完結文に分解するために,内科医のパネルを用いて回答し,手動で分解する。
我々は、いくつかの最先端モデルと、コンテキスト内学習と医学指向の拡張検索スキームの効果を評価した。
論文 参考訳(メタデータ) (2024-01-25T20:11:04Z) - Faithful Knowledge Distillation [75.59907631395849]
i) 教師と学生は、正しく分類されたデータセットのサンプルに近い点で意見が一致しないか、(ii) 蒸留した学生は、データセットのサンプルに関する教師と同じくらい自信があるか、という2つの重要な質問に焦点をあてる。
これらは、安全クリティカルな設定の中で、堅牢な教師から訓練された小さな学生ネットワークを配置することを考えると、重要な問題である。
論文 参考訳(メタデータ) (2023-06-07T13:41:55Z) - QAScore -- An Unsupervised Unreferenced Metric for the Question
Generation Evaluation [6.697751970080859]
質問生成(QG)は、選択された回答の集合で、ある項目に対する質問を構成するタスクを自動化することを目的としている。
QAScoreと呼ばれるQGシステムを評価するためのより良いメカニズムを提供する可能性を秘めている新しい基準フリー評価指標を提案する。
論文 参考訳(メタデータ) (2022-10-09T19:00:39Z) - Cognitive Diagnosis with Explicit Student Vector Estimation and
Unsupervised Question Matrix Learning [53.79108239032941]
本研究では,DINA の学生ベクトルを推定するための明示的な学生ベクトル推定法を提案する。
また,Q行列を自動的にラベル付けする双方向キャリブレーションアルゴリズム (HBCA) を提案する。
2つの実世界のデータセットによる実験結果から,ESVE-DINAはDINAモデルよりも精度が高く,HBCAによって自動的にラベル付けされたQ行列は,手動でラベル付けしたQ行列に匹敵する性能が得られることが示された。
論文 参考訳(メタデータ) (2022-03-01T03:53:19Z) - Towards Quantifiable Dialogue Coherence Evaluation [126.55560816209756]
量的対話コヒーレンス評価(QuantiDCE)は,量的対話コヒーレンス尺度の学習を目的とした新しいフレームワークである。
QuantiDCEには、Multi-Level Ranking (MLR) pre-training (KD) fine-tuning (Multi-Level Ranking)とKD (KD) fine-tuning (KD) という2つの訓練段階が含まれている。
実験結果から,QuantiDCEによりトレーニングされたモデルは,他の最先端の指標に比べて,人間の判断と強い相関関係を示すことが示された。
論文 参考訳(メタデータ) (2021-06-01T14:11:17Z) - OpenMEVA: A Benchmark for Evaluating Open-ended Story Generation Metrics [53.779709191191685]
オープンエンドのストーリー生成指標を評価するためのベンチマークであるOpenMEVAを提案する。
OpenMEVAは、メトリクスの能力を評価するための包括的なテストスイートを提供する。
既存の指標は人間の判断と相関が低く、談話レベルの不整合を認識できず、推論知識が欠如していることが観察された。
論文 参考訳(メタデータ) (2021-05-19T04:45:07Z) - QA-GNN: Reasoning with Language Models and Knowledge Graphs for Question
Answering [122.84513233992422]
学習済み言語モデル(LM)と知識グラフ(KG)の知識を用いて質問に答える問題に対処する新しいモデルであるQA-GNNを提案する。
既存のLMとLM+KGモデルに対する改善と、解釈可能で構造化された推論を行う能力を示しています。
論文 参考訳(メタデータ) (2021-04-13T17:32:51Z) - KPQA: A Metric for Generative Question Answering Using Keyphrase Weights [64.54593491919248]
KPQA-metricは生成的質問応答システムの正当性を評価するための新しい指標である。
我々の新しい計量は、キーフレーズ予測を通じて各トークンに異なる重みを割り当てる。
提案手法は,既存の指標よりも人的判断との相関が有意に高いことを示す。
論文 参考訳(メタデータ) (2020-05-01T03:24:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。