論文の概要: Introducing a framework to assess newly created questions with Natural
Language Processing
- arxiv url: http://arxiv.org/abs/2004.13530v2
- Date: Wed, 6 May 2020 09:06:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-08 22:05:42.834978
- Title: Introducing a framework to assess newly created questions with Natural
Language Processing
- Title(参考訳): 自然言語処理による新しい質問評価フレームワークの導入
- Authors: Luca Benedetto, Andrea Cappelli, Roberto Turrin, Paolo Cremonesi
- Abstract要約: 本稿では,新たに作成された複数質問の難易度と差別度を推定するためのモデルを訓練し,評価する枠組みを提案する。
このフレームワークを使って1つのモデルを実装し、CloudAcademyが提供する実世界のデータセットでテストします。
- 参考スコア(独自算出の注目度): 3.364554138758565
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Statistical models such as those derived from Item Response Theory (IRT)
enable the assessment of students on a specific subject, which can be useful
for several purposes (e.g., learning path customization, drop-out prediction).
However, the questions have to be assessed as well and, although it is possible
to estimate with IRT the characteristics of questions that have already been
answered by several students, this technique cannot be used on newly generated
questions. In this paper, we propose a framework to train and evaluate models
for estimating the difficulty and discrimination of newly created Multiple
Choice Questions by extracting meaningful features from the text of the
question and of the possible choices. We implement one model using this
framework and test it on a real-world dataset provided by CloudAcademy, showing
that it outperforms previously proposed models, reducing by 6.7% the RMSE for
difficulty estimation and by 10.8% the RMSE for discrimination estimation. We
also present the results of an ablation study performed to support our features
choice and to show the effects of different characteristics of the questions'
text on difficulty and discrimination.
- Abstract(参考訳): 項目応答理論(irt)から派生した統計モデルは、特定の主題における学生の評価を可能にし、いくつかの目的(学習経路のカスタマイズ、ドロップアウト予測など)に有用である。
しかし,質問の評価も必要であり,すでに数人の生徒が答えている質問の特徴をIRTで推定することは可能であるが,この手法は新たに作成された質問には適用できない。
本稿では,質問文から有意義な特徴を抽出し,選択可能な選択肢を抽出し,新たに作成された複数の質問の難易度と識別度を推定するためのモデルを訓練し,評価する枠組みを提案する。
このフレームワークを使って1つのモデルを実装し、cloudacademyが提供する実世界のデータセットでテストし、従来のモデルよりも優れており、難易度推定ではrmseを6.7%削減し、差別推定ではrmseを10.8%削減していることを示した。
また,我々は特徴選択を支持するために行ったアブレーション研究の結果を示し,質問文の特徴の違いが難易度と識別に及ぼす影響を示す。
関連論文リスト
- Learning to Love Edge Cases in Formative Math Assessment: Using the AMMORE Dataset and Chain-of-Thought Prompting to Improve Grading Accuracy [0.0]
本稿では,Rori による 53,000 個の質問応答対の新たなデータセットである AMMORE を紹介する。
2つの実験により,大規模言語モデル(LLM)を用いて,難解な学生の回答を段階的に評価する。
論文 参考訳(メタデータ) (2024-09-26T14:51:40Z) - UNK-VQA: A Dataset and a Probe into the Abstention Ability of Multi-modal Large Models [55.22048505787125]
本稿ではUNK-VQAと呼ばれる包括的データセットを提案する。
まず、画像または疑問について意図的に摂動することで、既存のデータを拡大する。
そこで我々は,新たなマルチモーダル大規模モデルのゼロショット性能と少数ショット性能を広範囲に評価した。
論文 参考訳(メタデータ) (2023-10-17T02:38:09Z) - A Model-free Closeness-of-influence Test for Features in Supervised
Learning [23.345517302581044]
本研究では,2つの特徴が応答値に与える影響の差について検討する。
まず、特徴の影響に対する近接性の概念を提案し、この定義がモデルにおける係数の大きさに関するよく知られた概念を回復させることを示す。
そこで本研究では,モデルなし教師あり学習問題における影響の近接性をテストする新しい手法を提案する。
論文 参考訳(メタデータ) (2023-06-20T19:20:18Z) - Improving Selective Visual Question Answering by Learning from Your
Peers [74.20167944693424]
VQA(Visual Question Answering)モデルは、間違っていた場合の回答を控えるのに苦労する可能性がある。
本稿では,複数モーダル選択関数の学習におけるLearning from Your Peers (LYP) アプローチを提案する。
提案手法では,学習データの異なるサブセットに基づいて訓練されたモデルの予測を,選択的VQAモデルの最適化のターゲットとして利用する。
論文 参考訳(メタデータ) (2023-06-14T21:22:01Z) - Revealing Model Biases: Assessing Deep Neural Networks via Recovered
Sample Analysis [9.05607520128194]
本稿では、深層ニューラルネットワーク(DNN)がトレーニングサンプルの第一概念に依存しているかどうかを簡易かつ費用対効果で評価する手法を提案する。
提案手法は,テストや一般化のサンプルを一切必要とせず,訓練対象モデルのパラメータとマージンにあるトレーニングデータのみを必要とする。
論文 参考訳(メタデータ) (2023-06-10T11:20:04Z) - In Search of Insights, Not Magic Bullets: Towards Demystification of the
Model Selection Dilemma in Heterogeneous Treatment Effect Estimation [92.51773744318119]
本稿では,異なるモデル選択基準の長所と短所を実験的に検討する。
選択戦略,候補推定器,比較に用いるデータの間には,複雑な相互作用があることを強調した。
論文 参考訳(メタデータ) (2023-02-06T16:55:37Z) - A New Score for Adaptive Tests in Bayesian and Credal Networks [64.80185026979883]
テストは、そのシークエンスと質問数とが、テイカーの推定スキルに基づいて動的に調整されるときに適応する。
後部確率のモードに基づいて、別のスコアの族を提示するので、説明し易い。
論文 参考訳(メタデータ) (2021-05-25T20:35:42Z) - Learning with Instance Bundles for Reading Comprehension [61.823444215188296]
質問応答スコアを複数の関連インスタンスで比較する新しい監視手法を提案する。
具体的には、密接に対照的な質問や回答のさまざまな近所でこれらのスコアを正規化します。
2つのデータセット上のインスタンスバンドルによるトレーニングの有効性を実証的に実証する。
論文 参考訳(メタデータ) (2021-04-18T06:17:54Z) - A Revised Generative Evaluation of Visual Dialogue [80.17353102854405]
本稿では,VisDialデータセットの改訂評価手法を提案する。
モデルが生成した回答と関連する回答の集合のコンセンサスを測定する。
DenseVisDialとして改訂された評価スキームのこれらのセットとコードをリリースする。
論文 参考訳(メタデータ) (2020-04-20T13:26:45Z) - Educational Question Mining At Scale: Prediction, Analysis and
Personalization [35.42197158180065]
大規模に教育的な問題から洞察を抽出する枠組みを提案する。
我々は最先端のベイズ深層学習法、特に部分変分オートエンコーダ(p-VAE)を利用する。
提案したフレームワークを,数万の質問と数千万の回答をオンライン教育プラットフォームから収集した実世界のデータセットに適用する。
論文 参考訳(メタデータ) (2020-03-12T19:07:49Z) - R2DE: a NLP approach to estimating IRT parameters of newly generated
questions [3.364554138758565]
R2DEは、質問のテキストを見て、新しく生成された複数の選択の質問を評価することができるモデルである。
特に、各質問の難易度と識別度を推定することができる。
論文 参考訳(メタデータ) (2020-01-21T14:31:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。