論文の概要: R2DE: a NLP approach to estimating IRT parameters of newly generated
questions
- arxiv url: http://arxiv.org/abs/2001.07569v1
- Date: Tue, 21 Jan 2020 14:31:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-07 23:17:33.692757
- Title: R2DE: a NLP approach to estimating IRT parameters of newly generated
questions
- Title(参考訳): R2DE:新しい質問のIRTパラメータ推定のためのNLPアプローチ
- Authors: Luca Benedetto, Andrea Cappelli, Roberto Turrin, Paolo Cremonesi
- Abstract要約: R2DEは、質問のテキストを見て、新しく生成された複数の選択の質問を評価することができるモデルである。
特に、各質問の難易度と識別度を推定することができる。
- 参考スコア(独自算出の注目度): 3.364554138758565
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The main objective of exams consists in performing an assessment of students'
expertise on a specific subject. Such expertise, also referred to as skill or
knowledge level, can then be leveraged in different ways (e.g., to assign a
grade to the students, to understand whether a student might need some support,
etc.). Similarly, the questions appearing in the exams have to be assessed in
some way before being used to evaluate students. Standard approaches to
questions' assessment are either subjective (e.g., assessment by human experts)
or introduce a long delay in the process of question generation (e.g.,
pretesting with real students). In this work we introduce R2DE (which is a
Regressor for Difficulty and Discrimination Estimation), a model capable of
assessing newly generated multiple-choice questions by looking at the text of
the question and the text of the possible choices. In particular, it can
estimate the difficulty and the discrimination of each question, as they are
defined in Item Response Theory. We also present the results of extensive
experiments we carried out on a real world large scale dataset coming from an
e-learning platform, showing that our model can be used to perform an initial
assessment of newly created questions and ease some of the problems that arise
in question generation.
- Abstract(参考訳): 試験の主な目的は、特定の科目において学生の専門性を評価することである。
このような専門知識は、スキルや知識レベルとも呼ばれ、異なる方法で活用することができる(例えば、生徒に成績を割り当てたり、生徒に何らかの支援が必要かどうかを理解するなど)。
同様に、試験に現れる質問は、学生の評価に使用される前に、何らかの方法で評価される必要がある。
質問評価の標準的なアプローチは、主観的(例えば、人間の専門家による評価)か、質問生成のプロセス(例えば、実際の学生との事前試験)に長い遅延をもたらす。
本稿では,新たに生成した複数選択質問のテキストと可能な選択肢のテキストを見て評価できるモデルである R2DE (Regressor for Difficulty and Discrimination Estimation) を紹介する。
特に、項目応答理論で定義されるように、各質問の難易度と識別度を推定することができる。
また,eラーニングプラットフォームから得られる実世界の大規模データセット上で行った大規模実験の結果から,本モデルを用いて新たに作成された質問の初期評価を行い,質問生成時に発生する問題のいくつかを緩和できることを示す。
関連論文リスト
- "Did my figure do justice to the answer?" : Towards Multimodal Short Answer Grading with Feedback (MMSAF) [36.74896284581596]
フィードバック問題を考慮したマルチモーダルショート・アンサー・グラディングと2197データポイントのデータセットを提案する。
このデータセットに対する既存のLarge Language Models (LLMs) の評価は, 精度を55%向上した。
人間の専門家によれば、ピクサールは人間の判断と生物学の価値観、物理学と化学のChatGPTにもっと順応していた。
論文 参考訳(メタデータ) (2024-12-27T17:33:39Z) - Are You Doubtful? Oh, It Might Be Difficult Then! Exploring the Use of Model Uncertainty for Question Difficulty Estimation [12.638577140117702]
本研究では,不確実性の特徴が難易度予測に大きく寄与することを示し,難易度は質問に正しく答えられる学生数に逆比例することを示した。
このアプローチの価値を示すことに加えて、BEAが公開しているデータセット上で、私たちのモデルが最先端の結果を達成することも観察します。
論文 参考訳(メタデータ) (2024-12-16T14:55:09Z) - Qsnail: A Questionnaire Dataset for Sequential Question Generation [76.616068047362]
質問紙作成作業に特化して構築された最初のデータセットについて述べる。
我々はQsnailの実験を行い、その結果、検索モデルと従来の生成モデルが与えられた研究トピックや意図と完全に一致していないことが明らかとなった。
チェーン・オブ・シークレット・プロンプトと微調整による改善にもかかわらず、言語モデルによるアンケートは、人間の手書きのアンケートには及ばない。
論文 参考訳(メタデータ) (2024-02-22T04:14:10Z) - Can LLMs Grade Short-Answer Reading Comprehension Questions : An Empirical Study with a Novel Dataset [0.0]
本稿では,Large Language Models (LLMs) の最新のバージョンが,形式的アセスメントのための短解問題に使用される可能性について検討する。
ガーナで150人以上の学生が実施した一連の読解評価から抽出した,短い回答読解質問の新しいデータセットを紹介した。
本論文は, 有能なヒトラッカーと比較して, 生成性LLMの児童短解反応の各種構成がいかに良好かを実証的に評価した。
論文 参考訳(メタデータ) (2023-10-26T17:05:40Z) - Benchmarking Foundation Models with Language-Model-as-an-Examiner [47.345760054595246]
本稿では,新しいベンチマークフレームワークLanguage-Model-as-an-Examinerを提案する。
LMは、その知識に基づいて質問を定式化し、基準のない方法で応答を評価する、知識に富んだ検査者として機能する。
論文 参考訳(メタデータ) (2023-06-07T06:29:58Z) - UKP-SQuARE: An Interactive Tool for Teaching Question Answering [61.93372227117229]
質問応答の指数的増加(QA)は、あらゆる自然言語処理(NLP)コースにおいて必須のトピックとなっている。
本稿では、QA教育のプラットフォームとしてUKP-SQuAREを紹介する。
学生は様々な視点から様々なQAモデルを実行、比較、分析することができる。
論文 参考訳(メタデータ) (2023-05-31T11:29:04Z) - Towards a Holistic Understanding of Mathematical Questions with
Contrastive Pre-training [65.10741459705739]
本稿では,数学的問題表現,すなわち QuesCo に対する対照的な事前学習手法を提案する。
まず、コンテンツレベルと構造レベルを含む2段階の質問強化を設計し、類似した目的で文字通り多様な質問ペアを生成する。
そこで我々は,知識概念の階層的情報を完全に活用するために,知識階層を意識したランク戦略を提案する。
論文 参考訳(メタデータ) (2023-01-18T14:23:29Z) - What should I Ask: A Knowledge-driven Approach for Follow-up Questions
Generation in Conversational Surveys [63.51903260461746]
対話型調査における知識駆動型フォローアップ質問生成のための新しい課題を提案する。
そこで我々は,対話履歴とラベル付き知識を用いた人手によるフォローアップ質問の新しいデータセットを構築した。
次に,その課題に対する2段階の知識駆動モデルを提案する。
論文 参考訳(メタデータ) (2022-05-23T00:57:33Z) - Inquisitive Question Generation for High Level Text Comprehension [60.21497846332531]
InQUISITIVEは、文書を読みながら19K質問を抽出するデータセットである。
我々は,読者が情報を求めるための実践的な戦略に携わることを示す。
我々は, GPT-2に基づく質問生成モデルを評価し, 妥当な質問を生成することができることを示す。
論文 参考訳(メタデータ) (2020-10-04T19:03:39Z) - Introducing a framework to assess newly created questions with Natural
Language Processing [3.364554138758565]
本稿では,新たに作成された複数質問の難易度と差別度を推定するためのモデルを訓練し,評価する枠組みを提案する。
このフレームワークを使って1つのモデルを実装し、CloudAcademyが提供する実世界のデータセットでテストします。
論文 参考訳(メタデータ) (2020-04-28T13:57:21Z) - Educational Question Mining At Scale: Prediction, Analysis and
Personalization [35.42197158180065]
大規模に教育的な問題から洞察を抽出する枠組みを提案する。
我々は最先端のベイズ深層学習法、特に部分変分オートエンコーダ(p-VAE)を利用する。
提案したフレームワークを,数万の質問と数千万の回答をオンライン教育プラットフォームから収集した実世界のデータセットに適用する。
論文 参考訳(メタデータ) (2020-03-12T19:07:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。