論文の概要: A quantitative study of NLP approaches to question difficulty estimation
- arxiv url: http://arxiv.org/abs/2305.10236v1
- Date: Wed, 17 May 2023 14:26:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-18 15:41:49.923337
- Title: A quantitative study of NLP approaches to question difficulty estimation
- Title(参考訳): 難解度推定のためのNLP手法の定量的研究
- Authors: Luca Benedetto
- Abstract要約: この研究は、以前の研究で提案されたいくつかのアプローチを定量的に分析し、異なる教育領域のデータセットのパフォーマンスを比較した。
私たちは、Transformerベースのモデルが様々な教育領域で最高のパフォーマンスを示しており、DistilBERTはBERTとほぼ同等に機能していることに気付きました。
他のモデルでは、ハイブリットは単一のタイプの特徴に基づくものよりも優れており、言語的特徴に基づくものは理解された質問を読み取るのに優れ、周波数ベースの特徴(TF-IDF)と単語埋め込み(word2vec)はドメイン知識の評価において優れている。
- 参考スコア(独自算出の注目度): 0.30458514384586394
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent years witnessed an increase in the amount of research on the task of
Question Difficulty Estimation from Text QDET with Natural Language Processing
(NLP) techniques, with the goal of targeting the limitations of traditional
approaches to question calibration. However, almost the entirety of previous
research focused on single silos, without performing quantitative comparisons
between different models or across datasets from different educational domains.
In this work, we aim at filling this gap, by quantitatively analyzing several
approaches proposed in previous research, and comparing their performance on
three publicly available real world datasets containing questions of different
types from different educational domains. Specifically, we consider reading
comprehension Multiple Choice Questions (MCQs), science MCQs, and math
questions. We find that Transformer based models are the best performing across
different educational domains, with DistilBERT performing almost as well as
BERT, and that they outperform other approaches even on smaller datasets. As
for the other models, the hybrid ones often outperform the ones based on a
single type of features, the ones based on linguistic features perform well on
reading comprehension questions, while frequency based features (TF-IDF) and
word embeddings (word2vec) perform better in domain knowledge assessment.
- Abstract(参考訳): 近年,自然言語処理(nlp)技術を用いたテキストqdetによる質問難易度推定課題の研究が増加し,従来の質問校正手法の限界を目標としている。
しかし、以前の研究のほとんど全体が単一のサイロにフォーカスしており、異なるモデル間や異なる教育領域のデータセット間の定量的比較は行わなかった。
本研究では,このギャップを埋めることを目的として,従来の研究で提案されたいくつかのアプローチを定量的に分析し,異なる教育領域の異なるタイプの質問を含む3つの公開現実データセット上での性能を比較する。
具体的には,多重選択問題(mcqs),科学mqs,数学問題を読むことを検討する。
私たちはTransformerベースのモデルが、DistilBERTとBERTとほぼ同等の性能を持ち、より小さなデータセットでも他のアプローチよりも優れていることを発見しました。
他のモデルでは、ハイブリットは単一のタイプの特徴に基づくものよりも優れており、言語的特徴に基づくものは理解された質問を読み取るのに優れ、周波数ベースの特徴(TF-IDF)と単語埋め込み(word2vec)はドメイン知識の評価において優れている。
関連論文リスト
- Long-Span Question-Answering: Automatic Question Generation and QA-System Ranking via Side-by-Side Evaluation [65.16137964758612]
大規模言語モデルにおける長文文の活用について検討し,本書全体の読解データを作成する。
我々の目的は、長いテキストの詳細な理解を必要とする問題を分析し、理解し、推論するLLMの能力をテストすることである。
論文 参考訳(メタデータ) (2024-05-31T20:15:10Z) - Ensemble Transfer Learning for Multilingual Coreference Resolution [60.409789753164944]
非英語で作業する場合に頻繁に発生する問題は、注釈付きトレーニングデータの不足である。
我々は,様々なトランスファー学習技術を組み合わせた,シンプルだが効果的なアンサンブルベースのフレームワークを設計する。
また、ウィキペディアアンカーテキストを利用して、コア参照解決モデルをブートストラップする低コストのTL手法を提案する。
論文 参考訳(メタデータ) (2023-01-22T18:22:55Z) - Learning with Instance Bundles for Reading Comprehension [61.823444215188296]
質問応答スコアを複数の関連インスタンスで比較する新しい監視手法を提案する。
具体的には、密接に対照的な質問や回答のさまざまな近所でこれらのスコアを正規化します。
2つのデータセット上のインスタンスバンドルによるトレーニングの有効性を実証的に実証する。
論文 参考訳(メタデータ) (2021-04-18T06:17:54Z) - What's the best place for an AI conference, Vancouver or ______: Why
completing comparative questions is difficult [22.04829832439774]
ニューラルLMが妥当な質問をする(答えない)能力について研究する。
この課題の正確性は,質問が妥当かどうかの判断とよく関連している。
論文 参考訳(メタデータ) (2021-04-05T14:56:09Z) - Towards Few-Shot Fact-Checking via Perplexity [40.11397284006867]
そこで本研究では,言語モデルの強力な伝達学習能力をパープレキシティスコアで活用する新しい手法を提案する。
私たちの方法論は、F1-Macroメトリックの絶対10%以上のメジャークラスベースラインをすでに上回ることができます。
COVID-19に関連する2つの新しいファクトチェックデータセットを構築し、公開します。
論文 参考訳(メタデータ) (2021-03-17T09:43:19Z) - Invariant Feature Learning for Sensor-based Human Activity Recognition [11.334750079923428]
被験者やデバイス間で共有される共通情報を抽出する不変特徴学習フレームワーク(IFLF)を提案する。
実験により、IFLFは、一般的なオープンデータセットと社内データセットをまたいだ主題とデバイスディバージョンの両方を扱うのに効果的であることが示された。
論文 参考訳(メタデータ) (2020-12-14T21:56:17Z) - Improving QA Generalization by Concurrent Modeling of Multiple Biases [61.597362592536896]
既存のNLPデータセットには、モデルが容易に活用できる様々なバイアスが含まれており、対応する評価セット上で高いパフォーマンスを達成することができる。
本稿では、トレーニングデータにおける複数のバイアスの同時モデリングにより、ドメイン内およびドメイン外両方のデータセットのパフォーマンスを改善するための一般的なフレームワークを提案する。
我々は,様々な領域の学習データと異なる強度の複数のバイアスを持つ抽出的質問応答の枠組みを広く評価した。
論文 参考訳(メタデータ) (2020-10-07T11:18:49Z) - Sentiment Analysis Based on Deep Learning: A Comparative Study [69.09570726777817]
世論の研究は我々に貴重な情報を提供することができる。
感情分析の効率性と正確性は、自然言語処理で直面する課題によって妨げられている。
本稿では、感情分析の問題を解決するためにディープラーニングを用いた最新の研究をレビューする。
論文 参考訳(メタデータ) (2020-06-05T16:28:10Z) - Logic-Guided Data Augmentation and Regularization for Consistent
Question Answering [55.05667583529711]
本稿では,比較質問に対する応答の精度と整合性を改善する問題に対処する。
提案手法は論理的および言語的知識を利用してラベル付きトレーニングデータを増強し,一貫性に基づく正規化器を用いてモデルを訓練する。
論文 参考訳(メタデータ) (2020-04-21T17:03:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。