論文の概要: Are You Doubtful? Oh, It Might Be Difficult Then! Exploring the Use of Model Uncertainty for Question Difficulty Estimation
- arxiv url: http://arxiv.org/abs/2412.11831v1
- Date: Mon, 16 Dec 2024 14:55:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 13:58:26.969126
- Title: Are You Doubtful? Oh, It Might Be Difficult Then! Exploring the Use of Model Uncertainty for Question Difficulty Estimation
- Title(参考訳): 疑わしいのか? やばい! モデル不確かさを質問不確かさ推定に活用する方法を探る
- Authors: Leonidas Zotos, Hedderik van Rijn, Malvina Nissim,
- Abstract要約: 本研究では,不確実性の特徴が難易度予測に大きく寄与することを示し,難易度は質問に正しく答えられる学生数に逆比例することを示した。
このアプローチの価値を示すことに加えて、BEAが公開しているデータセット上で、私たちのモデルが最先端の結果を達成することも観察します。
- 参考スコア(独自算出の注目度): 12.638577140117702
- License:
- Abstract: In an educational setting, an estimate of the difficulty of multiple-choice questions (MCQs), a commonly used strategy to assess learning progress, constitutes very useful information for both teachers and students. Since human assessment is costly from multiple points of view, automatic approaches to MCQ item difficulty estimation are investigated, yielding however mixed success until now. Our approach to this problem takes a different angle from previous work: asking various Large Language Models to tackle the questions included in two different MCQ datasets, we leverage model uncertainty to estimate item difficulty. By using both model uncertainty features as well as textual features in a Random Forest regressor, we show that uncertainty features contribute substantially to difficulty prediction, where difficulty is inversely proportional to the number of students who can correctly answer a question. In addition to showing the value of our approach, we also observe that our model achieves state-of-the-art results on the BEA publicly available dataset.
- Abstract(参考訳): 教育環境では、学習の進捗を評価するためによく使われる戦略であるマルチチョイス質問(MCQ)の難易度の推定は、教師と学生の両方にとって非常に有用な情報となっている。
複数の観点から人的評価が高価であるため,MCQ項目の難易度評価への自動的アプローチが検討され,これまでは混在していた。
様々な大規模言語モデルに2つの異なるMCQデータセットに含まれる問題に対処するよう求め、モデルの不確実性を利用してアイテムの難易度を推定する。
ランダムフォレスト回帰器のモデル不確実性特徴とテキスト特徴の両方を用いて、不確実性特徴が難易度予測に大きく寄与することを示し、難易度は問題に正しく答えられる学生数に逆比例することを示した。
このアプローチの価値を示すことに加えて、BEAが公開しているデータセット上で、私たちのモデルが最先端の結果を達成することも観察します。
関連論文リスト
- Testing Uncertainty of Large Language Models for Physics Knowledge and Reasoning [0.0]
大規模言語モデル(LLM)は、近年、様々な分野の質問に答える能力で大きな人気を集めている。
本稿では,オープンソースLLMの性能評価のための解析手法を提案する。
我々は,物理に関する話題における解答精度と変数の関係に注目した。
論文 参考訳(メタデータ) (2024-11-18T13:42:13Z) - Machine Unlearning in Forgettability Sequence [22.497699136603877]
未学習の難易度と未学習アルゴリズムの性能に影響を及ぼす要因を同定する。
本稿では,RankingモジュールとSeqUnlearnモジュールからなる一般の未学習フレームワーク RSU を提案する。
論文 参考訳(メタデータ) (2024-10-09T01:12:07Z) - Can Model Uncertainty Function as a Proxy for Multiple-Choice Question Item Difficulty? [12.638577140117702]
我々は、質問に答える際の弱点と見なされるような、生成的な大規模モデルの側面を活用する。
本研究では、不確実性の2つの異なる指標と実際の学生の反応分布の相関について検討する。
論文 参考訳(メタデータ) (2024-07-07T10:48:04Z) - Answering from Sure to Uncertain: Uncertainty-Aware Curriculum Learning
for Video Question Answering [63.12469700986452]
不確実性を考慮したカリキュラム学習(CL)の概念を導入する。
ここで不確実性は、困難を動的に調整するための指針となる。
実際に、我々は、ビデオQAモデルを我々のフレームワークにシームレスに統合し、包括的な実験を行う。
論文 参考訳(メタデータ) (2024-01-03T02:29:34Z) - Uncertainty-aware Language Modeling for Selective Question Answering [107.47864420630923]
本稿では,不確実性を考慮したLLMを生成するLLM変換手法を提案する。
我々のアプローチはモデルとデータに依存しず、計算効率が高く、外部モデルやシステムに依存しない。
論文 参考訳(メタデータ) (2023-11-26T22:47:54Z) - UNK-VQA: A Dataset and a Probe into the Abstention Ability of Multi-modal Large Models [55.22048505787125]
本稿ではUNK-VQAと呼ばれる包括的データセットを提案する。
まず、画像または疑問について意図的に摂動することで、既存のデータを拡大する。
そこで我々は,新たなマルチモーダル大規模モデルのゼロショット性能と少数ショット性能を広範囲に評価した。
論文 参考訳(メタデータ) (2023-10-17T02:38:09Z) - Improving the Reliability of Large Language Models by Leveraging
Uncertainty-Aware In-Context Learning [76.98542249776257]
大規模言語モデルはしばしば「ハロシン化」の課題に直面している
本研究では,不確実性に応答してモデルが出力を拡張あるいは拒否することを可能にする,不確実性を考慮したコンテキスト内学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-07T12:06:53Z) - Exploring Bayesian Deep Learning for Urgent Instructor Intervention Need
in MOOC Forums [58.221459787471254]
大規模なオープンオンラインコース(MOOC)は、その柔軟性のおかげで、eラーニングの一般的な選択肢となっている。
多くの学習者とその多様な背景から、リアルタイムサポートの提供は課税されている。
MOOCインストラクターの大量の投稿と高い作業負荷により、インストラクターが介入を必要とするすべての学習者を識別できる可能性は低いです。
本稿では,モンテカルロドロップアウトと変分推論という2つの手法を用いて,学習者によるテキスト投稿のベイジアン深層学習を初めて検討する。
論文 参考訳(メタデータ) (2021-04-26T15:12:13Z) - Learning with Instance Bundles for Reading Comprehension [61.823444215188296]
質問応答スコアを複数の関連インスタンスで比較する新しい監視手法を提案する。
具体的には、密接に対照的な質問や回答のさまざまな近所でこれらのスコアを正規化します。
2つのデータセット上のインスタンスバンドルによるトレーニングの有効性を実証的に実証する。
論文 参考訳(メタデータ) (2021-04-18T06:17:54Z) - R2DE: a NLP approach to estimating IRT parameters of newly generated
questions [3.364554138758565]
R2DEは、質問のテキストを見て、新しく生成された複数の選択の質問を評価することができるモデルである。
特に、各質問の難易度と識別度を推定することができる。
論文 参考訳(メタデータ) (2020-01-21T14:31:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。