論文の概要: Can Model Uncertainty Function as a Proxy for Multiple-Choice Question Item Difficulty?
- arxiv url: http://arxiv.org/abs/2407.05327v1
- Date: Sun, 7 Jul 2024 10:48:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-09 20:07:19.840854
- Title: Can Model Uncertainty Function as a Proxy for Multiple-Choice Question Item Difficulty?
- Title(参考訳): 複数質問項目の難易度を指標としたモデル不確かさ機能の実現
- Authors: Leonidas Zotos, Hedderik van Rijn, Malvina Nissim,
- Abstract要約: 我々は、質問に答える際の弱点と見なされるような、生成的な大規模モデルの側面を活用する。
本研究では、不確実性の2つの異なる指標と実際の学生の反応分布の相関について検討する。
- 参考スコア(独自算出の注目度): 12.638577140117702
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Estimating the difficulty of multiple-choice questions would be great help for educators who must spend substantial time creating and piloting stimuli for their tests, and for learners who want to practice. Supervised approaches to difficulty estimation have yielded to date mixed results. In this contribution we leverage an aspect of generative large models which might be seen as a weakness when answering questions, namely their uncertainty, and exploit it towards exploring correlations between two different metrics of uncertainty, and the actual student response distribution. While we observe some present but weak correlations, we also discover that the models' behaviour is different in the case of correct vs wrong answers, and that correlations differ substantially according to the different question types which are included in our fine-grained, previously unused dataset of 451 questions from a Biopsychology course. In discussing our findings, we also suggest potential avenues to further leverage model uncertainty as an additional proxy for item difficulty.
- Abstract(参考訳): 多重選択質問の難しさを見積もることは、テストのためにかなりの時間をかけて刺激を作り、操縦しなければならない教育者や、練習したい学習者にとって大きな助けとなるでしょう。
難易度推定への改善されたアプローチは、これまでに混在した結果となった。
このコントリビューションでは、質問、すなわち不確実性に答える際、弱点と見なされるような生成的大規模モデルの側面を活用し、不確実性に関する2つの異なる指標と実際の学生の反応分布の間の相関関係を探索するためにそれを利用する。
現在,いくつかの相関関係が弱いが,正解と誤解の場合にモデルの挙動が異なることや,その相関関係が,生物心理学のコースから得られた451の質問の詳細なデータセットに含まれる様々な質問タイプによって大きく異なることが判明した。
また,本研究の課題として,モデル不確実性をさらに活用する可能性が示唆された。
関連論文リスト
- Certainly Uncertain: A Benchmark and Metric for Multimodal Epistemic and Aleatoric Awareness [106.52630978891054]
視覚言語AIシステムに特有の不確実性の分類法を提案する。
また、精度と校正誤差の両方によく相関する新しい計量信頼度重み付き精度を導入する。
論文 参考訳(メタデータ) (2024-07-02T04:23:54Z) - Improving the Reliability of Large Language Models by Leveraging
Uncertainty-Aware In-Context Learning [76.98542249776257]
大規模言語モデルはしばしば「ハロシン化」の課題に直面している
本研究では,不確実性に応答してモデルが出力を拡張あるいは拒否することを可能にする,不確実性を考慮したコンテキスト内学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-07T12:06:53Z) - Selectively Answering Ambiguous Questions [38.83930394700588]
我々は, サンプルモデル出力における繰り返しの定量化が, 退避時期を決定する最も信頼性の高い手法であることが判明した。
その結果,サンプリングに基づく信頼度スコアは,比較的あいまいな質問に対する回答のキャリブレーションに有効であることが示唆された。
論文 参考訳(メタデータ) (2023-05-24T01:25:38Z) - A Tale Of Two Long Tails [4.970364068620608]
モデルが不確実である例を特定し、その不確実性の原因を特徴付ける。
追加情報が存在する場合の学習速度が,非典型例と雑音例とで異なるか否かを検討する。
以上の結果から,トレーニングの過程で適切に設計された介入は,異なる不確実性源の識別・識別に有効な方法であることが示唆された。
論文 参考訳(メタデータ) (2021-07-27T22:49:59Z) - A New Score for Adaptive Tests in Bayesian and Credal Networks [64.80185026979883]
テストは、そのシークエンスと質問数とが、テイカーの推定スキルに基づいて動的に調整されるときに適応する。
後部確率のモードに基づいて、別のスコアの族を提示するので、説明し易い。
論文 参考訳(メタデータ) (2021-05-25T20:35:42Z) - Exploring Bayesian Deep Learning for Urgent Instructor Intervention Need
in MOOC Forums [58.221459787471254]
大規模なオープンオンラインコース(MOOC)は、その柔軟性のおかげで、eラーニングの一般的な選択肢となっている。
多くの学習者とその多様な背景から、リアルタイムサポートの提供は課税されている。
MOOCインストラクターの大量の投稿と高い作業負荷により、インストラクターが介入を必要とするすべての学習者を識別できる可能性は低いです。
本稿では,モンテカルロドロップアウトと変分推論という2つの手法を用いて,学習者によるテキスト投稿のベイジアン深層学習を初めて検討する。
論文 参考訳(メタデータ) (2021-04-26T15:12:13Z) - Generative Context Pair Selection for Multi-hop Question Answering [60.74354009152721]
マルチホップ質問応答のための生成コンテキスト選択モデルを提案する。
提案した生成経路選択モデルは,対向保留集合上でのより良い性能(ベースラインより4.9%高い)を有する。
論文 参考訳(メタデータ) (2021-04-18T07:00:48Z) - Learning with Instance Bundles for Reading Comprehension [61.823444215188296]
質問応答スコアを複数の関連インスタンスで比較する新しい監視手法を提案する。
具体的には、密接に対照的な質問や回答のさまざまな近所でこれらのスコアを正規化します。
2つのデータセット上のインスタンスバンドルによるトレーニングの有効性を実証的に実証する。
論文 参考訳(メタデータ) (2021-04-18T06:17:54Z) - R2DE: a NLP approach to estimating IRT parameters of newly generated
questions [3.364554138758565]
R2DEは、質問のテキストを見て、新しく生成された複数の選択の質問を評価することができるモデルである。
特に、各質問の難易度と識別度を推定することができる。
論文 参考訳(メタデータ) (2020-01-21T14:31:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。