論文の概要: Reasoning and Sampling-Augmented MCQ Difficulty Prediction via LLMs
- arxiv url: http://arxiv.org/abs/2503.08551v1
- Date: Tue, 11 Mar 2025 15:39:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-12 15:44:09.840417
- Title: Reasoning and Sampling-Augmented MCQ Difficulty Prediction via LLMs
- Title(参考訳): LLMを用いた推論とサンプリングによるMCQ障害予測
- Authors: Wanyong Feng, Peter Tran, Stephen Sireci, Andrew Lan,
- Abstract要約: マルチチョイス質問(MCQ)の難易度を予測するための新しい2段階手法を提案する。
まず、各MCQの複雑さをより正確に見積もるために、大きな言語モデル(LLM)を使用して、各オプションに到達するために必要な推論ステップを拡張します。
第2に,MCQ に応答する学生の変動を考慮した分布から知識レベルを抽出する。
- 参考スコア(独自算出の注目度): 1.749935196721634
- License:
- Abstract: The difficulty of multiple-choice questions (MCQs) is a crucial factor for educational assessments. Predicting MCQ difficulty is challenging since it requires understanding both the complexity of reaching the correct option and the plausibility of distractors, i.e., incorrect options. In this paper, we propose a novel, two-stage method to predict the difficulty of MCQs. First, to better estimate the complexity of each MCQ, we use large language models (LLMs) to augment the reasoning steps required to reach each option. We use not just the MCQ itself but also these reasoning steps as input to predict the difficulty. Second, to capture the plausibility of distractors, we sample knowledge levels from a distribution to account for variation among students responding to the MCQ. This setup, inspired by item response theory (IRT), enable us to estimate the likelihood of students selecting each (both correct and incorrect) option. We align these predictions with their ground truth values, using a Kullback-Leibler (KL) divergence-based regularization objective, and use estimated likelihoods to predict MCQ difficulty. We evaluate our method on two real-world \emph{math} MCQ and response datasets with ground truth difficulty values estimated using IRT. Experimental results show that our method outperforms all baselines, up to a 28.3\% reduction in mean squared error and a 34.6\% improvement in the coefficient of determination. We also qualitatively discuss how our novel method results in higher accuracy in predicting MCQ difficulty.
- Abstract(参考訳): 多重選択質問(MCQ)の難しさは、教育評価にとって重要な要素である。
MCQの予測の困難さは、正しい選択肢に到達する複雑さと、不正確な選択肢である注意散布器の妥当性の両方を理解する必要があるため、困難である。
本稿では,MCQの難易度を予測するための新しい2段階手法を提案する。
まず、各MCQの複雑さをより正確に見積もるために、大きな言語モデル(LLM)を使用して、各オプションに到達するために必要な推論ステップを拡張します。
我々はMCQ自体だけでなく、これらの推論ステップを入力として使い、難易度を予測する。
第2に,MCQ に応答する学生の変動を考慮した分布から知識レベルを抽出する。
この設定は、アイテム応答理論(IRT)にインスパイアされたものであり、学生がそれぞれの(正しくも正しくも)オプションを選択する確率を推定することができる。
我々はこれらの予測を、KL(Kullback-Leibler)の発散に基づく正規化目標を用いて、それらの真理値と整合させ、MCQの難易度を予測する。
IRTを用いた実世界MCQと応答データセットを用いて,本手法の評価を行った。
その結果, 平均二乗誤差が最大28.3 %, 判定係数が34.6 %向上した。
また,本手法がMCQの難易度予測の精度を高める方法について定性的に検討した。
関連論文リスト
- Which of These Best Describes Multiple Choice Evaluation with LLMs? A) Forced B) Flawed C) Fixable D) All of the Above [14.5781090243416]
複数の選択質問応答(MCQA)は、単純さと人間らしいテストのため、LCMの評価に人気がある。
1) テスト生成/サブジェクティビティ,2) LLM のユースケースにマッチする,3) 完全なテスト知識。
論文 参考訳(メタデータ) (2025-02-19T22:11:52Z) - MATH-Perturb: Benchmarking LLMs' Math Reasoning Abilities against Hard Perturbations [90.07275414500154]
各種モデルにおけるMATH-P-Hardの性能低下を観察する。
また、学習した問題解決スキルを盲目的に適用する新しい形態の記憶に関する懸念も提起する。
論文 参考訳(メタデータ) (2025-02-10T13:31:46Z) - Are You Doubtful? Oh, It Might Be Difficult Then! Exploring the Use of Model Uncertainty for Question Difficulty Estimation [12.638577140117702]
本研究では,不確実性の特徴が難易度予測に大きく寄与することを示し,難易度は質問に正しく答えられる学生数に逆比例することを示した。
このアプローチの価値を示すことに加えて、BEAが公開しているデータセット上で、私たちのモデルが最先端の結果を達成することも観察します。
論文 参考訳(メタデータ) (2024-12-16T14:55:09Z) - Question Difficulty Ranking for Multiple-Choice Reading Comprehension [3.273958158967657]
複数選択テスト(MC)は、英語学習者を評価するのに有効な方法である。
テストクリエーターは、試験キュレーションの際の難易度によって、候補MCの質問をランク付けするのに役立つ。
MC質問を難易度でランク付けするための自動アプローチについて検討する。
論文 参考訳(メタデータ) (2024-04-16T16:23:10Z) - Can multiple-choice questions really be useful in detecting the abilities of LLMs? [15.756543037102256]
大規模言語モデル(LLM)の評価には,MCQ(Multiple-choice Question)が広く用いられている。
課題と評価方法のミスアライメントは,MCQの有効性の思慮深い分析を必要とする。
質問応答(QA)データセットを中国語と英語の2言語で評価した。
論文 参考訳(メタデータ) (2024-03-26T14:43:48Z) - DCR: Divide-and-Conquer Reasoning for Multi-choice Question Answering with LLMs [9.561022942046279]
大規模言語モデル(LLM)の推論能力を高めるため,DCR(Divide and Conquer Reasoning)を提案する。
まず、信頼性スコア(mathcalCS$)に基づいて質問を2つのサブセットに分類する。
特に,質問を信頼性スコア(mathcalCS$)に基づいて2つのサブセットに分類する。
論文 参考訳(メタデータ) (2024-01-10T14:38:46Z) - Answering from Sure to Uncertain: Uncertainty-Aware Curriculum Learning
for Video Question Answering [63.12469700986452]
不確実性を考慮したカリキュラム学習(CL)の概念を導入する。
ここで不確実性は、困難を動的に調整するための指針となる。
実際に、我々は、ビデオQAモデルを我々のフレームワークにシームレスに統合し、包括的な実験を行う。
論文 参考訳(メタデータ) (2024-01-03T02:29:34Z) - T-SciQ: Teaching Multimodal Chain-of-Thought Reasoning via Mixed Large
Language Model Signals for Science Question Answering [59.63860993280275]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて例外的な性能を示した。
LLM信号を用いた科学質問応答の指導を目的とした,T-SciQと呼ばれる新しい手法を提案する。
提案手法は,ScienceQAベンチマークで96.18%の精度で,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-05-05T11:56:30Z) - Momentum Contrastive Pre-training for Question Answering [54.57078061878619]
MCROSSはモーメントコントラスト学習フレームワークを導入し、クローゼのような解答確率と自然な問合せのサンプルペアを一致させる。
本手法は,教師付きシナリオとゼロショットシナリオの両方において,すべてのベースラインと比較して顕著な改善を実現している。
論文 参考訳(メタデータ) (2022-12-12T08:28:22Z) - Towards Clear Expectations for Uncertainty Estimation [64.20262246029286]
不確実性定量化(UQ)は、信頼できる機械学習(ML)を実現するために不可欠である
ほとんどのUQ手法は、異なる不整合評価プロトコルに悩まされている。
この意見書は、これらの要件を5つの下流タスクを通して指定することで、新たな視点を提供する。
論文 参考訳(メタデータ) (2022-07-27T07:50:57Z) - Unsupervised Multiple Choices Question Answering: Start Learning from
Basic Knowledge [75.7135212362517]
我々は、ほとんど教師なしの多重選択質問回答(MCQA)の可能性について検討する。
提案手法は RACE のベースラインアプローチよりも優れており,MC500 の教師あり学習手法と同等である。
論文 参考訳(メタデータ) (2020-10-21T13:44:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。