論文の概要: Reasoning and Sampling-Augmented MCQ Difficulty Prediction via LLMs
- arxiv url: http://arxiv.org/abs/2503.08551v1
- Date: Tue, 11 Mar 2025 15:39:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-12 22:35:51.862083
- Title: Reasoning and Sampling-Augmented MCQ Difficulty Prediction via LLMs
- Title(参考訳): LLMを用いた推論とサンプリングによるMCQ障害予測
- Authors: Wanyong Feng, Peter Tran, Stephen Sireci, Andrew Lan,
- Abstract要約: マルチチョイス質問(MCQ)の難易度を予測するための新しい2段階手法を提案する。
まず、各MCQの複雑さをより正確に見積もるために、大きな言語モデル(LLM)を使用して、各オプションに到達するために必要な推論ステップを拡張します。
第2に,MCQ に応答する学生の変動を考慮した分布から知識レベルを抽出する。
- 参考スコア(独自算出の注目度): 1.749935196721634
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The difficulty of multiple-choice questions (MCQs) is a crucial factor for educational assessments. Predicting MCQ difficulty is challenging since it requires understanding both the complexity of reaching the correct option and the plausibility of distractors, i.e., incorrect options. In this paper, we propose a novel, two-stage method to predict the difficulty of MCQs. First, to better estimate the complexity of each MCQ, we use large language models (LLMs) to augment the reasoning steps required to reach each option. We use not just the MCQ itself but also these reasoning steps as input to predict the difficulty. Second, to capture the plausibility of distractors, we sample knowledge levels from a distribution to account for variation among students responding to the MCQ. This setup, inspired by item response theory (IRT), enable us to estimate the likelihood of students selecting each (both correct and incorrect) option. We align these predictions with their ground truth values, using a Kullback-Leibler (KL) divergence-based regularization objective, and use estimated likelihoods to predict MCQ difficulty. We evaluate our method on two real-world \emph{math} MCQ and response datasets with ground truth difficulty values estimated using IRT. Experimental results show that our method outperforms all baselines, up to a 28.3\% reduction in mean squared error and a 34.6\% improvement in the coefficient of determination. We also qualitatively discuss how our novel method results in higher accuracy in predicting MCQ difficulty.
- Abstract(参考訳): 多重選択質問(MCQ)の難しさは、教育評価にとって重要な要素である。
MCQの予測の困難さは、正しい選択肢に到達する複雑さと、不正確な選択肢である注意散布器の妥当性の両方を理解する必要があるため、困難である。
本稿では,MCQの難易度を予測するための新しい2段階手法を提案する。
まず、各MCQの複雑さをより正確に見積もるために、大きな言語モデル(LLM)を使用して、各オプションに到達するために必要な推論ステップを拡張します。
我々はMCQ自体だけでなく、これらの推論ステップを入力として使い、難易度を予測する。
第2に,MCQ に応答する学生の変動を考慮した分布から知識レベルを抽出する。
この設定は、アイテム応答理論(IRT)にインスパイアされたものであり、学生がそれぞれの(正しくも正しくも)オプションを選択する確率を推定することができる。
我々はこれらの予測を、KL(Kullback-Leibler)の発散に基づく正規化目標を用いて、それらの真理値と整合させ、MCQの難易度を予測する。
IRTを用いた実世界MCQと応答データセットを用いて,本手法の評価を行った。
その結果, 平均二乗誤差が最大28.3 %, 判定係数が34.6 %向上した。
また,本手法がMCQの難易度予測の精度を高める方法について定性的に検討した。
関連論文リスト
- Right Answer, Wrong Score: Uncovering the Inconsistencies of LLM Evaluation in Multiple-Choice Question Answering [78.89231943329885]
大規模言語モデル(LLM)を評価するために最も広く使われているタスクの1つは、Multiple-Choice Question Answering (MCQA)である。
本研究は,MCQA評価戦略の不整合を軽視し,不正確かつ誤ったモデル比較に繋がる可能性がある。
論文 参考訳(メタデータ) (2025-03-19T08:45:03Z) - Reliable and Efficient Amortized Model-based Evaluation [57.6469531082784]
幅広いベンチマークの平均スコアは、実際に言語モデルを使用することをガイドするシグナルを提供する。
コストを下げるための一般的な試みは、ベンチマークのサブセットの平均スコアを計算することである。
このアプローチは、平均スコアがベンチマークサブセットの質問の難しさと合わさったため、信頼性の低いLM性能をしばしば引き起こす。
我々は、その内容から質問難度を予測するモデルを訓練し、信頼性のある測定をコストのごく一部で行えるようにした。
論文 参考訳(メタデータ) (2025-03-17T16:15:02Z) - FINEREASON: Evaluating and Improving LLMs' Deliberate Reasoning through Reflective Puzzle Solving [90.88021670297664]
FINEREASONは、大規模言語モデルの推論能力を評価するための論理パズルベンチマークである。
状態チェックと状態遷移という2つのタスクを導入し、モデルが現在の状況をどのように評価するかを総合的に評価し、次の動きを計画する。
状態チェックと遷移データに基づいてトレーニングされたモデルでは、GSM8Kで最大5.1%の精度で数学推論が向上することを示す。
論文 参考訳(メタデータ) (2025-02-27T16:23:25Z) - CoT-UQ: Improving Response-wise Uncertainty Quantification in LLMs with Chain-of-Thought [10.166370877826486]
大規模言語モデル(LLM)は多くのタスクで優れるが、生成された応答の不確かさを正確に定量化するのに苦労する。
LLMの既存の不確実性定量化(UQ)法は、主に応答性よりも即時的であり、高い計算コストを発生させる。
応答型UQフレームワークであるCoT-UQを提案する。このフレームワークは,Chain-of-Thought (CoT) を通じて LLM 固有の推論機能を UQ プロセスに統合する。
論文 参考訳(メタデータ) (2025-02-24T14:48:06Z) - Are You Doubtful? Oh, It Might Be Difficult Then! Exploring the Use of Model Uncertainty for Question Difficulty Estimation [12.638577140117702]
本研究では,不確実性の特徴が難易度予測に大きく寄与することを示し,難易度は質問に正しく答えられる学生数に逆比例することを示した。
このアプローチの価値を示すことに加えて、BEAが公開しているデータセット上で、私たちのモデルが最先端の結果を達成することも観察します。
論文 参考訳(メタデータ) (2024-12-16T14:55:09Z) - Question Difficulty Ranking for Multiple-Choice Reading Comprehension [3.273958158967657]
複数選択テスト(MC)は、英語学習者を評価するのに有効な方法である。
テストクリエーターは、試験キュレーションの際の難易度によって、候補MCの質問をランク付けするのに役立つ。
MC質問を難易度でランク付けするための自動アプローチについて検討する。
論文 参考訳(メタデータ) (2024-04-16T16:23:10Z) - Can multiple-choice questions really be useful in detecting the abilities of LLMs? [15.756543037102256]
大規模言語モデル(LLM)の評価には,MCQ(Multiple-choice Question)が広く用いられている。
課題と評価方法のミスアライメントは,MCQの有効性の思慮深い分析を必要とする。
質問応答(QA)データセットを中国語と英語の2言語で評価した。
論文 参考訳(メタデータ) (2024-03-26T14:43:48Z) - DCR: Divide-and-Conquer Reasoning for Multi-choice Question Answering with LLMs [9.561022942046279]
大規模言語モデル(LLM)の推論能力を高めるため,DCR(Divide and Conquer Reasoning)を提案する。
まず、信頼性スコア(mathcalCS$)に基づいて質問を2つのサブセットに分類する。
特に,質問を信頼性スコア(mathcalCS$)に基づいて2つのサブセットに分類する。
論文 参考訳(メタデータ) (2024-01-10T14:38:46Z) - Answering from Sure to Uncertain: Uncertainty-Aware Curriculum Learning
for Video Question Answering [63.12469700986452]
不確実性を考慮したカリキュラム学習(CL)の概念を導入する。
ここで不確実性は、困難を動的に調整するための指針となる。
実際に、我々は、ビデオQAモデルを我々のフレームワークにシームレスに統合し、包括的な実験を行う。
論文 参考訳(メタデータ) (2024-01-03T02:29:34Z) - T-SciQ: Teaching Multimodal Chain-of-Thought Reasoning via Mixed Large
Language Model Signals for Science Question Answering [59.63860993280275]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて例外的な性能を示した。
LLM信号を用いた科学質問応答の指導を目的とした,T-SciQと呼ばれる新しい手法を提案する。
提案手法は,ScienceQAベンチマークで96.18%の精度で,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-05-05T11:56:30Z) - Momentum Contrastive Pre-training for Question Answering [54.57078061878619]
MCROSSはモーメントコントラスト学習フレームワークを導入し、クローゼのような解答確率と自然な問合せのサンプルペアを一致させる。
本手法は,教師付きシナリオとゼロショットシナリオの両方において,すべてのベースラインと比較して顕著な改善を実現している。
論文 参考訳(メタデータ) (2022-12-12T08:28:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。