論文の概要: SMART: Simulated Students Aligned with Item Response Theory for Question Difficulty Prediction
- arxiv url: http://arxiv.org/abs/2507.05129v1
- Date: Mon, 07 Jul 2025 15:41:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:35.489363
- Title: SMART: Simulated Students Aligned with Item Response Theory for Question Difficulty Prediction
- Title(参考訳): SMART:質問難易度予測のための項目応答理論を応用した模擬学生
- Authors: Alexander Scarlatos, Nigel Fernandez, Christopher Ormerod, Susan Lottridge, Andrew Lan,
- Abstract要約: 本稿では、シミュレーションされた学生を指導力で整列させる新しい方法SMART(Simulated Students Aligned with IRT)を提案する。
SMARTは、その改善された能力アライメントを活用することで、他の項目の難易度予測手法よりも優れていることを示す。
- 参考スコア(独自算出の注目度): 41.25292844733891
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Item (question) difficulties play a crucial role in educational assessments, enabling accurate and efficient assessment of student abilities and personalization to maximize learning outcomes. Traditionally, estimating item difficulties can be costly, requiring real students to respond to items, followed by fitting an item response theory (IRT) model to get item difficulty estimates. This approach cannot be applied to the cold-start setting for previously unseen items either. In this work, we present SMART (Simulated Students Aligned with IRT), a novel method for aligning simulated students with instructed ability, which can then be used in simulations to predict the difficulty of open-ended items. We achieve this alignment using direct preference optimization (DPO), where we form preference pairs based on how likely responses are under a ground-truth IRT model. We perform a simulation by generating thousands of responses, evaluating them with an LLM-based scoring model, and fit the resulting data to an IRT model to obtain item difficulty estimates. Through extensive experiments on a real-world student response dataset, we show that SMART outperforms other item difficulty prediction methods by leveraging its improved ability alignment.
- Abstract(参考訳): アイテム(クエスト)の難しさは教育評価において重要な役割を担い、学習成果の最大化のために生徒の能力とパーソナライゼーションの正確かつ効率的な評価を可能にする。
伝統的に、アイテムの難易度を見積もるのはコストがかかるため、実際の学生はアイテムに応答し、続いてアイテムの難易度を推定するためにアイテムの応答理論(IRT)モデルを適用する。
このアプローチは、これまで見つからなかったアイテムのコールドスタート設定にも適用できない。
本研究は, シミュレーションにおいて, 学生を指導力で整列させる新しい手法SMART(Simulated Students Aligned with IRT)を提案する。
このアライメントは直接選好最適化(DPO)を用いて実現され、そこでは、直交IRTモデルの下での応答の確率に基づいて、選好ペアを形成する。
我々は、数千の応答を生成し、LCMに基づくスコアリングモデルで評価し、結果のデータをIRTモデルに適合させて、アイテムの難易度を推定するシミュレーションを行う。
実世界の学生の回答データセットに関する広範な実験を通して、SMARTは改善された能力アライメントを活用することで、他の項目の難易度予測方法よりも優れていることを示す。
関連論文リスト
- Maximally-Informative Retrieval for State Space Model Generation [59.954191072042526]
テスト時に特定のクエリに対するモデル不確実性を最小化するために、Retrieval In-Context Optimization (RICO)を導入する。
文書検索に外部に依存した従来の検索強化生成(RAG)とは異なり,本手法はモデルから直接のフィードバックを利用する。
モデル勾配を用いた標準のトップ$kの検索は、最適化手順を近似し、残余損失への接続を提供することを示す。
論文 参考訳(メタデータ) (2025-06-13T18:08:54Z) - Embracing Imperfection: Simulating Students with Diverse Cognitive Levels Using LLM-based Agents [36.704574105201864]
大規模言語モデル(LLM)は教育に革命をもたらしており、LLMベースのエージェントは学生の振る舞いをシミュレートする上で重要な役割を果たしている。
学生シミュレーションにおける大きな課題は、様々な認知レベルにおける学生の多様な学習パターンをモデル化することである。
論文 参考訳(メタデータ) (2025-05-26T13:48:49Z) - AdvKT: An Adversarial Multi-Step Training Framework for Knowledge Tracing [64.79967583649407]
知識追跡(KT)は、学生の知識状態を監視し、質問シーケンスに対する反応をシミュレートする。
既存のKTモデルは通常、単一ステップのトレーニングパラダイムに従っており、大きなエラーの蓄積につながる。
本稿では,多段階KTタスクに着目した新しい知識追跡のための多段階学習フレームワーク(AdvKT)を提案する。
論文 参考訳(メタデータ) (2025-04-07T03:31:57Z) - SPARC: Score Prompting and Adaptive Fusion for Zero-Shot Multi-Label Recognition in Vision-Language Models [74.40683913645731]
Zero-shot Multi-label Recognition (MLR) with Vision-Language Models (VLMs) は、トレーニングデータ、モデルチューニング、アーキテクチャの変更なしに重要な課題に直面している。
我々の研究は、VLMをブラックボックスとして扱い、トレーニングデータや地上の真実を使わずにスコアを活用する新しいソリューションを提案する。
これらのプロンプトスコアの分析により、VLMバイアスとAND'/OR信号の曖昧さが明らかになり、特に、最高スコアは2番目に高いスコアに比べて驚くほど低い。
論文 参考訳(メタデータ) (2025-02-24T07:15:05Z) - A Systematic Examination of Preference Learning through the Lens of Instruction-Following [83.71180850955679]
新たな合成データ生成パイプラインを用いて48,000の命令追従プロンプトを生成する。
合成プロンプトでは、リジェクションサンプリング(RS)とモンテカルロ木探索(MCTS)の2つの選好データセットキュレーション手法を用いる。
実験により、MCTSが生成した選好ペアにおける共有プレフィックスは、限界はあるが一貫した改善をもたらすことが明らかになった。
高コントラストの選好ペアは一般的に低コントラストのペアよりも優れているが、両者を組み合わせることで最高のパフォーマンスが得られることが多い。
論文 参考訳(メタデータ) (2024-12-18T15:38:39Z) - A Psychology-based Unified Dynamic Framework for Curriculum Learning [5.410910735259908]
本稿では、心理学に基づくカリキュラム学習のための統一動的フレームワーク(PUDF)を提案する。
我々は、人工集団(AC)からの応答にIRT(Item Response Theory)を適用して、データトレーニングの難しさを定量化する。
本稿では,モデル学習中に適切なデータ量をスケジュールするDDS-MAE戦略を提案する。
論文 参考訳(メタデータ) (2024-08-09T20:30:37Z) - Recursive Introspection: Teaching Language Model Agents How to Self-Improve [30.086494067593268]
RISE: Recursive IntroSpEctionは,大規模言語モデルを微調整する手法である。
実験の結果,RISEはLlama2,Llama3,Mistralの各モデルに対して,数学推論タスクのターン数を増やすことで自己改善を可能にすることがわかった。
論文 参考訳(メタデータ) (2024-07-25T17:35:59Z) - Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。
トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。
広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文 参考訳(メタデータ) (2024-06-07T11:37:45Z) - Amortised Design Optimization for Item Response Theory [5.076871870091048]
教育における項目応答理論(IRT)は、学生の反応から学生の能力とテスト項目の特徴を推定するために用いられる。
そこで本研究では、IRTにアモートされた実験設計を取り入れることを提案する。
計算コストは、Deep Reinforcement Learning (DRL)エージェントを合成データでトレーニングすることにより、事前計算フェーズに移行する。
論文 参考訳(メタデータ) (2023-07-19T10:42:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。