論文の概要: A Framework for Human-AI Q-Matrix Refinement: A NeuralCDM Evaluation
- arxiv url: http://arxiv.org/abs/2604.16398v1
- Date: Mon, 30 Mar 2026 03:05:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-04 02:32:13.962979
- Title: A Framework for Human-AI Q-Matrix Refinement: A NeuralCDM Evaluation
- Title(参考訳): A Framework for Human-AI Q-Matrix Refinement: A NeuralCDM Evaluation
- Authors: Ying Zhang, Ningxi Cheng, Yizhu Gao, Hongmei Li, Lehong Shi, Nicholas Young, Geng Yuan, Xiaoming Zhai,
- Abstract要約: 本稿では,大規模言語モデル(LLM)が構造化された誤解認識プロンプトを用いて候補Q行列を生成する,AIQ行列改善のためのフレームワークを提案する。
本フレームワークを熱力学評価データセットに適用し,クラウドサービスモデルに対してローカルにデプロイされたLCMをベンチマークする。
その結果, 繰り返し改良されたLCM生成Q-行列は, エキスパートベースラインモデル適合を超えうることがわかった。
- 参考スコア(独自算出の注目度): 12.897437133038004
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Q-matrices are a cornerstone of theory-driven assessment and learning analytics, making item demands and students' underlying knowledge components and misconceptions explicit and actionable. However, Q-matrices are typically crafted by experts, making them time-consuming to build, prone to subjectivity, and difficult to validate empirically. We propose a framework for human-AI Q-matrix refinement in which large language models (LLMs) generate candidate Q-matrices using structured, misconception-aware prompting, and NeuralCDM provides an empirical evaluation layer to compare candidates based on how well they explain student response data. We apply the framework to a thermodynamics assessment dataset and benchmark locally deployed LLMs against cloud-served models. Results show that iteratively refined LLM-generated Q-matrices can exceed expert-baseline model fit (AUC 0.780 vs. 0.717), and that locally deployed models achieve comparable performance to cloud APIs, supporting privacy-preserving deployment.
- Abstract(参考訳): Q-matricesは理論に基づく評価と学習分析の基盤であり、アイテム要求と学生の基本的な知識要素と誤解を明確かつ実行可能なものにしている。
しかし、Q-行列は一般的に専門家によって作成され、構築に時間がかかり、主観性が低下し、実証的な検証が困難である。
本稿では,大規模言語モデル(LLM)が構造化された誤解認識プロンプトを用いて候補Q行列を生成する,AIQ行列改善のためのフレームワークを提案する。
本フレームワークを熱力学評価データセットに適用し,クラウドサービスモデルに対してローカルにデプロイされたLCMをベンチマークする。
結果は、繰り返し改良されたLCM生成Q-行列がエキスパートベースラインモデル適合(AUC 0.780 vs. 0.717)を超え、ローカルにデプロイされたモデルはクラウドAPIと同等のパフォーマンスを実現し、プライバシ保護デプロイメントをサポートすることを示している。
関連論文リスト
- Scalable Text-Embedding-informed Cognitive Diagnosis of Large Language Models [4.86897953445012]
大規模言語モデル(LLM)は、様々なベンチマークで顕著なパフォーマンスを達成した。
既存の評価プラクティスは、根底にある推論能力の曖昧な粗い要約メトリクスに大きく依存しています。
本研究では,認知診断モデル(CDM)を心理測定に適応させる新しい手法を提案する。
論文 参考訳(メタデータ) (2026-03-16T00:14:47Z) - SelfAI: Building a Self-Training AI System with LLM Agents [79.10991818561907]
SelfAIは、高レベルの研究目的を標準化された実験構成に変換するためのUser Agentを組み合わせた、一般的なマルチエージェントプラットフォームである。
実験マネージャは、連続的なフィードバックのための構造化知識ベースを維持しながら、異種ハードウェアをまたいだ並列かつフォールトトレラントなトレーニングを編成する。
回帰、コンピュータビジョン、科学計算、医用画像、薬物発見ベンチマークなどを通じて、SelfAIは一貫して高いパフォーマンスを達成し、冗長な試行を減らしている。
論文 参考訳(メタデータ) (2025-11-29T09:18:39Z) - StructTest: Benchmarking LLMs' Reasoning through Compositional Structured Outputs [78.84060166851805]
StructTestは、大規模な言語モデル(LLM)を合成命令に従って構造化出力を生成する能力に基づいて評価する、新しいベンチマークである。
評価はルールベースの評価器を用いて決定的に行われ、新しいタスクやデータセットに容易に拡張できる。
StructTestは、Deepseek-V3/R1やGPT-4oといったトップパフォーマンスモデルでも、依然として難しいままです。
論文 参考訳(メタデータ) (2024-12-23T22:08:40Z) - Benchmarks as Microscopes: A Call for Model Metrology [76.64402390208576]
現代の言語モデル(LM)は、能力評価において新たな課題を提起する。
メトリクスに自信を持つためには、モデルミアロジの新たな規律が必要です。
論文 参考訳(メタデータ) (2024-07-22T17:52:12Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - Prerequisite-driven Q-matrix Refinement for Learner Knowledge
Assessment: A Case Study in Online Learning Context [2.221779410386775]
本稿では,学習者知識評価(PQRLKA)のための前提条件駆動型Q行列改善フレームワークを提案する。
学習者の応答データから前提条件を推測し,それを用いて専門家定義Q行列を洗練する。
改良されたQ行列に基づいて,Metapath2Vec拡張畳み込み表現法を提案し,各項目の包括的表現を求める。
論文 参考訳(メタデータ) (2022-08-24T08:44:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。