論文の概要: The Use of AI Tools to Develop and Validate Q-Matrices
- arxiv url: http://arxiv.org/abs/2602.08796v1
- Date: Mon, 09 Feb 2026 15:36:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:25.32716
- Title: The Use of AI Tools to Develop and Validate Q-Matrices
- Title(参考訳): Q-Matricsの開発と検証にAIツールを使う
- Authors: Kevin Fan, Jacquelyn A. Bialo, Hongli Li,
- Abstract要約: 本研究では、AI生成したQ行列と検証されたQ行列を比較することにより、AIツールがQ行列開発を支援することができるかどうかを検討する。
Google Gemini 2.5 Proは、検証されたQ行列との最高合意(Kappa = 0.63)を達成した。
しかし、新しいAIバージョンを使用した2026年1月のフォローアップ分析では、検証済みのQ行列との合意が低かった。
- 参考スコア(独自算出の注目度): 5.074869159294169
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Constructing a Q-matrix is a critical but labor-intensive step in cognitive diagnostic modeling (CDM). This study investigates whether AI tools (i.e., general language models) can support Q-matrix development by comparing AI-generated Q-matrices with a validated Q-matrix from Li and Suen (2013) for a reading comprehension test. In May 2025, multiple AI models were provided with the same training materials as human experts. Agreement among AI-generated Q-matrices, the validated Q-matrix, and human raters' Q-matrices was assessed using Cohen's kappa. Results showed substantial variation across AI models, with Google Gemini 2.5 Pro achieving the highest agreement (Kappa = 0.63) with the validated Q-matrix, exceeding that of all human experts. A follow-up analysis in January 2026 using newer AI versions, however, revealed lower agreement with the validated Q-matrix. Implications and directions for future research are discussed.
- Abstract(参考訳): Q行列の構築は、認知診断モデリング(CDM)における重要なステップであるが、労働集約的なステップである。
本研究では,AIツール(一般言語モデル)が,LiとSuen(2013)の検証済みQ行列とAI生成Q行列を比較して,読解理解テストを行うことにより,Q行列開発を支援することができるかどうかを検討する。
2025年5月、複数のAIモデルに人間の専門家と同じ訓練材料が与えられた。
コーエンのカッパを用いて,AI生成Q-行列,検証されたQ-行列,ヒトラッカーのQ-行列の一致を評価した。
その結果、AIモデル間でかなりのバリエーションがあり、Google Gemini 2.5 Proが最も高い合意(Kappa = 0.63)を達成した。
しかし、新しいAIバージョンを使用した2026年1月のフォローアップ分析では、検証済みのQ行列との合意が低かった。
今後の研究の意図と方向性について論じる。
関連論文リスト
- Explainable AI as a Double-Edged Sword in Dermatology: The Impact on Clinicians versus The Public [46.86429592892395]
説明可能なAI(XAI)は、AI意思決定の洞察を提供することによって、この問題に対処する。
フェアネスに基づく診断AIモデルと異なるXAI説明を組み合わせた2つの大規模実験の結果を報告する。
論文 参考訳(メタデータ) (2025-12-14T00:06:06Z) - Q-Mirror: Unlocking the Multi-Modal Potential of Scientific Text-Only QA Pairs [60.0988889107102]
テキストオンリーQAペア(TQA)を高品質マルチモーダルQAペア(MMQA)に変換する可能性を探る。
我々は、TQA-to-MMQAフレームワークを開発し、変換の原則を提供する包括的で多次元のMMQA品質を確立する。
我々は,MMQA生成と評価を反復精製のためのクローズドループに統合することにより,我々のフレームワークを運用するエージェントシステム(Q-Mirror)を開発した。
論文 参考訳(メタデータ) (2025-09-29T05:22:10Z) - Image Quality Assessment for Embodied AI [103.66095742463195]
Embodied AIは近年急速に発展しているが、現在も主に実験室に配備されている。
具体的タスク、すなわちロボットの知覚品質における画像のユーザビリティを評価するためのIQA手法は存在しない。
論文 参考訳(メタデータ) (2025-05-22T15:51:07Z) - Do great minds think alike? Investigating Human-AI Complementarity in Question Answering with CAIMIRA [43.116608441891096]
人間は知識に基づく帰納的、概念的推論においてAIシステムより優れています。
GPT-4やLLaMAのような最先端のLLMは、ターゲット情報検索において優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-09T03:53:26Z) - Quality Assessment for AI Generated Images with Instruction Tuning [58.41087653543607]
我々はまず,AIGCIQA2023+と呼ばれるAIGIのための画像品質評価(IQA)データベースを構築した。
本稿では,AIGIに対する人間の嗜好を評価するためのMINT-IQAモデルを提案する。
論文 参考訳(メタデータ) (2024-05-12T17:45:11Z) - XAIQA: Explainer-Based Data Augmentation for Extractive Question
Answering [1.1867812760085572]
我々は,電子カルテで自然に利用可能なデータから,合成QAペアを大規模に生成するための新しいアプローチであるXAIQAを紹介する。
本手法は、分類モデル説明器の考え方を用いて、医療規範に対応する医療概念に関する質問や回答を生成する。
論文 参考訳(メタデータ) (2023-12-06T15:59:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。