論文の概要: Exploring the Potential of Large Language Models for Estimating the Reading Comprehension Question Difficulty
- arxiv url: http://arxiv.org/abs/2502.17785v1
- Date: Tue, 25 Feb 2025 02:28:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-26 15:21:54.356191
- Title: Exploring the Potential of Large Language Models for Estimating the Reading Comprehension Question Difficulty
- Title(参考訳): 読解の難易度を推定する大規模言語モデルの可能性を探る
- Authors: Yoshee Jain, John Hollander, Amber He, Sunny Tang, Liang Zhang, John Sabatini,
- Abstract要約: 本研究では,Large Language Models (LLMs) の有効性を検討した。
また,OpenAI の GPT-4o と o1 を用いて,学習支援・読解評価 (SARA) データセットを用いた理解的質問の読解の難しさを推定する。
その結果, モデルがIRTパラメータと有意に一致した難易度推定値を生成する一方で, 極端項目特性に対する感度に顕著な差があることが示唆された。
- 参考スコア(独自算出の注目度): 2.335292678914151
- License:
- Abstract: Reading comprehension is a key for individual success, yet the assessment of question difficulty remains challenging due to the extensive human annotation and large-scale testing required by traditional methods such as linguistic analysis and Item Response Theory (IRT). While these robust approaches provide valuable insights, their scalability is limited. There is potential for Large Language Models (LLMs) to automate question difficulty estimation; however, this area remains underexplored. Our study investigates the effectiveness of LLMs, specifically OpenAI's GPT-4o and o1, in estimating the difficulty of reading comprehension questions using the Study Aid and Reading Assessment (SARA) dataset. We evaluated both the accuracy of the models in answering comprehension questions and their ability to classify difficulty levels as defined by IRT. The results indicate that, while the models yield difficulty estimates that align meaningfully with derived IRT parameters, there are notable differences in their sensitivity to extreme item characteristics. These findings suggest that LLMs can serve as the scalable method for automated difficulty assessment, particularly in dynamic interactions between learners and Adaptive Instructional Systems (AIS), bridging the gap between traditional psychometric techniques and modern AIS for reading comprehension and paving the way for more adaptive and personalized educational assessments.
- Abstract(参考訳): 読解は個人の成功の鍵であるが、言語分析や項目応答理論(IRT)といった従来の手法が必要とする広範囲な人的注釈や大規模なテストのため、質問の難しさの評価は依然として困難である。
これらの堅牢なアプローチは価値ある洞察を提供するが、スケーラビリティは限られている。
大規模言語モデル(LLM)が疑問の難易度推定を自動化する可能性はあるが、まだ未検討である。
本研究では,LLM,特に OpenAI の GPT-4o と o1 を用いて,学習支援・読解評価(SARA)データセットを用いた理解的質問の読解の難しさを推定する。
我々は,理解的疑問に答える際のモデルの精度と,IRTで定義された難易度を分類する能力の両方を評価した。
その結果, モデルがIRTパラメータと有意に整合する難易度推定値を生成する一方で, 極端項目特性に対する感度に顕著な差があることが示唆された。
これらの結果から,LLMは,特に学習者と適応的教育システム(AIS)の動的相互作用において,学習者の理解と適応的・パーソナライズされた教育評価の道を開くために,従来の心理学的手法と現代のAISとのギャップを埋める,スケーラブルな自動難易度評価手法として機能することが示唆された。
関連論文リスト
- How Good is ChatGPT in Giving Adaptive Guidance Using Knowledge Graphs in E-Learning Environments? [0.8999666725996978]
本研究では,動的知識グラフを大規模言語モデル (LLM) と統合し,学習者を支援する手法を提案する。
この手法の中心は、学生がトピックの前提条件を理解する上での知識グラフの役割である。
予備的な知見から, 学生はこの連携支援の恩恵を受け, 理解の向上と課題成果の向上が期待できる。
論文 参考訳(メタデータ) (2024-12-05T04:05:43Z) - Exploring Knowledge Boundaries in Large Language Models for Retrieval Judgment [56.87031484108484]
大規模言語モデル(LLM)は、その実践的応用でますます認識されている。
Retrieval-Augmented Generation (RAG)はこの課題に取り組み、LLMに大きな影響を与えている。
中立あるいは有害な結果をもたらす検索要求を最小化することにより、時間と計算コストの両方を効果的に削減できる。
論文 参考訳(メタデータ) (2024-11-09T15:12:28Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - Knowledge Tagging System on Math Questions via LLMs with Flexible Demonstration Retriever [48.5585921817745]
大きな言語モデル(LLM)は知識タグ付けタスクを自動化するために使われる。
算数問題における知識タグ付けタスクに対するゼロショットと少数ショットの結果の強い性能を示す。
強化学習に基づくデモレトリバーの提案により,異なるサイズのLLMの潜在能力を活用できた。
論文 参考訳(メタデータ) (2024-06-19T23:30:01Z) - Leveraging Prompts in LLMs to Overcome Imbalances in Complex Educational Text Data [1.8280573037181356]
本稿では,Large Language Models (LLMs) の可能性を探究する。
この問題は、学生の認知的エンゲージメントレベルがオープンな反応に有意な変化を示す教育分野において特に顕著である。
論文 参考訳(メタデータ) (2024-04-28T00:24:08Z) - Bayesian Preference Elicitation with Language Models [82.58230273253939]
本稿では,BOEDを用いて情報的質問の選択を案内するフレームワークOPENと,特徴抽出のためのLMを紹介する。
ユーザスタディでは,OPEN が既存の LM- や BOED をベースとした選好手法よりも優れていることが判明した。
論文 参考訳(メタデータ) (2024-03-08T18:57:52Z) - Puzzle Solving using Reasoning of Large Language Models: A Survey [1.9939549451457024]
本稿では,Large Language Models (LLMs) のパズル解法における能力について検討する。
以上の結果から,LLM能力と人為的推論の相違が明らかとなった。
この調査は、LLMのパズル解決能力を向上させるために、新しい戦略とよりリッチなデータセットの必要性を浮き彫りにした。
論文 参考訳(メタデータ) (2024-02-17T14:19:38Z) - Difficulty-Focused Contrastive Learning for Knowledge Tracing with a
Large Language Model-Based Difficulty Prediction [2.8946115982002443]
本稿では,知識追跡モデル(KT)の性能向上のための新しい手法を提案する。
KTモデルに対する難易度中心のコントラスト学習手法と難易度予測のためのLarge Language Model(LLM)ベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-19T06:26:25Z) - Context Matters: Data-Efficient Augmentation of Large Language Models
for Scientific Applications [15.893290942177112]
GPT-4のような大規模言語モデル(LLM)に固有の課題について検討する。
一貫性と意味論的に厳密な方法で誤った回答を提示するLLMの能力は、事実の不正確さの検出を複雑にする。
本研究の目的は,このような誤りの理解と軽減を図り,LCMの精度と信頼性の向上に寄与することである。
論文 参考訳(メタデータ) (2023-12-12T08:43:20Z) - SOUL: Towards Sentiment and Opinion Understanding of Language [96.74878032417054]
我々は、言語感覚とオピニオン理解(SOUL)と呼ばれる新しいタスクを提案する。
SOULは2つのサブタスクを通して感情理解を評価することを目的としている:レビュー(RC)と正当化生成(JG)。
論文 参考訳(メタデータ) (2023-10-27T06:48:48Z) - Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。
より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。
この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文 参考訳(メタデータ) (2023-09-20T09:23:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。