論文の概要: Prediction of Item Difficulty for Reading Comprehension Items by Creation of Annotated Item Repository
- arxiv url: http://arxiv.org/abs/2502.20663v1
- Date: Fri, 28 Feb 2025 02:42:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-03 13:42:38.551905
- Title: Prediction of Item Difficulty for Reading Comprehension Items by Creation of Annotated Item Repository
- Title(参考訳): 注釈項目リポジトリの作成による要約項目の読み難い項目の予測
- Authors: Radhika Kapoor, Sang T. Truong, Nick Haber, Maria Araceli Ruiz-Primo, Benjamin W. Domingue,
- Abstract要約: テキストの内容に基づいてアイテムの難易度を予測することは大きな関心事である。
我々は、もともと報告されたアイテムp-値のデータをIRTベースの難易度を回復する関連問題に焦点をあてる。
本リポジトリには,(1)読解項目の言語的特徴,(2)読解項目のテスト特徴,(3)文脈特徴に関するメタデータが付加されている。
- 参考スコア(独自算出の注目度): 2.5984661605688397
- License:
- Abstract: Prediction of item difficulty based on its text content is of substantial interest. In this paper, we focus on the related problem of recovering IRT-based difficulty when the data originally reported item p-value (percent correct responses). We model this item difficulty using a repository of reading passages and student data from US standardized tests from New York and Texas for grades 3-8 spanning the years 2017-23. This repository is annotated with meta-data on (1) linguistic features of the reading items, (2) test features of the passage, and (3) context features. A penalized regression prediction model with all these features can predict item difficulty with RMSE 0.52 compared to baseline RMSE of 0.92, and with a correlation of 0.77 between true and predicted difficulty. We supplement these features with embeddings from LLMs (ModernBERT, BERT, and LlAMA), which marginally improve item difficulty prediction. When models use only item linguistic features or LLM embeddings, prediction performance is similar, which suggests that only one of these feature categories may be required. This item difficulty prediction model can be used to filter and categorize reading items and will be made publicly available for use by other stakeholders.
- Abstract(参考訳): テキストの内容に基づいてアイテムの難易度を予測することは大きな関心事である。
本稿では、もともと報告された項目p値(正解率)のデータにおいて、IRTベースの難易度を回復する関連問題に焦点をあてる。
我々は,2017~23年の3~8年生を対象に,ニューヨークとテキサスの米国標準試験の読解パスと学生データのリポジトリを用いて,この項目の難易度をモデル化した。
本リポジトリには,(1)読解項目の言語的特徴,(2)読解項目の試験特徴,(3)文脈特徴に関するメタデータが付加されている。
これらすべての特徴を持つペナル化回帰予測モデルは、RMSE 0.52の基準RMSE 0.92の項目困難を予測でき、真と予測困難の間の相関は 0.77 である。
これらの特徴をLLM(ModernBERT,BERT,LlAMA)の埋め込みで補うことで,アイテムの難易度予測を極端に改善する。
モデルが項目言語的特徴やLLM埋め込みのみを使用する場合、予測性能は類似しており、これらの特徴カテゴリの1つしか必要とされないことが示唆されている。
この難読度予測モデルは、読み出し項目のフィルタリングと分類に使用することができ、他の利害関係者が利用できるようにする。
関連論文リスト
- Idiosyncrasies in Large Language Models [54.26923012617675]
大規模言語モデル(LLM)における慣用句の公開と研究
LLM生成テキスト上に既存のテキスト埋め込みモデルを微調整することで、優れた分類精度が得られることが判明した。
我々はLLMを審査員として利用し、各モデルの慣用句の詳細かつオープンな記述を生成する。
論文 参考訳(メタデータ) (2025-02-17T18:59:02Z) - Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。
主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。
3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文 参考訳(メタデータ) (2024-04-04T15:36:53Z) - Characterizing instance hardness in classification and regression
problems [0.0]
本稿では,データセットのどのインスタンスがラベルを正確に予測しにくいかを特徴付けるメタ機能について述べる。
分類問題と回帰問題の両方が考慮されている。
すべての実装を含むPythonパッケージも提供されている。
論文 参考訳(メタデータ) (2022-12-04T19:16:43Z) - You can't pick your neighbors, or can you? When and how to rely on
retrieval in the $k$NN-LM [65.74934004876914]
Retrieval-enhanced Language Model (LM) は、大規模な外部データストアから取得したテキストにそれらの予測を条件付ける。
そのようなアプローチの1つ、$k$NN-LMは、既存のLMの予測を$k$-nearest近くのモデルの出力と補間する。
本研究では,2つの英語モデルデータセットに対するアプローチの有効性を実証的に測定する。
論文 参考訳(メタデータ) (2022-10-28T02:57:40Z) - Using Interventions to Improve Out-of-Distribution Generalization of
Text-Matching Recommendation Systems [14.363532867533012]
ペア化アイテム関連データに基づく大規模ベース言語モデルの微調整は、一般化には非生産的である。
製品レコメンデーションタスクでは、新しいカテゴリや将来的な期間の項目を推薦する場合、ファインチューニングはベースモデルよりも精度が低い。
本稿では,モデルの関連性スコアに対するトークンの因果的影響を制限する介入ベース正規化器を提案する。
論文 参考訳(メタデータ) (2022-10-07T11:16:45Z) - SMART: Sentences as Basic Units for Text Evaluation [48.5999587529085]
本稿では,このような制約を緩和するSMARTと呼ばれる新しい指標を提案する。
文をトークンの代わりにマッチングの基本単位として扱い,ソフトマッチ候補と参照文に文マッチング関数を用いる。
この結果から,提案手法とモデルベースマッチング関数とのシステムレベルの相関は,全ての競合する指標よりも優れていた。
論文 参考訳(メタデータ) (2022-08-01T17:58:05Z) - Competency Problems: On Finding and Removing Artifacts in Language Data [50.09608320112584]
複雑な言語理解タスクでは、すべての単純な特徴相関が突発的であると論じる。
人間バイアスを考慮したコンピテンシー問題に対するデータ作成の難しさを理論的に分析します。
論文 参考訳(メタデータ) (2021-04-17T21:34:10Z) - Double Perturbation: On the Robustness of Robustness and Counterfactual
Bias Evaluation [109.06060143938052]
テストデータセットを超えたモデル弱点を明らかにするための"ダブル摂動"フレームワークを提案する。
この枠組みを,モデルの頑健さと英語における反事実バイアスの分析に使用される2つの摂動に基づくアプローチに応用する。
論文 参考訳(メタデータ) (2021-04-12T06:57:36Z) - Geometry matters: Exploring language examples at the decision boundary [2.7249290070320034]
BERT、CNN、fasttextは、高い難易度例において単語置換の影響を受けやすい。
YelpReviewPolarityでは、レジリエンスと摂動の相関係数-0.4と難易度との相関係数を観測する。
我々のアプローチは単純でアーキテクチャに依存しないものであり、テキスト分類モデルの華やかさの研究に利用できる。
論文 参考訳(メタデータ) (2020-10-14T16:26:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。