論文の概要: Automated Alignment of Math Items to Content Standards in Large-Scale Assessments Using Language Models
- arxiv url: http://arxiv.org/abs/2510.05129v1
- Date: Tue, 30 Sep 2025 21:44:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-08 17:57:07.831256
- Title: Automated Alignment of Math Items to Content Standards in Large-Scale Assessments Using Language Models
- Title(参考訳): 言語モデルを用いた大規模評価における数学項目のコンテンツ標準への自動アライメント
- Authors: Qingshu Xu, Hong Jiao, Tianyi Zhou, Ming Li, Nan Zhang, Sydney Peters, Yanbin Fu,
- Abstract要約: 本研究では,4つのドメインと19のスキルラベルを連携させる3つの自動パラダイムを評価する。
8つのBERTモデルとその変種をドメインおよびスキルアライメントの両方に微調整した。
アンサンブルモデルは最高の性能を持つ言語モデルを超えなかった。
- 参考スコア(独自算出の注目度): 17.18401180371013
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Accurate alignment of items to content standards is critical for valid score interpretation in large-scale assessments. This study evaluates three automated paradigms for aligning items with four domain and nineteen skill labels. First, we extracted embeddings and trained multiple classical supervised machine learning models, and further investigated the impact of dimensionality reduction on model performance. Second, we fine-tuned eight BERT model and its variants for both domain and skill alignment. Third, we explored ensemble learning with majority voting and stacking with multiple meta-models. The DeBERTa-v3-base achieved the highest weighted-average F1 score of 0.950 for domain alignment while the RoBERTa-large yielded the highest F1 score of 0.869 for skill alignment. Ensemble models did not surpass the best-performing language models. Dimension reduction enhanced linear classifiers based on embeddings but did not perform better than language models. This study demonstrated different methods in automated item alignment to content standards.}
- Abstract(参考訳): コンテンツ標準に対する項目の正確なアライメントは、大規模評価において有効なスコア解釈に不可欠である。
本研究では,4つのドメインと19のスキルラベルを連携させる3つの自動パラダイムを評価する。
まず、埋め込みを抽出し、複数の古典的教師付き機械学習モデルを訓練し、さらに、次元の減少がモデル性能に与える影響について検討した。
次に、8つのBERTモデルとその変種をドメインおよびスキルアライメントの両方に微調整した。
第3に,多数決によるアンサンブル学習と,複数のメタモデルによる積み重ねについて検討した。
DeBERTa-v3ベースはドメインアライメントのF1スコアが0.950で、RoBERTa-largeはスキルアライメントのF1スコアが0.869だった。
アンサンブルモデルは最高の性能を持つ言語モデルを超えなかった。
次元削減により、埋め込みに基づく線形分類器が強化されたが、言語モデルよりも性能は良くなかった。
本研究は,コンテンツ標準に適合する自動アイテムアライメントにおいて,様々な手法を実証した。
※
関連論文リスト
- Text-Based Approaches to Item Alignment to Content Standards in Large-Scale Reading & Writing Tests [16.474453687125948]
本研究では、自動項目アライメントのための微調整小言語モデル(SLM)の性能について検討した。
学習用入力データの種類とサイズが与える影響について検討した。
その結果、微調整されたSLMは埋め込みベースの教師あり機械学習モデルよりも一貫して優れていた。
論文 参考訳(メタデータ) (2025-09-30T15:53:22Z) - KaLM-Embedding: Superior Training Data Brings A Stronger Embedding Model [27.25688303240741]
KaLM-Embeddingは、よりクリーンで、より多様な、ドメイン固有のトレーニングデータを活用する一般的な多言語埋め込みモデルである。
我々のモデルは、性能を向上させることが証明された重要な技術で訓練されている。
論文 参考訳(メタデータ) (2025-01-02T03:17:51Z) - Anchor Points: Benchmarking Models with Much Fewer Examples [88.02417913161356]
6つの人気のある言語分類ベンチマークでは、多数の点の正しいクラスに対するモデル信頼度はモデル間で強く相関している。
Anchor Point Selectionは,データセット全体にわたるモデル動作をキャプチャする,データセットの小さなサブセットを選択する手法である。
平均絶対誤差が低いデータセットの他のすべての点について、クラスごとの予測モデルを推定するために、いくつかのアンカーポイントを使用することができる。
論文 参考訳(メタデータ) (2023-09-14T17:45:51Z) - Large Language Models in the Workplace: A Case Study on Prompt
Engineering for Job Type Classification [58.720142291102135]
本研究では,実環境における職種分類の課題について検討する。
目標は、英語の求職が卒業生やエントリーレベルの地位に適切かどうかを判断することである。
論文 参考訳(メタデータ) (2023-03-13T14:09:53Z) - Few-Shot Named Entity Recognition: A Comprehensive Study [92.40991050806544]
マルチショット設定のモデル一般化能力を向上させるための3つの手法を検討する。
ラベル付きデータの比率の異なる10の公開nerデータセットについて経験的比較を行う。
マルチショットとトレーニングフリーの両方の設定で最新の結果を作成します。
論文 参考訳(メタデータ) (2020-12-29T23:43:16Z) - Gestalt: a Stacking Ensemble for SQuAD2.0 [0.0]
本稿では,文脈文中の質問に対する正しい回答を見つけ出し,提示する深層学習システムを提案する。
我々のゴールは、各アンサンブルで最高のモデルを上回る異種SQuAD2.0モデルのアンサンブルを学習することである。
論文 参考訳(メタデータ) (2020-04-02T08:09:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。