論文の概要: Text-Based Approaches to Item Alignment to Content Standards in Large-Scale Reading & Writing Tests
- arxiv url: http://arxiv.org/abs/2509.26431v1
- Date: Tue, 30 Sep 2025 15:53:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 14:45:00.190856
- Title: Text-Based Approaches to Item Alignment to Content Standards in Large-Scale Reading & Writing Tests
- Title(参考訳): 大規模読み書きテストにおけるコンテンツ標準への項目アライメントへのテキストベースアプローチ
- Authors: Yanbin Fu, Hong Jiao, Tianyi Zhou, Robert W. Lissitz, Nan Zhang, Ming Li, Qingshu Xu, Sydney Peters,
- Abstract要約: 本研究では、自動項目アライメントのための微調整小言語モデル(SLM)の性能について検討した。
学習用入力データの種類とサイズが与える影響について検討した。
その結果、微調整されたSLMは埋め込みベースの教師あり機械学習モデルよりも一貫して優れていた。
- 参考スコア(独自算出の注目度): 16.474453687125948
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Aligning test items to content standards is a critical step in test development to collect validity evidence based on content. Item alignment has typically been conducted by human experts. This judgmental process can be subjective and time-consuming. This study investigated the performance of fine-tuned small language models (SLMs) for automated item alignment using data from a large-scale standardized reading and writing test for college admissions. Different SLMs were trained for alignment at both domain and skill levels respectively with 10 skills mapped to 4 content domains. The model performance was evaluated in multiple criteria on two testing datasets. The impact of types and sizes of the input data for training was investigated. Results showed that including more item text data led to substantially better model performance, surpassing the improvements induced by sample size increase alone. For comparison, supervised machine learning models were trained using the embeddings from the multilingual-E5-large-instruct model. The study results showed that fine-tuned SLMs consistently outperformed the embedding-based supervised machine learning models, particularly for the more fine-grained skill alignment. To better understand model misclassifications, multiple semantic similarity analysis including pairwise cosine similarity, Kullback-Leibler divergence of embedding distributions, and two-dimension projections of item embeddings were conducted. These analyses consistently showed that certain skills in SAT and PSAT were semantically too close, providing evidence for the observed misclassification.
- Abstract(参考訳): テスト項目をコンテンツ標準にアライメントすることは、コンテンツに基づいた検証証拠を収集するテスト開発における重要なステップである。
アイテムアライメントは通常、人間の専門家によって行われてきた。
この判断過程は主観的で時間を要する。
本研究は,大学入試における大規模標準化読解・書記テストのデータを用いて,自動項目アライメントのための微調整小言語モデル(SLM)の性能について検討した。
異なるSLMは、それぞれ4つのコンテンツドメインにマッピングされた10のスキルで、ドメインレベルとスキルレベルのアライメントをトレーニングした。
モデル性能を2つのテストデータセットで複数の基準で評価した。
学習用入力データの種類とサイズが与える影響について検討した。
その結果、より多くの項目のテキストデータを含むと、モデルの性能が大幅に向上し、サンプルサイズによる改善が単独で増加することがわかった。
比較のために、教師付き機械学習モデルを多言語-E5-大規模インストラクトモデルからの埋め込みを用いて訓練した。
研究結果は、細調整されたSLMが埋め込みベースの教師あり機械学習モデル、特によりきめ細かいスキルアライメントよりも一貫して優れていたことを示している。
モデル誤分類をよりよく理解するために, ペアワイズコサイン類似性, 埋め込み分布のKulback-Leibler分散, アイテム埋め込みの2次元投影を含む複数の意味的類似性解析を行った。
これらの分析は、SATとPSATの特定のスキルがセマンティックに近すぎることを一貫して示し、観察された誤分類の証拠となった。
関連論文リスト
- Improving Applicability of Deep Learning based Token Classification models during Training [0.0]
F1-Scoreで表される分類基準は、実際に機械学習モデルの適用性を評価するには不十分であることを示す。
本稿では,視覚的文書理解とトークン分類タスクのソリューションとして,文書統合精度(Document Integrity Precision, DIP)を導入した。
論文 参考訳(メタデータ) (2025-03-28T17:01:19Z) - Improving General Text Embedding Model: Tackling Task Conflict and Data Imbalance through Model Merging [33.23758947497205]
高度な埋め込みモデルは、通常、大規模マルチタスクデータと複数のタスクをまたいだ共同トレーニングを用いて開発される。
これらの課題を克服するために、独立に訓練されたモデルを組み合わせて勾配の衝突を緩和し、データ分散のバランスをとるモデルマージングについて検討する。
本稿では,勾配降下を用いたタスクベクトル空間内の最適モデル組合せを効率的に探索する新たな手法であるSelf Positioningを提案する。
論文 参考訳(メタデータ) (2024-10-19T08:39:21Z) - LLM-based feature generation from text for interpretable machine learning [0.0]
埋め込みやback-of-wordsのような既存のテキスト表現は、その高次元性や欠落、あるいは疑わしい特徴レベルの解釈性のため、ルール学習には適さない。
本稿では,テキストから少数の解釈可能な特徴を抽出することにより,大規模言語モデル(LLM)がこの問題に対処できるかどうかを考察する。
論文 参考訳(メタデータ) (2024-09-11T09:29:28Z) - Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。
トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。
広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文 参考訳(メタデータ) (2024-06-07T11:37:45Z) - Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。
主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。
3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文 参考訳(メタデータ) (2024-04-04T15:36:53Z) - Influence Scores at Scale for Efficient Language Data Sampling [3.072340427031969]
影響スコア」は、データの重要なサブセットを特定するために使われる。
本稿では,言語分類タスクにおける影響スコアの適用性について検討する。
論文 参考訳(メタデータ) (2023-11-27T20:19:22Z) - The Languini Kitchen: Enabling Language Modelling Research at Different
Scales of Compute [66.84421705029624]
本稿では,アクセル時間で測定された等価計算に基づくモデル比較を可能にする実験的プロトコルを提案する。
私たちは、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さで上回る、大規模で多様で高品質な書籍データセットを前処理します。
この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
論文 参考訳(メタデータ) (2023-09-20T10:31:17Z) - Extensive Evaluation of Transformer-based Architectures for Adverse Drug
Events Extraction [6.78974856327994]
逆イベント(ADE)抽出は、デジタル製薬における中核的なタスクの1つである。
我々は、非公式テキストを用いたADE抽出のための19のトランスフォーマーモデルを評価する。
分析の最後には、実験データから導出可能なテイクホームメッセージのリストを同定する。
論文 参考訳(メタデータ) (2023-06-08T15:25:24Z) - AES Systems Are Both Overstable And Oversensitive: Explaining Why And
Proposing Defenses [66.49753193098356]
スコアリングモデルの驚くべき逆方向の脆さの原因について検討する。
のモデルとして訓練されているにもかかわらず、単語の袋のように振る舞うことを示唆している。
高い精度で試料を発生させる過敏性と過敏性を検出できる検出ベース保護モデルを提案する。
論文 参考訳(メタデータ) (2021-09-24T03:49:38Z) - Few-Shot Named Entity Recognition: A Comprehensive Study [92.40991050806544]
マルチショット設定のモデル一般化能力を向上させるための3つの手法を検討する。
ラベル付きデータの比率の異なる10の公開nerデータセットについて経験的比較を行う。
マルチショットとトレーニングフリーの両方の設定で最新の結果を作成します。
論文 参考訳(メタデータ) (2020-12-29T23:43:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。