論文の概要: Scaling Item-to-Standard Alignment with Large Language Models: Accuracy, Limits, and Solutions
- arxiv url: http://arxiv.org/abs/2511.19749v1
- Date: Mon, 24 Nov 2025 22:12:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-26 17:37:04.185568
- Title: Scaling Item-to-Standard Alignment with Large Language Models: Accuracy, Limits, and Solutions
- Title(参考訳): 大規模言語モデルによる項目間アライメントのスケーリング:正確性、限界、解決策
- Authors: Farzan Karimi-Malekabadi, Pooya Razavi, Sonya Powers,
- Abstract要約: 従来の人間のアライメントレビューは正確だが、遅く、労働集約的である。
本研究では,Large Language Models (LLM) が精度を犠牲にすることなく,このプロセスを加速できるかどうかを検討する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As educational systems evolve, ensuring that assessment items remain aligned with content standards is essential for maintaining fairness and instructional relevance. Traditional human alignment reviews are accurate but slow and labor-intensive, especially across large item banks. This study examines whether Large Language Models (LLMs) can accelerate this process without sacrificing accuracy. Using over 12,000 item-skill pairs in grades K-5, we tested three LLMs (GPT-3.5 Turbo, GPT-4o-mini, and GPT-4o) across three tasks that mirror real-world challenges: identifying misaligned items, selecting the correct skill from the full set of standards, and narrowing candidate lists prior to classification. In Study 1, GPT-4o-mini correctly identified alignment status in approximately 83-94% of cases, including subtle misalignments. In Study 2, performance remained strong in mathematics but was lower for reading, where standards are more semantically overlapping. Study 3 demonstrated that pre-filtering candidate skills substantially improved results, with the correct skill appearing among the top five suggestions more than 95% of the time. These findings suggest that LLMs, particularly when paired with candidate filtering strategies, can significantly reduce the manual burden of item review while preserving alignment accuracy. We recommend the development of hybrid pipelines that combine LLM-based screening with human review in ambiguous cases, offering a scalable solution for ongoing item validation and instructional alignment.
- Abstract(参考訳): 教育制度が発展するにつれて、評価項目がコンテンツ標準に沿うことを保証することは、公正性と教育的関連性を維持するために不可欠である。
従来の人間のアライメントのレビューは正確だが遅く、労働集約的だ。
本研究では,Large Language Models (LLM) が精度を犠牲にすることなく,このプロセスを加速できるかどうかを検討する。
K-5の12,000以上の項目スキルペアを用いて、3つのLCM(GPT-3.5 Turbo, GPT-4o-mini, GPT-4o)を実世界の課題を反映する3つのタスクでテストした。
研究1では, GPT-4o-miniが約83~94%の症例において, 微妙な誤診を含むアライメントの状態を正しく同定した。
研究2では、性能は数学において強く保たれていたが、標準がより意味的に重なり合っているため、読解能力は低かった。
調査3では、事前フィルタリング候補スキルは結果を大幅に改善し、正しいスキルが95%以上の上位5つの提案の中に現れることを示した。
これらの結果から,LSMは,特に候補フィルタリング戦略と組み合わせることで,アライメント精度を維持しつつ,項目レビューの作業負担を大幅に軽減できる可能性が示唆された。
我々は、LCMベースのスクリーニングと人間のレビューをあいまいなケースで組み合わせたハイブリッドパイプラインの開発を推奨し、進行中のアイテム検証と命令アライメントのためのスケーラブルなソリューションを提供する。
関連論文リスト
- ELAIPBench: A Benchmark for Expert-Level Artificial Intelligence Paper Understanding [49.67493845115009]
ELAIPBenchは、大規模言語モデルによるAI研究論文の理解を評価するために、ドメインの専門家によってキュレーションされたベンチマークである。
難易度は3つあり、浅い検索よりも非自明な推論に重点を置いている。
実験の結果、最高の性能のLSMは、人間の性能よりはるかに低い39.95%の精度しか達成できないことがわかった。
論文 参考訳(メタデータ) (2025-10-12T11:11:20Z) - Benchmarking Large Language Models for Personalized Guidance in AI-Enhanced Learning [4.990353320509215]
大規模言語モデル(LLM)は、パーソナライズされた学習のためのインテリジェントアシスタントとしてますます考えられている。
本研究では,現実的な学習環境を模擬した学習課題における3つの最先端LLMの実証的比較を行った。
論文 参考訳(メタデータ) (2025-09-02T14:21:59Z) - GIVE: Structured Reasoning of Large Language Models with Knowledge Graph Inspired Veracity Extrapolation [108.2008975785364]
Graph Inspired Veracity Extrapolation (GIVE)は、パラメトリックメモリと非パラメトリックメモリを融合して、最小の外部入力で正確な推論を改善する新しい推論手法である。
GIVE は LLM エージェントをガイドして,最も関連する専門家データ (observe) を選択し,クエリ固有の発散思考 (reflect) に従事し,その情報を合成して最終的な出力 (speak) を生成する。
論文 参考訳(メタデータ) (2024-10-11T03:05:06Z) - Cutting Through the Clutter: The Potential of LLMs for Efficient Filtration in Systematic Literature Reviews [7.355182982314533]
文献濾過における効率と精度を高めるため,Large Language Models (LLMs) の評価を行った。
オープンソースのツールLLMSurverは、文学的なフィルタリングにLLMを使用するためのビジュアルインターフェースを提供する。
最近のLLMモデルは、フィルタリング時間を数週間から数分に短縮できることを示している。
論文 参考訳(メタデータ) (2024-07-15T12:13:53Z) - SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal [64.9938658716425]
SORRY-Benchは、安全でないユーザ要求を認識し拒否する大規模言語モデル(LLM)能力を評価するためのベンチマークである。
まず、既存の手法では、安全でないトピックの粗い分類を使い、いくつかのきめ細かいトピックを過剰に表現している。
第二に、プロンプトの言語的特徴とフォーマッティングは、様々な言語、方言など、多くの評価において暗黙的にのみ考慮されているように、しばしば見過ごされる。
論文 参考訳(メタデータ) (2024-06-20T17:56:07Z) - Vernacular? I Barely Know Her: Challenges with Style Control and Stereotyping [3.7159438811062966]
大規模言語モデル(LLM)は、教育や学習のアプリケーションでますます使われている。
GPT-3.5, GPT-4, GPT-4o, Llama-3, Mistral-instruct- 7Bの5種類の最先端モデルの評価を行った。
論文 参考訳(メタデータ) (2024-06-18T14:51:30Z) - Large Language Models are Not Yet Human-Level Evaluators for Abstractive
Summarization [66.08074487429477]
抽象的な要約のための自動評価器として,大規模言語モデル(LLM)の安定性と信頼性について検討する。
また、ChatGPTとGPT-4は、一般的に使われている自動測定値よりも優れていますが、人間の代替品として準備ができていません。
論文 参考訳(メタデータ) (2023-05-22T14:58:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。