論文の概要: Scaling Item-to-Standard Alignment with Large Language Models: Accuracy, Limits, and Solutions
- arxiv url: http://arxiv.org/abs/2511.19749v1
- Date: Mon, 24 Nov 2025 22:12:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-26 17:37:04.185568
- Title: Scaling Item-to-Standard Alignment with Large Language Models: Accuracy, Limits, and Solutions
- Title(参考訳): 大規模言語モデルによる項目間アライメントのスケーリング:正確性、限界、解決策
- Authors: Farzan Karimi-Malekabadi, Pooya Razavi, Sonya Powers,
- Abstract要約: 従来の人間のアライメントレビューは正確だが、遅く、労働集約的である。
本研究では,Large Language Models (LLM) が精度を犠牲にすることなく,このプロセスを加速できるかどうかを検討する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As educational systems evolve, ensuring that assessment items remain aligned with content standards is essential for maintaining fairness and instructional relevance. Traditional human alignment reviews are accurate but slow and labor-intensive, especially across large item banks. This study examines whether Large Language Models (LLMs) can accelerate this process without sacrificing accuracy. Using over 12,000 item-skill pairs in grades K-5, we tested three LLMs (GPT-3.5 Turbo, GPT-4o-mini, and GPT-4o) across three tasks that mirror real-world challenges: identifying misaligned items, selecting the correct skill from the full set of standards, and narrowing candidate lists prior to classification. In Study 1, GPT-4o-mini correctly identified alignment status in approximately 83-94% of cases, including subtle misalignments. In Study 2, performance remained strong in mathematics but was lower for reading, where standards are more semantically overlapping. Study 3 demonstrated that pre-filtering candidate skills substantially improved results, with the correct skill appearing among the top five suggestions more than 95% of the time. These findings suggest that LLMs, particularly when paired with candidate filtering strategies, can significantly reduce the manual burden of item review while preserving alignment accuracy. We recommend the development of hybrid pipelines that combine LLM-based screening with human review in ambiguous cases, offering a scalable solution for ongoing item validation and instructional alignment.
- Abstract(参考訳): 教育制度が発展するにつれて、評価項目がコンテンツ標準に沿うことを保証することは、公正性と教育的関連性を維持するために不可欠である。
従来の人間のアライメントのレビューは正確だが遅く、労働集約的だ。
本研究では,Large Language Models (LLM) が精度を犠牲にすることなく,このプロセスを加速できるかどうかを検討する。
K-5の12,000以上の項目スキルペアを用いて、3つのLCM(GPT-3.5 Turbo, GPT-4o-mini, GPT-4o)を実世界の課題を反映する3つのタスクでテストした。
研究1では, GPT-4o-miniが約83~94%の症例において, 微妙な誤診を含むアライメントの状態を正しく同定した。
研究2では、性能は数学において強く保たれていたが、標準がより意味的に重なり合っているため、読解能力は低かった。
調査3では、事前フィルタリング候補スキルは結果を大幅に改善し、正しいスキルが95%以上の上位5つの提案の中に現れることを示した。
これらの結果から,LSMは,特に候補フィルタリング戦略と組み合わせることで,アライメント精度を維持しつつ,項目レビューの作業負担を大幅に軽減できる可能性が示唆された。
我々は、LCMベースのスクリーニングと人間のレビューをあいまいなケースで組み合わせたハイブリッドパイプラインの開発を推奨し、進行中のアイテム検証と命令アライメントのためのスケーラブルなソリューションを提供する。
関連論文リスト
- RPC-Bench: A Fine-grained Benchmark for Research Paper Comprehension [65.81339691942757]
RPC-Bench(RPC-Bench)は、高品質なコンピュータサイエンス論文のレビュー・リビューの交換から構築された大規模質問応答ベンチマークである。
我々は、科学研究の流れに沿ったきめ細かい分類を設計し、モデルがなぜ、何、どのように学術的な文脈で質問するかを理解し、答える能力を評価する。
論文 参考訳(メタデータ) (2026-01-14T11:37:00Z) - Mind Reading or Misreading? LLMs on the Big Five Personality Test [1.3649494534428745]
本研究では,2進5因子モデル (BIG5) に基づくテキストから人格自動予測のための大規模言語モデル (LLM) を評価する。
オープンソースモデルは時々 GPT-4 や以前のベンチマークにアプローチするが、ゼロショットバイナリ設定で一貫した信頼性のある予測は得られない。
これらの結果から, 現状のLCMはAPPTにはまだ適していないこと, 迅速な設計, 特性フレーミング, 評価指標の慎重な調整が, 解釈可能な結果に不可欠であることが示唆された。
論文 参考訳(メタデータ) (2025-11-28T11:40:30Z) - RefineBench: Evaluating Refinement Capability of Language Models via Checklists [71.02281792867531]
本研究は,2つの改良モード(ガイドリファインメントと自己リファインメント)を評価する。
ガイド付き改良では、プロプライエタリなLMと大きなオープンウェイトLMの両方が目標フィードバックを利用して、5ターン以内のほぼ完全なレベルへの応答を洗練できる。
これらの結果は、フロンティアLMは誤った反応を自己調整するためにブレークスルーを必要とすることを示唆している。
論文 参考訳(メタデータ) (2025-11-27T07:20:52Z) - ELAIPBench: A Benchmark for Expert-Level Artificial Intelligence Paper Understanding [49.67493845115009]
ELAIPBenchは、大規模言語モデルによるAI研究論文の理解を評価するために、ドメインの専門家によってキュレーションされたベンチマークである。
難易度は3つあり、浅い検索よりも非自明な推論に重点を置いている。
実験の結果、最高の性能のLSMは、人間の性能よりはるかに低い39.95%の精度しか達成できないことがわかった。
論文 参考訳(メタデータ) (2025-10-12T11:11:20Z) - Benchmarking Large Language Models for Personalized Guidance in AI-Enhanced Learning [4.990353320509215]
大規模言語モデル(LLM)は、パーソナライズされた学習のためのインテリジェントアシスタントとしてますます考えられている。
本研究では,現実的な学習環境を模擬した学習課題における3つの最先端LLMの実証的比較を行った。
論文 参考訳(メタデータ) (2025-09-02T14:21:59Z) - GIVE: Structured Reasoning of Large Language Models with Knowledge Graph Inspired Veracity Extrapolation [108.2008975785364]
Graph Inspired Veracity Extrapolation (GIVE)は、パラメトリックメモリと非パラメトリックメモリを融合して、最小の外部入力で正確な推論を改善する新しい推論手法である。
GIVE は LLM エージェントをガイドして,最も関連する専門家データ (observe) を選択し,クエリ固有の発散思考 (reflect) に従事し,その情報を合成して最終的な出力 (speak) を生成する。
論文 参考訳(メタデータ) (2024-10-11T03:05:06Z) - Cutting Through the Clutter: The Potential of LLMs for Efficient Filtration in Systematic Literature Reviews [7.355182982314533]
文献濾過における効率と精度を高めるため,Large Language Models (LLMs) の評価を行った。
オープンソースのツールLLMSurverは、文学的なフィルタリングにLLMを使用するためのビジュアルインターフェースを提供する。
最近のLLMモデルは、フィルタリング時間を数週間から数分に短縮できることを示している。
論文 参考訳(メタデータ) (2024-07-15T12:13:53Z) - SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal [64.9938658716425]
SORRY-Benchは、安全でないユーザ要求を認識し拒否する大規模言語モデル(LLM)能力を評価するためのベンチマークである。
まず、既存の手法では、安全でないトピックの粗い分類を使い、いくつかのきめ細かいトピックを過剰に表現している。
第二に、プロンプトの言語的特徴とフォーマッティングは、様々な言語、方言など、多くの評価において暗黙的にのみ考慮されているように、しばしば見過ごされる。
論文 参考訳(メタデータ) (2024-06-20T17:56:07Z) - Vernacular? I Barely Know Her: Challenges with Style Control and Stereotyping [3.7159438811062966]
大規模言語モデル(LLM)は、教育や学習のアプリケーションでますます使われている。
GPT-3.5, GPT-4, GPT-4o, Llama-3, Mistral-instruct- 7Bの5種類の最先端モデルの評価を行った。
論文 参考訳(メタデータ) (2024-06-18T14:51:30Z) - GroundCocoa: A Benchmark for Evaluating Compositional & Conditional Reasoning in Language Models [14.108788704400643]
GroundCocoa(グラウンドココア)は、これらの推論スキルをフライト予約の現実的な問題に結びつける、語彙的に多様なベンチマークである。
私たちのタスクは、詳細なユーザの好みと、複数の選択形式で提示される利用可能なフライトオプションを整合させることです。
GPT-4 Turboは, 先進的なプロンプト技術にもかかわらず精度が67%を超えなかった。
論文 参考訳(メタデータ) (2024-04-05T17:36:26Z) - Large Language Models are Not Yet Human-Level Evaluators for Abstractive
Summarization [66.08074487429477]
抽象的な要約のための自動評価器として,大規模言語モデル(LLM)の安定性と信頼性について検討する。
また、ChatGPTとGPT-4は、一般的に使われている自動測定値よりも優れていますが、人間の代替品として準備ができていません。
論文 参考訳(メタデータ) (2023-05-22T14:58:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。