論文の概要: Concept-based Rubrics Improve LLM Formative Assessment and Data Synthesis
- arxiv url: http://arxiv.org/abs/2504.03877v1
- Date: Fri, 04 Apr 2025 19:02:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-08 14:10:31.915597
- Title: Concept-based Rubrics Improve LLM Formative Assessment and Data Synthesis
- Title(参考訳): 概念に基づく潤滑剤によるLCMの定式化とデータ合成
- Authors: Yuchen Wei, Dennis Pearl, Matthew Beckman, Rebecca J. Passonneau,
- Abstract要約: STEMトピックスにおける形式的評価は、学生の現在の理解を識別し、さらなる学習を促進する方法を目標にすることで、学生の学習を促進することを目的としている。
従来の研究では,現在生成型大規模言語モデル(LLM)のオープンエンド質問に対する応答に対する評価性能が,高品質なラベル付きデータに基づいて訓練された教師付き分類器よりも著しく低いことが示唆された。
我々は,LLMの性能を著しく向上させることで,LLMの棚外評価ツールとしてのギャップを狭めることと,大量のトレーニングデータを必要とする教師付きモデルとのギャップを小さくすることができることを実証した。
- 参考スコア(独自算出の注目度): 3.0748861313823
- License:
- Abstract: Formative assessment in STEM topics aims to promote student learning by identifying students' current understanding, thus targeting how to promote further learning. Previous studies suggest that the assessment performance of current generative large language models (LLMs) on constructed responses to open-ended questions is significantly lower than that of supervised classifiers trained on high-quality labeled data. However, we demonstrate that concept-based rubrics can significantly enhance LLM performance, which narrows the gap between LLMs as off-the shelf assessment tools, and smaller supervised models, which need large amounts of training data. For datasets where concept-based rubrics allow LLMs to achieve strong performance, we show that the concept-based rubrics help the same LLMs generate high quality synthetic data for training lightweight, high-performance supervised models. Our experiments span diverse STEM student response datasets with labels of varying quality, including a new real-world dataset that contains some AI-assisted responses, which introduces additional considerations.
- Abstract(参考訳): STEMトピックスにおける形式的評価は、学生の現在の理解を識別し、さらなる学習を促進する方法を目標にすることで、学生の学習を促進することを目的としている。
従来の研究では,現在生成型大規模言語モデル(LLM)のオープンエンド質問に対する応答に対する評価性能が,高品質なラベル付きデータに基づいて訓練された教師付き分類器よりも著しく低いことが示唆された。
しかし,本論文では,LLMの性能が大幅に向上し,棚外評価ツールとしてのLCMと,大量のトレーニングデータを必要とする教師付きモデルとのギャップが狭まることを示した。
概念ベースルーブリックがLLMの強力な性能を実現するデータセットに対して、概念ベースルーブリックは、軽量で高性能な教師付きモデルトレーニングのための高品質な合成データを生成するのに有効であることを示す。
我々の実験は、様々な品質のラベルを持つ多様なSTEM学生の反応データセットにまたがっており、その中には、AI支援された応答を含む新しい現実世界のデータセットが含まれており、追加の考察も導入されている。
関連論文リスト
- From Selection to Generation: A Survey of LLM-based Active Learning [153.8110509961261]
大きな言語モデル(LLM)は、全く新しいデータインスタンスを生成し、よりコスト効率の良いアノテーションを提供するために使われています。
本調査は,LSMに基づくAL手法の直感的な理解を目指して,研究者や実践者の最新のリソースとして機能することを目的としている。
論文 参考訳(メタデータ) (2025-02-17T12:58:17Z) - Aligning Large Language Models to Follow Instructions and Hallucinate Less via Effective Data Filtering [66.5524727179286]
NOVAは、幻覚を減らすための学習知識とよく一致した高品質なデータを特定するために設計されたフレームワークである。
内部整合性探索(ICP)とセマンティック等価同定(SEI)が含まれており、LLMが命令データとどれだけ親しみやすいかを測定する。
選択したサンプルの品質を確保するため,親しみ以上の特性を考慮した専門家による報酬モデルを導入する。
論文 参考訳(メタデータ) (2025-02-11T08:05:56Z) - IDGen: Item Discrimination Induced Prompt Generation for LLM Evaluation [15.895295957106772]
大規模言語モデル(LLMs)を評価するためのID誘発即時合成フレームワークを提案する。
我々のデータ合成フレームワークは、幅と特異性の両方を優先し、LLMの能力を包括的に評価するプロンプトを生成することができる。
我々は、LSMの評価研究を容易にするために、3000以上の慎重に作成されたプロンプトのデータセットをリリースする。
論文 参考訳(メタデータ) (2024-09-27T16:29:12Z) - Evaluating Linguistic Capabilities of Multimodal LLMs in the Lens of Few-Shot Learning [15.919493497867567]
本研究では,VALSEベンチマークを用いたマルチモーダル大規模言語モデル(MLLM)の性能評価を目的とした。
我々は,モデルサイズや事前学習データセットの異なる最先端MLLMの包括的評価を行った。
論文 参考訳(メタデータ) (2024-07-17T11:26:47Z) - Learning to Plan for Retrieval-Augmented Large Language Models from Knowledge Graphs [59.76268575344119]
知識グラフ(KG)から得られた計画データを用いて,大規模言語モデル(LLM)計画能力を向上するための新しいフレームワークを提案する。
KGデータで微調整されたLLMは、計画能力を向上し、検索を含む複雑なQAタスクを処理するのがより適している。
論文 参考訳(メタデータ) (2024-06-20T13:07:38Z) - Self-training Large Language Models through Knowledge Detection [26.831873737733737]
大規模な言語モデル(LLM)は、ダウンストリームタスク間で印象的なパフォーマンスを達成するために、広範囲のラベル付きデータセットとトレーニング計算を必要とすることが多い。
本稿では,LLMが独自ラベルを自動でキュレートし,未知のデータサンプルを選択的に学習する自己学習パラダイムについて検討する。
経験的評価は、複数の被験者にまたがる世代における幻覚の減少に有意な改善を示した。
論文 参考訳(メタデータ) (2024-06-17T07:25:09Z) - Comprehensive Reassessment of Large-Scale Evaluation Outcomes in LLMs: A Multifaceted Statistical Approach [64.42462708687921]
評価の結果、スケーリング、トレーニングタイプ、アーキテクチャなどの要因がLLMのパフォーマンスに大きな影響を与えていることが明らかになった。
本研究は, これらのLCMの徹底的な再検討に着手し, 現状評価手法における不整合性に着目した。
これには、ANOVA、Tukey HSDテスト、GAMM、クラスタリング技術などが含まれる。
論文 参考訳(メタデータ) (2024-03-22T14:47:35Z) - Towards Modeling Learner Performance with Large Language Models [7.002923425715133]
本稿では,LLMのパターン認識とシーケンスモデリング機能が,知識追跡の領域にまで拡張できるかどうかを検討する。
ゼロショットプロンプト(ゼロショットプロンプト)とモデル微調整(モデル微調整)の2つの手法と,既存のLLM以外の知識追跡手法を比較した。
LLMベースのアプローチは最先端のパフォーマンスを達成しないが、微調整のLLMは素早いベースラインモデルの性能を上回り、標準的なベイズ的知識追跡手法と同等に機能する。
論文 参考訳(メタデータ) (2024-02-29T14:06:34Z) - Reflection-Tuning: Data Recycling Improves LLM Instruction-Tuning [79.32236399694077]
トレーニングセットの低品質データは、通常、チューニングのチューニングに有害である。
我々は「反射チューニング」と呼ばれる新しい手法を提案する。
このアプローチでは、オラクルLSMを使用して、データ内の命令や応答の質を検査し、向上することで、元のトレーニングデータをリサイクルする。
論文 参考訳(メタデータ) (2023-10-18T05:13:47Z) - A Survey on Large Language Models for Recommendation [77.91673633328148]
大規模言語モデル(LLM)は自然言語処理(NLP)の分野で強力なツールとして登場した。
本調査では,これらのモデルを2つの主要なパラダイム(DLLM4Rec)とジェネレーティブLSM4Rec(GLLM4Rec)に分類する。
論文 参考訳(メタデータ) (2023-05-31T13:51:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。