論文の概要: Matching Exemplar as Next Sentence Prediction (MeNSP): Zero-shot Prompt
Learning for Automatic Scoring in Science Education
- arxiv url: http://arxiv.org/abs/2301.08771v1
- Date: Fri, 20 Jan 2023 19:13:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-24 16:44:25.890486
- Title: Matching Exemplar as Next Sentence Prediction (MeNSP): Zero-shot Prompt
Learning for Automatic Scoring in Science Education
- Title(参考訳): 次世代文予測(MeNSP)としてのマッチング : 理科教育における自動スコーリングのためのゼロショットプロンプト学習
- Authors: Xuansheng Wu, Xinyu He, Tianming Li, Ninghao Liu, Xiaoming Zhai
- Abstract要約: 我々は,学生の反応を自動的に評価するゼロショット手法を,マッチング・エクセプティブ(Matching Exemplars)をNext Sentence Predictionとして開発する。
ランダムに選択された少数のショットは、人間の専門家によるアプローチよりも優れていることが分かりました。
本研究は,MeNSPが,モデル学習のコストを大幅に削減しつつ,学生の回答に対する参照可能な自動スコアを得られることを示唆している。
- 参考スコア(独自算出の注目度): 13.487000551876022
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Developing models to automatically score students' written responses to
science problems is critical for science education. However, collecting and
labeling sufficient student responses for training models is time and
cost-consuming. Recent studies suggest that pre-trained language models (PLMs)
can be adapted to downstream tasks without fine-tuning with prompts. However,
no research has employed such a prompt approach in science education. As
student responses are presented with natural language, aligning the scoring
procedure as the next sentence prediction task using prompts can skip the
costly fine-tuning stage. In this study, we developed a zero-shot approach to
automatically score student responses via Matching Exemplars as Next Sentence
Prediction (MeNSP). This approach employs no training samples. We first apply
MeNSP in scoring three assessment tasks of scientific argumentation and found
machine-human scoring agreements, Cohen's Kappa ranges from 0.30 to 0.57, and
F1 score ranges from 0.54 to 0.81. To improve the performance, we extend our
research to the few-shots setting, either randomly selecting labeled student
responses or manually constructing responses to fine-tune the models. We find
that one task's performance is improved with more samples, Cohen's Kappa from
0.30 to 0.38, and F1 score from 0.54 to 0.59; for the two others, scoring
performance is not improved. We also find that randomly selected few-shots
perform better than the human expert-crafted approach. This study suggests that
MeNSP can yield referable automatic scoring for student responses while
significantly reducing the cost of model training. This method can benefit
low-stakes classroom assessment practices in science education. Future research
should further explore the applicability of the MeNSP in different types of
assessment tasks in science education and improve the model performance.
- Abstract(参考訳): 科学問題に対する学生の回答を自動的に評価するモデルの開発は、科学教育にとって重要である。
しかし、トレーニングモデルに十分な学生反応の収集とラベル付けには時間と費用がかかる。
近年の研究では、事前学習言語モデル(PLM)が、プロンプトを微調整することなく下流タスクに適応できることが示唆されている。
しかし、科学教育においてこのような急進的なアプローチは研究されていない。
学生の反応は自然言語で表されるので、プロンプトを用いた次の文予測タスクとして採点手順を整列することで、コストのかかる微調整段階をスキップすることができる。
本研究では,Matching ExemplarsをNext Sentence Prediction(MeNSP)として,学生の反応を自動的にスコアするゼロショット手法を開発した。
このアプローチはトレーニングサンプルを使用しない。
まず, 科学的議論の3つの評価課題をMeNSPに適用し, 機械・人的評価協定, Cohen's Kappa は 0.30 から 0.57 まで, F1 は 0.54 から 0.81 までについて検討した。
評価を改善するため,我々は,ラベル付き学生応答をランダムに選択するか,モデルを微調整するために手作業で応答を構築するか,など,数ショット設定に研究を展開する。
一方のタスクのパフォーマンスはより多くのサンプルで改善され、コーエンのKappaは0.30から0.38に、F1は0.54から0.59に改善され、他の2つのタスクではスコアのパフォーマンスは改善されない。
また、ランダムに選択した少数のショットは、人間のエキスパートによるアプローチよりも優れていることも分かりました。
本研究は,モデル学習のコストを大幅に削減しながら,学生の反応に対して参照可能な自動得点が得られることを示唆する。
この方法は、理科教育における低学級評価の実践に役立つ。
今後の研究は,理科教育における様々な評価課題におけるmenspの適用可能性をさらに探究し,モデル性能を向上させる必要がある。
関連論文リスト
- The Surprising Effectiveness of Test-Time Training for Abstract Reasoning [64.36534512742736]
モデル推論能力向上のためのメカニズムとして,テストタイムトレーニング(TTT)の有効性を検討する。
TTTはARCタスクのパフォーマンスを大幅に改善し、ベースとなる微調整モデルと比較して最大6倍の精度向上を実現した。
本研究は,ニューラルネットワークモデルにおける抽象的推論改善の道筋として,明示的な記号探索が唯一の道ではないことを示唆している。
論文 参考訳(メタデータ) (2024-11-11T18:59:45Z) - Knowledge Distillation of LLM for Automatic Scoring of Science Education Assessments [4.541309099803903]
本研究では,超微調整大言語モデル(LLM)の知識蒸留(KD)手法を提案する。
リソース制約のあるデバイスにこれらのモデルをデプロイするという課題を特にターゲットとしています。
論文 参考訳(メタデータ) (2023-12-26T01:24:25Z) - Real-Time Visual Feedback to Guide Benchmark Creation: A
Human-and-Metric-in-the-Loop Workflow [22.540665278228975]
NLPのための新しいベンチマーク作成パラダイムであるVAIDAを提案する。
VAIDAは、ベンチマークの慣用性に対処する未調査の顔である、クラウドワーカーを導くことに焦点を当てている。
VAIDAは, クラウドワーカーやアナリストの努力, フラストレーション, 精神的, 時間的要求を減少させる。
論文 参考訳(メタデータ) (2023-02-09T04:43:10Z) - Prompt Consistency for Zero-Shot Task Generalization [118.81196556175797]
本稿では,ラベルのないデータを用いてゼロショット性能を向上させる手法について検討する。
具体的には,複数のプロンプトを使ってひとつのタスクを指定できることを利用して,プロンプトの一貫性を規則化する手法を提案する。
我々のアプローチは、4つのNLPタスクにまたがる11のデータセットのうち9つにおいて、最先端のゼロショット学習者であるT0を精度で最大10.6の絶対点で上回ります。
論文 参考訳(メタデータ) (2022-04-29T19:18:37Z) - Prompt-based Pre-trained Model for Personality and Interpersonal
Reactivity Prediction [19.288384399961867]
本稿では、LingJingチームによる主観性・感性・ソーシャルメディア分析に関するワークショップ(WASSA)2022におけるパーソナリティ予測(PER)と反応性指標予測(IRI)の共有タスクについて述べる。
論文 参考訳(メタデータ) (2022-03-23T15:22:34Z) - Pre-Trained Neural Language Models for Automatic Mobile App User
Feedback Answer Generation [9.105367401167129]
調査によると、モバイルアプリのユーザからのアプリストアへのフィードバックに対する開発者の回答は、アプリのスターレーティングを増加させる可能性がある。
アプリの開発者がユーザの問題に関連する回答を生成するのを助けるために、最近の研究では、回答を自動的に生成するモデルを開発している。
本稿では,事前学習されたニューラルネットワークモデル(PTM)を評価し,モバイルアプリのユーザフィードバックに対する応答を生成する。
論文 参考訳(メタデータ) (2022-02-04T18:26:55Z) - Self-Normalized Importance Sampling for Neural Language Modeling [97.96857871187052]
本研究では, 自己正規化重要度サンプリングを提案し, これまでの研究と比較すると, 本研究で考慮された基準は自己正規化されており, さらに修正を行う必要はない。
提案する自己正規化重要度サンプリングは,研究指向と生産指向の両方の自動音声認識タスクにおいて競合することを示す。
論文 参考訳(メタデータ) (2021-11-11T16:57:53Z) - Calibrate Before Use: Improving Few-Shot Performance of Language Models [68.17016463756474]
GPT-3は、いくつかのトレーニング例を含む自然言語プロンプトを提供すると、多数のタスクを実行できます。
この種の少数ショット学習は不安定である。
プロンプト形式、トレーニング例、およびトレーニング例の順序の選択は、精度をほぼチャンスから最先端のものに変化させる可能性があります。
論文 参考訳(メタデータ) (2021-02-19T00:23:59Z) - How much progress have we made in neural network training? A New
Evaluation Protocol for Benchmarking Optimizers [86.36020260204302]
本稿では、エンドツーエンドの効率とデータ付加訓練の効率を評価するための新しいベンチマークプロトコルを提案する。
評価プロトコルは, ランダム探索よりも, 人間のチューニング行動とよく一致していることを示すために, 人間の実験を行った。
次に,提案したベンチマークフレームワークをコンピュータビジョン,自然言語処理,強化学習,グラフマイニングなどのタスクに適用する。
論文 参考訳(メタデータ) (2020-10-19T21:46:39Z) - Evaluation Toolkit For Robustness Testing Of Automatic Essay Scoring
Systems [64.4896118325552]
モデル逆算評価スキームと関連するメトリクスを用いて、現状のAESモデルを評価する。
AESモデルは非常に過大評価されていることがわかった。質問の話題に関係のない内容の重い修正(25%まで)でさえ、モデルが生み出すスコアを低下させることはない。
論文 参考訳(メタデータ) (2020-07-14T03:49:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。