論文の概要: Automated Scoring for Reading Comprehension via In-context BERT Tuning
- arxiv url: http://arxiv.org/abs/2205.09864v1
- Date: Thu, 19 May 2022 21:16:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-24 09:55:55.578339
- Title: Automated Scoring for Reading Comprehension via In-context BERT Tuning
- Title(参考訳): In-context BERT チューニングによる読解の自動化
- Authors: Nigel Fernandez, Aritra Ghosh, Naiming Liu, Zichao Wang, Beno\^it
Choffin, Richard Baraniuk, Andrew Lan
- Abstract要約: 本稿では,NAEP(National Assessment of Education Progress)自動採点課題に対する(大賞受賞)ソリューションについて報告する。
In-context BERT fine-tuning は、慎重に設計された入力構造を持つ全ての項目に対して単一のスコアリングモデルを生成する。
この課題から得られたトレーニングデータセットを用いて,地域評価によるアプローチの有効性を示す。
- 参考スコア(独自算出の注目度): 9.135673900486827
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automated scoring of open-ended student responses has the potential to
significantly reduce human grader effort. Recent advances in automated scoring
often leverage textual representations based on pre-trained language models
such as BERT and GPT as input to scoring models. Most existing approaches train
a separate model for each item/question, which is suitable for scenarios such
as essay scoring where items can be quite different from one another. However,
these approaches have two limitations: 1) they fail to leverage item linkage
for scenarios such as reading comprehension where multiple items may share a
reading passage; 2) they are not scalable since storing one model per item
becomes difficult when models have a large number of parameters. In this paper,
we report our (grand prize-winning) solution to the National Assessment of
Education Progress (NAEP) automated scoring challenge for reading
comprehension. Our approach, in-context BERT fine-tuning, produces a single
shared scoring model for all items with a carefully-designed input structure to
provide contextual information on each item. We demonstrate the effectiveness
of our approach via local evaluations using the training dataset provided by
the challenge. We also discuss the biases, common error types, and limitations
of our approach.
- Abstract(参考訳): オープンエンドの学生反応の自動スコアリングは、人間の成績を著しく低下させる可能性がある。
近年の自動スコアリングの進歩は、BERTやGPTといった事前訓練された言語モデルに基づくテキスト表現をスコアリングモデルへの入力として利用することが多い。
既存のアプローチのほとんどは、アイテム/クエスト毎に別々のモデルをトレーニングしています。
しかし、これらのアプローチには2つの制限がある。
1) 複数の項目が読み出し経路を共有する場合の理解などのシナリオにおいて,項目リンクの活用に失敗する。
2) 多数のパラメータを持つモデルでは,アイテム毎にひとつのモデルを保存することが難しくなるため,スケーラブルではない。
本稿では,全国教育進歩評価(naep)による読解のための自動採点課題に対する(大賞獲得)ソリューションについて報告する。
In-context BERT fine-tuningでは、各項目のコンテキスト情報を提供するために、慎重に設計された入力構造を持つ、すべての項目に対して単一のスコアリングモデルを生成する。
この課題から得られたトレーニングデータセットを用いて,地域評価によるアプローチの有効性を示す。
また,バイアス,一般的なエラータイプ,アプローチの制限についても論じた。
関連論文リスト
- Long-Span Question-Answering: Automatic Question Generation and QA-System Ranking via Side-by-Side Evaluation [65.16137964758612]
大規模言語モデルにおける長文文の活用について検討し,本書全体の読解データを作成する。
我々の目的は、長いテキストの詳細な理解を必要とする問題を分析し、理解し、推論するLLMの能力をテストすることである。
論文 参考訳(メタデータ) (2024-05-31T20:15:10Z) - JPAVE: A Generation and Classification-based Model for Joint Product
Attribute Prediction and Value Extraction [59.94977231327573]
JPAVEと呼ばれる値生成/分類と属性予測を備えたマルチタスク学習モデルを提案する。
我々のモデルの2つの変種は、オープンワールドとクローズドワールドのシナリオのために設計されている。
公開データセットにおける実験結果は,強いベースラインと比較して,我々のモデルが優れていることを示す。
論文 参考訳(メタデータ) (2023-11-07T18:36:16Z) - Short Answer Grading Using One-shot Prompting and Text Similarity
Scoring Model [2.14986347364539]
分析スコアと全体スコアの両方を提供する自動短解階調モデルを開発した。
このモデルの精度と2次重み付きカッパは、ASAGデータセットのサブセットである0.67と0.71であった。
論文 参考訳(メタデータ) (2023-05-29T22:05:29Z) - Large Language Models are Diverse Role-Players for Summarization
Evaluation [82.31575622685902]
文書要約の品質は、文法や正しさといった客観的な基準と、情報性、簡潔さ、魅力といった主観的な基準で人間の注釈者によって評価することができる。
BLUE/ROUGEのような自動評価手法のほとんどは、上記の次元を適切に捉えることができないかもしれない。
目的と主観の両面から生成されたテキストと参照テキストを比較し,総合的な評価フレームワークを提供するLLMに基づく新しい評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-27T10:40:59Z) - Arguments to Key Points Mapping with Prompt-based Learning [0.0]
本稿では,パラメータ対キーポイントマッピングタスクに対する2つのアプローチを提案する。
最初のアプローチは、事前訓練された言語モデルを微調整するためのプロンプトエンジニアリングを統合することである。
第二のアプローチは、PLMにおけるプロンプトベースの学習を利用して中間テキストを生成する。
論文 参考訳(メタデータ) (2022-11-28T01:48:29Z) - Distant finetuning with discourse relations for stance classification [55.131676584455306]
そこで本研究では,定位分類のモデルとして,原文から銀ラベルでデータを抽出し,微調整する手法を提案する。
また,様々な段階において微調整に用いるデータのノイズレベルが減少する3段階のトレーニングフレームワークを提案する。
NLPCC 2021共有タスクArgumentative Text Understanding for AI Debaterでは,26の競合チームの中で1位にランクインした。
論文 参考訳(メタデータ) (2022-04-27T04:24:35Z) - AES Systems Are Both Overstable And Oversensitive: Explaining Why And
Proposing Defenses [66.49753193098356]
スコアリングモデルの驚くべき逆方向の脆さの原因について検討する。
のモデルとして訓練されているにもかかわらず、単語の袋のように振る舞うことを示唆している。
高い精度で試料を発生させる過敏性と過敏性を検出できる検出ベース保護モデルを提案する。
論文 参考訳(メタデータ) (2021-09-24T03:49:38Z) - Automatic Validation of Textual Attribute Values in E-commerce Catalog
by Learning with Limited Labeled Data [61.789797281676606]
そこで我々はMetaBridgeと呼ばれる新しいメタ学習潜伏変数アプローチを提案する。
限られたラベル付きデータを持つカテゴリのサブセットから、転送可能な知識を学ぶことができる。
ラベルのないデータで、目に見えないカテゴリの不確実性を捉えることができる。
論文 参考訳(メタデータ) (2020-06-15T21:31:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。