論文の概要: Short Answer Grading Using One-shot Prompting and Text Similarity
Scoring Model
- arxiv url: http://arxiv.org/abs/2305.18638v1
- Date: Mon, 29 May 2023 22:05:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-31 19:07:56.915335
- Title: Short Answer Grading Using One-shot Prompting and Text Similarity
Scoring Model
- Title(参考訳): ワンショットプロンプトとテキスト類似性スコアリングモデルを用いた短解像
- Authors: Su-Youn Yoon
- Abstract要約: 分析スコアと全体スコアの両方を提供する自動短解階調モデルを開発した。
このモデルの精度と2次重み付きカッパは、ASAGデータセットのサブセットである0.67と0.71であった。
- 参考スコア(独自算出の注目度): 2.14986347364539
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this study, we developed an automated short answer grading (ASAG) model
that provided both analytic scores and final holistic scores. Short answer
items typically consist of multiple sub-questions, and providing an analytic
score and the text span relevant to each sub-question can increase the
interpretability of the automated scores. Furthermore, they can be used to
generate actionable feedback for students. Despite these advantages, most
studies have focused on predicting only holistic scores due to the difficulty
in constructing dataset with manual annotations. To address this difficulty, we
used large language model (LLM)-based one-shot prompting and a text similarity
scoring model with domain adaptation using small manually annotated dataset.
The accuracy and quadratic weighted kappa of our model were 0.67 and 0.71 on a
subset of the publicly available ASAG dataset. The model achieved a substantial
improvement over the majority baseline.
- Abstract(参考訳): 本研究では,分析スコアと最終総合スコアの両方を提供する自動短解格付け(ASAG)モデルを開発した。
短い回答項目は通常、複数のサブクエストで構成され、分析スコアと各サブクエストに関連するテキストスパンを提供することで、自動化されたスコアの解釈可能性を高めることができる。
さらに、生徒にアクション可能なフィードバックを生成するために使うことができる。
これらの利点にもかかわらず、ほとんどの研究は手動アノテーションでデータセットを構築するのが難しいため、総合的なスコアのみを予測することに重点を置いている。
この課題に対処するために,大規模な言語モデル(llm)ベースのワンショットプロンプトと,小さな手作業によるアノテーション付きデータセットを用いたドメイン適応によるテキスト類似度スコアリングモデルを用いた。
このモデルの精度と2次重み付きカッパは、ASAGデータセットのサブセットである0.67と0.71であった。
このモデルは多数派ベースラインを大きく改善した。
関連論文リスト
- Explaining Pre-Trained Language Models with Attribution Scores: An
Analysis in Low-Resource Settings [32.03184402316848]
我々は,素早いモデルから抽出した帰属スコアの妥当性と忠実度を分析した。
プロンプトパラダイムを用いることで、低リソース環境下でモデルを微調整するよりも、より妥当な説明が得られます。
論文 参考訳(メタデータ) (2024-03-08T14:14:37Z) - Standardizing the Measurement of Text Diversity: A Tool and a
Comparative Analysis of Scores [30.12630686473324]
圧縮アルゴリズムは,n$-gramのオーバーラップスコアの計算を遅くすることで,測定値に類似した情報を取得する。
スコアの適用性は、生成モデルの解析を超えて拡張される。
論文 参考訳(メタデータ) (2024-03-01T14:23:12Z) - Anchor Points: Benchmarking Models with Much Fewer Examples [88.02417913161356]
6つの人気のある言語分類ベンチマークでは、多数の点の正しいクラスに対するモデル信頼度はモデル間で強く相関している。
Anchor Point Selectionは,データセット全体にわたるモデル動作をキャプチャする,データセットの小さなサブセットを選択する手法である。
平均絶対誤差が低いデータセットの他のすべての点について、クラスごとの予測モデルを推定するために、いくつかのアンカーポイントを使用することができる。
論文 参考訳(メタデータ) (2023-09-14T17:45:51Z) - Preserving Knowledge Invariance: Rethinking Robustness Evaluation of
Open Information Extraction [50.62245481416744]
実世界におけるオープン情報抽出モデルの評価をシミュレートする最初のベンチマークを示す。
我々は、それぞれの例が知識不変のcliqueである大規模なテストベッドを設計し、注釈付けする。
さらにロバスト性計量を解明することにより、その性能が全体の傾きに対して一貫して正確であるならば、モデルはロバストであると判断される。
論文 参考訳(メタデータ) (2023-05-23T12:05:09Z) - Zero-Shot Text Classification via Self-Supervised Tuning [46.9902502503747]
ゼロショットテキスト分類タスクを解決するための自己教師付き学習に基づく新しいパラダイムを提案する。
自己教師付きチューニングという,ラベルのないデータで言語モデルをチューニングする。
我々のモデルは10タスク中7タスクで最先端のベースラインを上回ります。
論文 参考訳(メタデータ) (2023-05-19T05:47:33Z) - Ensemble Transfer Learning for Multilingual Coreference Resolution [60.409789753164944]
非英語で作業する場合に頻繁に発生する問題は、注釈付きトレーニングデータの不足である。
我々は,様々なトランスファー学習技術を組み合わせた,シンプルだが効果的なアンサンブルベースのフレームワークを設計する。
また、ウィキペディアアンカーテキストを利用して、コア参照解決モデルをブートストラップする低コストのTL手法を提案する。
論文 参考訳(メタデータ) (2023-01-22T18:22:55Z) - Active Learning for Abstractive Text Summarization [50.79416783266641]
本稿では,抽象テキスト要約におけるアクティブラーニングのための最初の効果的なクエリ戦略を提案する。
ALアノテーションにおける私たちの戦略は、ROUGEと一貫性スコアの点からモデル性能を向上させるのに役立ちます。
論文 参考訳(メタデータ) (2023-01-09T10:33:14Z) - Text Characterization Toolkit [33.6713815884553]
我々は、新しいモデルやベンチマークを示す際に、より深い結果分析がデファクトスタンダードになるべきだと論じている。
研究者はデータセットの特性とそれらの特性がモデルの振る舞いに与える影響を研究するために利用できるツールを提案する。
論文 参考訳(メタデータ) (2022-10-04T16:54:11Z) - Automatic Construction of Evaluation Suites for Natural Language
Generation Datasets [17.13484629172643]
我々は、制御された摂動を生成し、テキストからスカラー、テキストからテキストへ、あるいはデータからテキストへ設定したサブセットを識別するフレームワークを開発する。
80個のチャレンジセットからなる評価スイートを提案し、現在の世代モデルの限界に光を当てることを可能にした分析の種類を実証する。
論文 参考訳(メタデータ) (2021-06-16T18:20:58Z) - Evaluation Toolkit For Robustness Testing Of Automatic Essay Scoring
Systems [64.4896118325552]
モデル逆算評価スキームと関連するメトリクスを用いて、現状のAESモデルを評価する。
AESモデルは非常に過大評価されていることがわかった。質問の話題に関係のない内容の重い修正(25%まで)でさえ、モデルが生み出すスコアを低下させることはない。
論文 参考訳(メタデータ) (2020-07-14T03:49:43Z) - ReClor: A Reading Comprehension Dataset Requiring Logical Reasoning [85.33459673197149]
標準化された大学院受験試験から抽出した論理的推論(ReClor)を必要とする新たな読解データセットを提案する。
本稿では、偏りのあるデータポイントを識別し、それらをEASY集合と残りをHARD集合に分離することを提案する。
実験結果によると、最先端のモデルでは、データセットに含まれるバイアスをEASYセット上で高精度にキャプチャする能力に優れていた。
しかし、彼らはランダムな推測に近い性能のHARDセットに苦慮しており、現在のモデルの論理的推論能力を本質的に向上させるためには、より多くの研究が必要であることを示している。
論文 参考訳(メタデータ) (2020-02-11T11:54:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。