Fugu-MT 論文翻訳(概要): Short Answer Grading Using One-shot Prompting and Text Similarity Scoring Model

論文の概要: Short Answer Grading Using One-shot Prompting and Text Similarity Scoring Model

arxiv url: http://arxiv.org/abs/2305.18638v1
Date: Mon, 29 May 2023 22:05:29 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-31 19:07:56.915335
Title: Short Answer Grading Using One-shot Prompting and Text Similarity Scoring Model
Title（参考訳）: ワンショットプロンプトとテキスト類似性スコアリングモデルを用いた短解像
Authors: Su-Youn Yoon
Abstract要約: 分析スコアと全体スコアの両方を提供する自動短解階調モデルを開発した。このモデルの精度と2次重み付きカッパは、ASAGデータセットのサブセットである0.67と0.71であった。
参考スコア（独自算出の注目度）: 2.14986347364539
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this study, we developed an automated short answer grading (ASAG) model that provided both analytic scores and final holistic scores. Short answer items typically consist of multiple sub-questions, and providing an analytic score and the text span relevant to each sub-question can increase the interpretability of the automated scores. Furthermore, they can be used to generate actionable feedback for students. Despite these advantages, most studies have focused on predicting only holistic scores due to the difficulty in constructing dataset with manual annotations. To address this difficulty, we used large language model (LLM)-based one-shot prompting and a text similarity scoring model with domain adaptation using small manually annotated dataset. The accuracy and quadratic weighted kappa of our model were 0.67 and 0.71 on a subset of the publicly available ASAG dataset. The model achieved a substantial improvement over the majority baseline.
Abstract（参考訳）: 本研究では,分析スコアと最終総合スコアの両方を提供する自動短解格付け(ASAG)モデルを開発した。短い回答項目は通常、複数のサブクエストで構成され、分析スコアと各サブクエストに関連するテキストスパンを提供することで、自動化されたスコアの解釈可能性を高めることができる。さらに、生徒にアクション可能なフィードバックを生成するために使うことができる。これらの利点にもかかわらず、ほとんどの研究は手動アノテーションでデータセットを構築するのが難しいため、総合的なスコアのみを予測することに重点を置いている。この課題に対処するために,大規模な言語モデル(llm)ベースのワンショットプロンプトと,小さな手作業によるアノテーション付きデータセットを用いたドメイン適応によるテキスト類似度スコアリングモデルを用いた。このモデルの精度と2次重み付きカッパは、ASAGデータセットのサブセットである0.67と0.71であった。このモデルは多数派ベースラインを大きく改善した。

関連論文リスト

Long-Span Question-Answering: Automatic Question Generation and QA-System Ranking via Side-by-Side Evaluation [65.16137964758612]
大規模言語モデルにおける長文文の活用について検討し,本書全体の読解データを作成する。我々の目的は、長いテキストの詳細な理解を必要とする問題を分析し、理解し、推論するLLMの能力をテストすることである。
論文参考訳（メタデータ） (2024-05-31T20:15:10Z)
Explaining Pre-Trained Language Models with Attribution Scores: An Analysis in Low-Resource Settings [32.03184402316848]
我々は,素早いモデルから抽出した帰属スコアの妥当性と忠実度を分析した。プロンプトパラダイムを用いることで、低リソース環境下でモデルを微調整するよりも、より妥当な説明が得られます。
論文参考訳（メタデータ） (2024-03-08T14:14:37Z)
One-Shot Learning as Instruction Data Prospector for Large Language Models [108.81681547472138]
textscNuggetsはワンショット学習を使用して、広範なデータセットから高品質な命令データを選択する。我々は,textscNuggets がキュレートした例の上位1%による命令チューニングが,データセット全体を用いた従来の手法よりも大幅に優れていることを示す。
論文参考訳（メタデータ） (2023-12-16T03:33:12Z)
Anchor Points: Benchmarking Models with Much Fewer Examples [88.02417913161356]
6つの人気のある言語分類ベンチマークでは、多数の点の正しいクラスに対するモデル信頼度はモデル間で強く相関している。 Anchor Point Selectionは,データセット全体にわたるモデル動作をキャプチャする,データセットの小さなサブセットを選択する手法である。平均絶対誤差が低いデータセットの他のすべての点について、クラスごとの予測モデルを推定するために、いくつかのアンカーポイントを使用することができる。
論文参考訳（メタデータ） (2023-09-14T17:45:51Z)
Zero-Shot Text Classification via Self-Supervised Tuning [46.9902502503747]
ゼロショットテキスト分類タスクを解決するための自己教師付き学習に基づく新しいパラダイムを提案する。自己教師付きチューニングという,ラベルのないデータで言語モデルをチューニングする。我々のモデルは10タスク中7タスクで最先端のベースラインを上回ります。
論文参考訳（メタデータ） (2023-05-19T05:47:33Z)
Ensemble Transfer Learning for Multilingual Coreference Resolution [60.409789753164944]
非英語で作業する場合に頻繁に発生する問題は、注釈付きトレーニングデータの不足である。我々は,様々なトランスファー学習技術を組み合わせた,シンプルだが効果的なアンサンブルベースのフレームワークを設計する。また、ウィキペディアアンカーテキストを利用して、コア参照解決モデルをブートストラップする低コストのTL手法を提案する。
論文参考訳（メタデータ） (2023-01-22T18:22:55Z)
Text Characterization Toolkit [33.6713815884553]
我々は、新しいモデルやベンチマークを示す際に、より深い結果分析がデファクトスタンダードになるべきだと論じている。研究者はデータセットの特性とそれらの特性がモデルの振る舞いに与える影響を研究するために利用できるツールを提案する。
論文参考訳（メタデータ） (2022-10-04T16:54:11Z)
Automatic Construction of Evaluation Suites for Natural Language Generation Datasets [17.13484629172643]
我々は、制御された摂動を生成し、テキストからスカラー、テキストからテキストへ、あるいはデータからテキストへ設定したサブセットを識別するフレームワークを開発する。 80個のチャレンジセットからなる評価スイートを提案し、現在の世代モデルの限界に光を当てることを可能にした分析の種類を実証する。
論文参考訳（メタデータ） (2021-06-16T18:20:58Z)
Evaluation Toolkit For Robustness Testing Of Automatic Essay Scoring Systems [64.4896118325552]
モデル逆算評価スキームと関連するメトリクスを用いて、現状のAESモデルを評価する。 AESモデルは非常に過大評価されていることがわかった。質問の話題に関係のない内容の重い修正(25%まで)でさえ、モデルが生み出すスコアを低下させることはない。
論文参考訳（メタデータ） (2020-07-14T03:49:43Z)
ReClor: A Reading Comprehension Dataset Requiring Logical Reasoning [85.33459673197149]
標準化された大学院受験試験から抽出した論理的推論(ReClor)を必要とする新たな読解データセットを提案する。本稿では、偏りのあるデータポイントを識別し、それらをEASY集合と残りをHARD集合に分離することを提案する。実験結果によると、最先端のモデルでは、データセットに含まれるバイアスをEASYセット上で高精度にキャプチャする能力に優れていた。しかし、彼らはランダムな推測に近い性能のHARDセットに苦慮しており、現在のモデルの論理的推論能力を本質的に向上させるためには、より多くの研究が必要であることを示している。
論文参考訳（メタデータ） (2020-02-11T11:54:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。