論文の概要: Automatic Essay Multi-dimensional Scoring with Fine-tuning and Multiple Regression
- arxiv url: http://arxiv.org/abs/2406.01198v1
- Date: Mon, 3 Jun 2024 10:59:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-06 01:18:57.195970
- Title: Automatic Essay Multi-dimensional Scoring with Fine-tuning and Multiple Regression
- Title(参考訳): 微細調整と多重回帰による多次元スコーリングの自動評価
- Authors: Kun Sun, Rong Wang,
- Abstract要約: 我々は、複数の次元にまたがる英語エッセイを自動的にスコアする2つのモデルを開発する。
本システムでは, 精度, F1スコア, 四重重みカッパの3つの基準を用いて, 評価性能を高く評価する。
- 参考スコア(独自算出の注目度): 27.152245569974678
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Automated essay scoring (AES) involves predicting a score that reflects the writing quality of an essay. Most existing AES systems produce only a single overall score. However, users and L2 learners expect scores across different dimensions (e.g., vocabulary, grammar, coherence) for English essays in real-world applications. To address this need, we have developed two models that automatically score English essays across multiple dimensions by employing fine-tuning and other strategies on two large datasets. The results demonstrate that our systems achieve impressive performance in evaluation using three criteria: precision, F1 score, and Quadratic Weighted Kappa. Furthermore, our system outperforms existing methods in overall scoring.
- Abstract(参考訳): 自動エッセイスコア(英: Automated essay score、AES)とは、エッセイの筆記品質を反映したスコアの予測である。
既存のAESシステムでは、スコアは1点のみである。
しかし、ユーザとL2学習者は、現実世界の応用における英語エッセイに対する様々な次元(語彙、文法、コヒーレンスなど)のスコアを期待している。
このニーズに対処するため、我々は2つの大きなデータセットに微調整と他の戦略を用いることで、複数の次元にわたる英語エッセイを自動的にスコアする2つのモデルを開発した。
その結果, 精度, F1スコア, Quadratic Weighted Kappa の3つの基準を用いて, 評価において優れた性能が得られた。
さらに,システム全体のスコアリングにおいて,既存の手法よりも優れています。
関連論文リスト
- Unleashing Large Language Models' Proficiency in Zero-shot Essay Scoring [12.66710643199155]
Multi Traitsのフレームワークは、大きな言語モデルに十分な可能性を秘めている。
特徴平均化と min-max スケーリングによる総合スコアを導出する。
MTSの助けを借りて、小型のLlama2-13b-chatはChatGPTを大幅に上回る。
論文 参考訳(メタデータ) (2024-04-07T12:25:35Z) - Can Large Language Models Automatically Score Proficiency of Written Essays? [3.993602109661159]
大規模言語モデル(LLMs)は、様々なタスクにおいて異常な能力を示すトランスフォーマーベースのモデルである。
我々は,LLMの強力な言語知識を活かして,エッセイを分析し,効果的に評価する能力をテストする。
論文 参考訳(メタデータ) (2024-03-10T09:39:00Z) - Review of feedback in Automated Essay Scoring [6.445605125467574]
最初の自動エッセイ評価システムは50年前に開発された。
本稿では,異なるフィードバックタイプやエッセイ特性を含むフィードバックについて,自動エッセイ評価について検討する。
論文 参考訳(メタデータ) (2023-07-09T11:04:13Z) - Large Language Models are Diverse Role-Players for Summarization
Evaluation [82.31575622685902]
文書要約の品質は、文法や正しさといった客観的な基準と、情報性、簡潔さ、魅力といった主観的な基準で人間の注釈者によって評価することができる。
BLUE/ROUGEのような自動評価手法のほとんどは、上記の次元を適切に捉えることができないかもしれない。
目的と主観の両面から生成されたテキストと参照テキストを比較し,総合的な評価フレームワークを提供するLLMに基づく新しい評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-27T10:40:59Z) - Towards a Unified Multi-Dimensional Evaluator for Text Generation [101.47008809623202]
自然言語生成のための統一多次元評価器UniEvalを提案する。
我々はNLG評価をブール質問回答(QA)タスクとして再設定し、異なる質問でモデルを導くことで、複数の次元から評価するために1つの評価器を使うことができる。
3つの典型的なNLGタスクの実験では、UniEvalは既存のメトリクスよりも人間の判断と大きく相関している。
論文 参考訳(メタデータ) (2022-10-13T17:17:03Z) - AES Systems Are Both Overstable And Oversensitive: Explaining Why And
Proposing Defenses [66.49753193098356]
スコアリングモデルの驚くべき逆方向の脆さの原因について検討する。
のモデルとして訓練されているにもかかわらず、単語の袋のように振る舞うことを示唆している。
高い精度で試料を発生させる過敏性と過敏性を検出できる検出ベース保護モデルを提案する。
論文 参考訳(メタデータ) (2021-09-24T03:49:38Z) - Many Hands Make Light Work: Using Essay Traits to Automatically Score
Essays [41.851075178681015]
マルチタスク学習(MTL)アプローチを用いて,エッセイを総合的に評価する方法を述べる。
LSTMとBiLSTMの両方を用いて,STL(Single-task Learning)アプローチとの比較を行った。
MTLをベースとしたBiLSTMシステムは,エッセイ特性の評価だけでなく,エッセイ特性の評価にも有効であることがわかった。
論文 参考訳(メタデータ) (2021-02-01T11:31:09Z) - My Teacher Thinks The World Is Flat! Interpreting Automatic Essay
Scoring Mechanism [71.34160809068996]
最近の研究では、自動スコアリングシステムが常識的な敵対的サンプルになりやすいことが示されています。
近年の解釈能力の進歩を活かし,コヒーレンスやコンテント,関連性といった特徴がスコアリングの自動化にどの程度重要であるかを見出す。
また、モデルが意味的に世界知識や常識に基づかないことから、世界のような虚偽の事実を追加することは、それを減らすよりもむしろスコアを増加させる。
論文 参考訳(メタデータ) (2020-12-27T06:19:20Z) - Get It Scored Using AutoSAS -- An Automated System for Scoring Short
Answers [63.835172924290326]
SAS(Automatic Short Answer Scoring)への高速でスケーラブルで正確なアプローチを提示します。
SASのためのシステム、すなわちAutoSASの設計と開発を提案し、説明します。
AutoSASは最先端のパフォーマンスを示し、いくつかの質問のプロンプトで8%以上良い結果が得られる。
論文 参考訳(メタデータ) (2020-12-21T10:47:30Z) - Evaluation Toolkit For Robustness Testing Of Automatic Essay Scoring
Systems [64.4896118325552]
モデル逆算評価スキームと関連するメトリクスを用いて、現状のAESモデルを評価する。
AESモデルは非常に過大評価されていることがわかった。質問の話題に関係のない内容の重い修正(25%まで)でさえ、モデルが生み出すスコアを低下させることはない。
論文 参考訳(メタデータ) (2020-07-14T03:49:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。