論文の概要: DREsS: Dataset for Rubric-based Essay Scoring on EFL Writing
- arxiv url: http://arxiv.org/abs/2402.16733v1
- Date: Wed, 21 Feb 2024 09:12:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-03 19:20:38.551524
- Title: DREsS: Dataset for Rubric-based Essay Scoring on EFL Writing
- Title(参考訳): DREsS:EFLライティングに基づくルーブリックベースエッセイスコーリング用データセット
- Authors: Haneul Yoo, Jieun Han, So-Yeon Ahn, Alice Oh
- Abstract要約: DREsSは、ルーリックベースの自動エッセイ評価のための大規模で標準的なデータセットである。
DREsS_New、DREsS_Std.、DREsS_CASEの3つのサブデータセットからなる。
- 参考スコア(独自算出の注目度): 16.76905904995145
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automated essay scoring (AES) is a useful tool in English as a Foreign
Language (EFL) writing education, offering real-time essay scores for students
and instructors. However, previous AES models were trained on essays and scores
irrelevant to the practical scenarios of EFL writing education and usually
provided a single holistic score due to the lack of appropriate datasets. In
this paper, we release DREsS, a large-scale, standard dataset for rubric-based
automated essay scoring. DREsS comprises three sub-datasets: DREsS_New,
DREsS_Std., and DREsS_CASE. We collect DREsS_New, a real-classroom dataset with
1.7K essays authored by EFL undergraduate students and scored by English
education experts. We also standardize existing rubric-based essay scoring
datasets as DREsS_Std. We suggest CASE, a corruption-based augmentation
strategy for essays, which generates 20K synthetic samples of DREsS_CASE and
improves the baseline results by 45.44%. DREsS will enable further research to
provide a more accurate and practical AES system for EFL writing education.
- Abstract(参考訳): 自動エッセイスコアリング(automated essay scoring, aes)は、英語で外国語(efl)を書くための有用なツールであり、学生やインストラクターにリアルタイムエッセイスコアを提供する。
しかしながら、以前のAESモデルは、EFLの実践的なシナリオとは無関係にエッセイやスコアに基づいて訓練され、通常、適切なデータセットがないため、単一の総合的なスコアを提供した。
本稿では,ブルリック自動エッセイ評価のための大規模標準データセットであるDREsSをリリースする。
DREsSは、DREsS_New、DREsS_Stdの3つのサブデータセットからなる。
とdresss_caseだ。
DREsS_Newは、EFLの学生が執筆し、英語教育の専門家が採点した1.7Kのエッセイを含む、実際のクラスルームデータセットである。
また、既存のルーリックベースのエッセイ評価データセットをDREsS_Stdとして標準化する。
我々は,DREsS_CASEの20Kの合成サンプルを生成し,基準値を45.44%改善するエッセイの汚職ベースの強化戦略であるCASEを提案する。
DREsSは、EFL書記教育のためのより正確で実用的なAESシステムを提供するためのさらなる研究を可能にする。
関連論文リスト
- "I understand why I got this grade": Automatic Short Answer Grading with Feedback [36.74896284581596]
本稿では,5.8kの学生回答と参照回答と自動短解答(ASAG)タスクに対する質問のデータセットを提案する。
EngSAFデータセットは、複数のエンジニアリングドメインのさまざまな主題、質問、回答パターンをカバーするために、慎重にキュレートされている。
論文 参考訳(メタデータ) (2024-06-30T15:42:18Z) - Automatic Essay Multi-dimensional Scoring with Fine-tuning and Multiple Regression [27.152245569974678]
我々は、複数の次元にまたがる英語エッセイを自動的にスコアする2つのモデルを開発する。
本システムでは, 精度, F1スコア, 四重重みカッパの3つの基準を用いて, 評価性能を高く評価する。
論文 参考訳(メタデータ) (2024-06-03T10:59:50Z) - RECIPE4U: Student-ChatGPT Interaction Dataset in EFL Writing Education [15.253081304714101]
本稿では、英語の212人の大学生を対象に、学期間実験から得られたデータセットRECIPE4Uについて紹介する。
研究期間中、ChatGPTと対話してエッセイを改訂する。RECIPE4Uには、会話ログ、学生の意図、学生の自己評価満足度、学生のエッセイ編集履歴など、これらの相互作用の包括的な記録が含まれている。
論文 参考訳(メタデータ) (2024-03-13T05:51:57Z) - Empirical Study of Large Language Models as Automated Essay Scoring
Tools in English Composition__Taking TOEFL Independent Writing Task for
Example [25.220438332156114]
本研究では,大規模言語モデルの顕著な代表者であるChatGPTの機能と制約を評価することを目的とする。
本研究はChatGPTを用いて,小さなサンプルサイズであっても,英語エッセイの自動評価を行う。
論文 参考訳(メタデータ) (2024-01-07T07:13:50Z) - Improving Text Embeddings with Large Language Models [59.930513259982725]
合成データと1k以下のトレーニングステップのみを用いて,高品質なテキスト埋め込みを実現するための,新しい簡易な手法を提案する。
我々は、93言語にまたがる数十万のテキスト埋め込みタスクのための多様な合成データを生成するために、プロプライエタリなLLMを活用している。
実験により,ラベル付きデータを使わずに,高度に競争力のあるテキスト埋め込みベンチマークにおいて高い性能が得られることが示された。
論文 参考訳(メタデータ) (2023-12-31T02:13:18Z) - FABRIC: Automated Scoring and Feedback Generation for Essays [41.979996110725324]
FABRICは,1)全体スコア,2)特定のルーリックスコア,3)エッセイの改善方法に関する詳細なフィードバックを自動生成することで,英語の授業における学生やインストラクターを支援するパイプラインである。
我々は,新しいDREsSと拡張戦略CASEの有効性を定量的に評価し,既存のデータセットでトレーニングしたモデルよりも大幅に改善されたことを示す。
論文 参考訳(メタデータ) (2023-10-08T15:00:04Z) - A Benchmark for Text Expansion: Datasets, Metrics, and Baselines [87.47745669317894]
本研究はテキスト拡張(TE)の新たな課題として,平文の適切な位置に細粒度修飾子を挿入することを目的とする。
補完的な4つのアプローチを活用して、1200万の自動生成インスタンスと2Kの人間注釈付き参照を持つデータセットを構築します。
事前訓練されたテキストインフィルモデルの上にパイプラインと共同でLocate&Infillモデルを構築し、Text2Textベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-09-17T07:54:38Z) - AES Systems Are Both Overstable And Oversensitive: Explaining Why And
Proposing Defenses [66.49753193098356]
スコアリングモデルの驚くべき逆方向の脆さの原因について検討する。
のモデルとして訓練されているにもかかわらず、単語の袋のように振る舞うことを示唆している。
高い精度で試料を発生させる過敏性と過敏性を検出できる検出ベース保護モデルを提案する。
論文 参考訳(メタデータ) (2021-09-24T03:49:38Z) - Pre-training Language Model Incorporating Domain-specific Heterogeneous Knowledge into A Unified Representation [49.89831914386982]
本研究では, 構造化されていないテキスト, 半構造化されたテキスト, 十分に構造化されたテキストを含む, あらゆる形式のテキストに対して, 統一された事前学習言語モデル (PLM) を提案する。
提案手法は,データの1/4のみを用いて,プレーンテキストの事前学習に優れる。
論文 参考訳(メタデータ) (2021-09-02T16:05:24Z) - ToTTo: A Controlled Table-To-Text Generation Dataset [61.83159452483026]
ToTToはオープンドメインの英語のテーブル・トゥ・テキストのデータセットで、12万以上のトレーニングサンプルがある。
本稿では、ウィキペディアから既存の候補文を直接修正するデータセット構築プロセスを紹介する。
通常流動的であるが、既存の方法は多くの場合、表がサポートしていないフレーズを幻覚させる。
論文 参考訳(メタデータ) (2020-04-29T17:53:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。