論文の概要: DREsS: Dataset for Rubric-based Essay Scoring on EFL Writing
- arxiv url: http://arxiv.org/abs/2402.16733v2
- Date: Mon, 04 Nov 2024 06:54:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-05 14:44:56.747196
- Title: DREsS: Dataset for Rubric-based Essay Scoring on EFL Writing
- Title(参考訳): DREsS:EFLライティングに基づくルーブリックベースエッセイスコーリング用データセット
- Authors: Haneul Yoo, Jieun Han, So-Yeon Ahn, Alice Oh,
- Abstract要約: DREsSは、ルーリックベースの自動エッセイ評価のための大規模で標準的なデータセットである。
DREsS_Newは、学生が執筆し、英語教育の専門家が採点した2.3Kのエッセイを持つ、実際の教室データセットである。
筆者らは, DREsS_CASEの40.1Kの合成サンプルを生成し, 基準値を45.44%改善するエッセイの汚職ベースの強化戦略であるCASEを提案する。
- 参考スコア(独自算出の注目度): 15.350262522006586
- License:
- Abstract: Automated essay scoring (AES) is a useful tool in English as a Foreign Language (EFL) writing education, offering real-time essay scores for students and instructors. However, previous AES models were trained on essays and scores irrelevant to the practical scenarios of EFL writing education and usually provided a single holistic score due to the lack of appropriate datasets. In this paper, we release DREsS, a large-scale, standard dataset for rubric-based automated essay scoring. DREsS comprises three sub-datasets: DREsS_New, DREsS_Std., and DREsS_CASE. We collect DREsS_New, a real-classroom dataset with 2.3K essays authored by EFL undergraduate students and scored by English education experts. We also standardize existing rubric-based essay scoring datasets as DREsS_Std. We suggest CASE, a corruption-based augmentation strategy for essays, which generates 40.1K synthetic samples of DREsS_CASE and improves the baseline results by 45.44%. DREsS will enable further research to provide a more accurate and practical AES system for EFL writing education.
- Abstract(参考訳): 自動エッセイスコア(英: Automated essay score, AES)は、英語における外国語(英: EFL)の文章作成に有用なツールであり、学生やインストラクターにリアルタイムエッセイスコアを提供する。
しかしながら、以前のAESモデルは、EFLの実践的なシナリオとは無関係にエッセイやスコアに基づいて訓練され、通常、適切なデータセットがないため、単一の総合的なスコアを提供した。
本稿では,ブルリック自動エッセイ評価のための大規模標準データセットであるDREsSをリリースする。
DREsSは、DREsS_New、DREsS_Stdの3つのサブデータセットからなる。
DREsS_CASE。
DREsS_Newは、EFLの大学生が作成し、英語教育の専門家が採点した2.3Kのエッセイを含む、実際のクラスルームデータセットである。
また、既存のルーリックベースのエッセイ評価データセットをDREsS_Stdとして標準化する。
筆者らは, DREsS_CASEの40.1Kの合成サンプルを生成し, 基準値を45.44%改善するエッセイの汚職ベースの強化戦略であるCASEを提案する。
DREsSは、EFL書記教育のためのより正確で実用的なAESシステムを提供するためのさらなる研究を可能にする。
関連論文リスト
- VTechAGP: An Academic-to-General-Audience Text Paraphrase Dataset and Benchmark Models [5.713983191152314]
VTechAGPは、最初の学術から一般のテキストパラフレーズデータセットである。
また,新しい動的ソフトプロンプト生成言語モデルDSPT5を提案する。
トレーニングでは、動的プロンプトでキーワードを学習するために、コントラッシブ・ジェネレーション・ロス関数を利用する。
論文 参考訳(メタデータ) (2024-11-07T16:06:00Z) - Are Large Language Models Good Classifiers? A Study on Edit Intent Classification in Scientific Document Revisions [62.12545440385489]
大規模言語モデル(LLM)は、テキスト生成の大幅な進歩をもたらしたが、分類タスクの強化の可能性はまだ未検討である。
生成と符号化の両方のアプローチを含む分類のための微調整LDMを徹底的に研究するためのフレームワークを提案する。
我々はこのフレームワークを編集意図分類(EIC)においてインスタンス化する。
論文 参考訳(メタデータ) (2024-10-02T20:48:28Z) - AceParse: A Comprehensive Dataset with Diverse Structured Texts for Academic Literature Parsing [82.33075210051129]
AceParseは構造化テキストのパースをサポートするために設計された最初の包括的なデータセットである。
AceParseに基づいて、さまざまな構造化テキストを正確に解析するマルチモーダルモデルAceを微調整した。
このモデルは、F1スコアで4.1%、ジャカルド類似度で5%、以前の最先端技術よりも優れていた。
論文 参考訳(メタデータ) (2024-09-16T06:06:34Z) - "I understand why I got this grade": Automatic Short Answer Grading with Feedback [36.74896284581596]
本稿では,5.8kの学生回答と参照回答と自動短解答(ASAG)タスクに対する質問のデータセットを提案する。
EngSAFデータセットは、複数のエンジニアリングドメインのさまざまな主題、質問、回答パターンをカバーするために、慎重にキュレートされている。
論文 参考訳(メタデータ) (2024-06-30T15:42:18Z) - Automatic Essay Multi-dimensional Scoring with Fine-tuning and Multiple Regression [27.152245569974678]
我々は、複数の次元にまたがる英語エッセイを自動的にスコアする2つのモデルを開発する。
本システムでは, 精度, F1スコア, 四重重みカッパの3つの基準を用いて, 評価性能を高く評価する。
論文 参考訳(メタデータ) (2024-06-03T10:59:50Z) - RECIPE4U: Student-ChatGPT Interaction Dataset in EFL Writing Education [15.253081304714101]
本稿では、英語の212人の大学生を対象に、学期間実験から得られたデータセットRECIPE4Uについて紹介する。
研究期間中、ChatGPTと対話してエッセイを改訂する。RECIPE4Uには、会話ログ、学生の意図、学生の自己評価満足度、学生のエッセイ編集履歴など、これらの相互作用の包括的な記録が含まれている。
論文 参考訳(メタデータ) (2024-03-13T05:51:57Z) - Empirical Study of Large Language Models as Automated Essay Scoring
Tools in English Composition__Taking TOEFL Independent Writing Task for
Example [25.220438332156114]
本研究では,大規模言語モデルの顕著な代表者であるChatGPTの機能と制約を評価することを目的とする。
本研究はChatGPTを用いて,小さなサンプルサイズであっても,英語エッセイの自動評価を行う。
論文 参考訳(メタデータ) (2024-01-07T07:13:50Z) - A Benchmark for Text Expansion: Datasets, Metrics, and Baselines [87.47745669317894]
本研究はテキスト拡張(TE)の新たな課題として,平文の適切な位置に細粒度修飾子を挿入することを目的とする。
補完的な4つのアプローチを活用して、1200万の自動生成インスタンスと2Kの人間注釈付き参照を持つデータセットを構築します。
事前訓練されたテキストインフィルモデルの上にパイプラインと共同でLocate&Infillモデルを構築し、Text2Textベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-09-17T07:54:38Z) - ASDOT: Any-Shot Data-to-Text Generation with Pretrained Language Models [82.63962107729994]
Any-Shot Data-to-Text (ASDOT)は、多様な設定に柔軟に適用可能な新しいアプローチである。
データ曖昧化と文の融合という2つのステップから構成される。
実験の結果, ASDOT はベースラインよりも顕著な改善が得られた。
論文 参考訳(メタデータ) (2022-10-09T19:17:43Z) - AES Systems Are Both Overstable And Oversensitive: Explaining Why And
Proposing Defenses [66.49753193098356]
スコアリングモデルの驚くべき逆方向の脆さの原因について検討する。
のモデルとして訓練されているにもかかわらず、単語の袋のように振る舞うことを示唆している。
高い精度で試料を発生させる過敏性と過敏性を検出できる検出ベース保護モデルを提案する。
論文 参考訳(メタデータ) (2021-09-24T03:49:38Z) - Pre-training Language Model Incorporating Domain-specific Heterogeneous Knowledge into A Unified Representation [49.89831914386982]
本研究では, 構造化されていないテキスト, 半構造化されたテキスト, 十分に構造化されたテキストを含む, あらゆる形式のテキストに対して, 統一された事前学習言語モデル (PLM) を提案する。
提案手法は,データの1/4のみを用いて,プレーンテキストの事前学習に優れる。
論文 参考訳(メタデータ) (2021-09-02T16:05:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。