論文の概要: FABRIC: Automated Scoring and Feedback Generation for Essays
- arxiv url: http://arxiv.org/abs/2310.05191v1
- Date: Sun, 8 Oct 2023 15:00:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-12 11:33:05.257870
- Title: FABRIC: Automated Scoring and Feedback Generation for Essays
- Title(参考訳): FABRIC:エッセイのための自動スコーリングとフィードバック生成
- Authors: Jieun Han, Haneul Yoo, Junho Myung, Minsun Kim, Hyunseung Lim, Yoonsu
Kim, Tak Yeon Lee, Hwajung Hong, Juho Kim, So-Yeon Ahn, Alice Oh
- Abstract要約: FABRICは,1)全体スコア,2)特定のルーリックスコア,3)エッセイの改善方法に関する詳細なフィードバックを自動生成することで,英語の授業における学生やインストラクターを支援するパイプラインである。
我々は,新しいDREsSと拡張戦略CASEの有効性を定量的に評価し,既存のデータセットでトレーニングしたモデルよりも大幅に改善されたことを示す。
- 参考スコア(独自算出の注目度): 41.979996110725324
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Automated essay scoring (AES) provides a useful tool for students and
instructors in writing classes by generating essay scores in real-time.
However, previous AES models do not provide more specific rubric-based scores
nor feedback on how to improve the essays, which can be even more important
than the overall scores for learning. We present FABRIC, a pipeline to help
students and instructors in English writing classes by automatically generating
1) the overall scores, 2) specific rubric-based scores, and 3) detailed
feedback on how to improve the essays. Under the guidance of English education
experts, we chose the rubrics for the specific scores as content, organization,
and language. The first component of the FABRIC pipeline is DREsS, a real-world
Dataset for Rubric-based Essay Scoring (DREsS). The second component is CASE, a
Corruption-based Augmentation Strategy for Essays, with which we can improve
the accuracy of the baseline model by 45.44%. The third component is EssayCoT,
the Essay Chain-of-Thought prompting strategy which uses scores predicted from
the AES model to generate better feedback. We evaluate the effectiveness of the
new dataset DREsS and the augmentation strategy CASE quantitatively and show
significant improvements over the models trained with existing datasets. We
evaluate the feedback generated by EssayCoT with English education experts to
show significant improvements in the helpfulness of the feedback across all
rubrics. Lastly, we evaluate the FABRIC pipeline with students in a college
English writing class who rated the generated scores and feedback with an
average of 6 on the Likert scale from 1 to 7.
- Abstract(参考訳): 自動エッセイスコア(AES)は,エッセイスコアをリアルタイムで生成することにより,授業の執筆において学生やインストラクターに有用なツールを提供する。
しかし、以前のaesモデルは、より具体的なルーブリックに基づくスコアや、エッセイを改善するためのフィードバックを提供していない。
FABRICは、英語の授業で生徒やインストラクターが自動生成するのを助けるパイプラインである。
1) 総合得点。
2 特定のルーリックに基づくスコア及び
3)エッセイの改善方法についての詳細なフィードバック。
英語教育の専門家の指導のもと、私たちは内容、組織、言語として特定のスコアのルーブリックを選択しました。
FABRICパイプラインの最初のコンポーネントは、Real-world Dataset for RubricベースのEssay Scoring (DREsS)である。
第2の要素は、エッセイの腐敗に基づく拡張戦略であるcaseであり、ベースラインモデルの精度を45.44%向上させることができる。
第3のコンポーネントであるEssayCoTは、AESモデルから予測されたスコアを使用して、より良いフィードバックを生成するEssay Chain-of-Thoughtプロンプト戦略である。
我々は,新しいデータセットドレスの有効性と拡張戦略ケースを定量的に評価し,既存のデータセットでトレーニングしたモデルに対して有意な改善を示す。
本研究では,EssayCoTが英語教育の専門家と行ったフィードバックを評価し,すべてのルーリックにまたがるフィードバックの有用性を大幅に改善したことを示す。
最後に, FABRICパイプラインを, 大学英語授業の学生を対象に評価し, 平均6点のスコアとフィードバックを1対7の尺度で評価した。
関連論文リスト
- Automatic Essay Multi-dimensional Scoring with Fine-tuning and Multiple Regression [27.152245569974678]
我々は、複数の次元にまたがる英語エッセイを自動的にスコアする2つのモデルを開発する。
本システムでは, 精度, F1スコア, 四重重みカッパの3つの基準を用いて, 評価性能を高く評価する。
論文 参考訳(メタデータ) (2024-06-03T10:59:50Z) - Exploring LLM Prompting Strategies for Joint Essay Scoring and Feedback Generation [13.854903594424876]
大規模言語モデル(LLM)は、一貫性と文脈に関連のあるテキストを生成する上で、強力な性能を示している。
本研究は,LLMをベースとしたゼロショットと数発のエッセイフィードバックの促進戦略について検討する。
Chain-of-Thoughtのプロンプトにインスパイアされた私たちは、自動エッセイスコア(AES)が生成したフィードバックの品質にどのような影響を及ぼすか、その程度について調査する。
論文 参考訳(メタデータ) (2024-04-24T12:48:06Z) - DREsS: Dataset for Rubric-based Essay Scoring on EFL Writing [16.76905904995145]
DREsSは、ルーリックベースの自動エッセイ評価のための大規模で標準的なデータセットである。
DREsS_New、DREsS_Std.、DREsS_CASEの3つのサブデータセットからなる。
論文 参考訳(メタデータ) (2024-02-21T09:12:16Z) - CritiqueLLM: Towards an Informative Critique Generation Model for Evaluation of Large Language Model Generation [87.44350003888646]
Eval-Instructは、疑似参照でポイントワイズした批評を取得し、マルチパスプロンプトを通じてこれらの批評を修正できる。
CritiqueLLMは、ChatGPTとすべてのオープンソースベースラインを上回るように実証的に示されています。
論文 参考訳(メタデータ) (2023-11-30T16:52:42Z) - Evaluation of ChatGPT Feedback on ELL Writers' Coherence and Cohesion [0.7028778922533686]
ChatGPTは、学生が宿題を手伝うために利用し、教師が教育実践に積極的に採用している教育に変革をもたらす。
本研究は,英語学習者(ELL)のエッセイの一貫性と凝集性について,ChatGPTが生み出したフィードバックの質を評価した。
論文 参考訳(メタデータ) (2023-10-10T10:25:56Z) - Constructive Large Language Models Alignment with Diverse Feedback [76.9578950893839]
本稿では,大規模言語モデルのアライメント向上のための新しい手法として,コンストラクティブ・ディバース・フィードバック(CDF)を導入する。
我々は,簡単な問題に対する批判的フィードバック,中級問題に対する改善的フィードバック,難題に対する選好的フィードバックを利用する。
このような多様なフィードバックでモデルをトレーニングすることで、トレーニングデータの少ない使用でアライメント性能を向上させることができる。
論文 参考訳(メタデータ) (2023-10-10T09:20:14Z) - Short Answer Grading Using One-shot Prompting and Text Similarity
Scoring Model [2.14986347364539]
分析スコアと全体スコアの両方を提供する自動短解階調モデルを開発した。
このモデルの精度と2次重み付きカッパは、ASAGデータセットのサブセットである0.67と0.71であった。
論文 参考訳(メタデータ) (2023-05-29T22:05:29Z) - EditEval: An Instruction-Based Benchmark for Text Improvements [73.5918084416016]
編集機能の自動評価のためのインストラクションベース、ベンチマーク、評価スイートであるEditEvalを提示する。
InstructGPTとPEERが最良であることを示す事前学習モデルをいくつか評価するが,ほとんどのベースラインは教師付きSOTA以下である。
我々の分析は、タスクの編集によく使われるメトリクスが必ずしも相関しているとは限らないことを示し、最高の性能を持つプロンプトに対する最適化は、必ずしも異なるモデルに対して強い堅牢性を持つとは限らないことを示唆している。
論文 参考訳(メタデータ) (2022-09-27T12:26:05Z) - Hierarchical Bi-Directional Self-Attention Networks for Paper Review
Rating Recommendation [81.55533657694016]
本稿では,階層型双方向自己注意ネットワークフレームワーク(HabNet)を提案する。
具体的には、文エンコーダ(レベル1)、レビュー内エンコーダ(レベル2)、レビュー間エンコーダ(レベル3)の3つのレベルで、論文レビューの階層構造を利用する。
我々は、最終的な受理決定を行う上で有用な予測者を特定することができ、また、数値的なレビュー評価とレビュアーが伝えるテキストの感情の不整合を発見するのに役立てることができる。
論文 参考訳(メタデータ) (2020-11-02T08:07:50Z) - Evaluation Toolkit For Robustness Testing Of Automatic Essay Scoring
Systems [64.4896118325552]
モデル逆算評価スキームと関連するメトリクスを用いて、現状のAESモデルを評価する。
AESモデルは非常に過大評価されていることがわかった。質問の話題に関係のない内容の重い修正(25%まで)でさえ、モデルが生み出すスコアを低下させることはない。
論文 参考訳(メタデータ) (2020-07-14T03:49:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。