論文の概要: FABRIC: Automated Scoring and Feedback Generation for Essays
- arxiv url: http://arxiv.org/abs/2310.05191v1
- Date: Sun, 8 Oct 2023 15:00:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-12 11:33:05.257870
- Title: FABRIC: Automated Scoring and Feedback Generation for Essays
- Title(参考訳): FABRIC:エッセイのための自動スコーリングとフィードバック生成
- Authors: Jieun Han, Haneul Yoo, Junho Myung, Minsun Kim, Hyunseung Lim, Yoonsu
Kim, Tak Yeon Lee, Hwajung Hong, Juho Kim, So-Yeon Ahn, Alice Oh
- Abstract要約: FABRICは,1)全体スコア,2)特定のルーリックスコア,3)エッセイの改善方法に関する詳細なフィードバックを自動生成することで,英語の授業における学生やインストラクターを支援するパイプラインである。
我々は,新しいDREsSと拡張戦略CASEの有効性を定量的に評価し,既存のデータセットでトレーニングしたモデルよりも大幅に改善されたことを示す。
- 参考スコア(独自算出の注目度): 41.979996110725324
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Automated essay scoring (AES) provides a useful tool for students and
instructors in writing classes by generating essay scores in real-time.
However, previous AES models do not provide more specific rubric-based scores
nor feedback on how to improve the essays, which can be even more important
than the overall scores for learning. We present FABRIC, a pipeline to help
students and instructors in English writing classes by automatically generating
1) the overall scores, 2) specific rubric-based scores, and 3) detailed
feedback on how to improve the essays. Under the guidance of English education
experts, we chose the rubrics for the specific scores as content, organization,
and language. The first component of the FABRIC pipeline is DREsS, a real-world
Dataset for Rubric-based Essay Scoring (DREsS). The second component is CASE, a
Corruption-based Augmentation Strategy for Essays, with which we can improve
the accuracy of the baseline model by 45.44%. The third component is EssayCoT,
the Essay Chain-of-Thought prompting strategy which uses scores predicted from
the AES model to generate better feedback. We evaluate the effectiveness of the
new dataset DREsS and the augmentation strategy CASE quantitatively and show
significant improvements over the models trained with existing datasets. We
evaluate the feedback generated by EssayCoT with English education experts to
show significant improvements in the helpfulness of the feedback across all
rubrics. Lastly, we evaluate the FABRIC pipeline with students in a college
English writing class who rated the generated scores and feedback with an
average of 6 on the Likert scale from 1 to 7.
- Abstract(参考訳): 自動エッセイスコア(AES)は,エッセイスコアをリアルタイムで生成することにより,授業の執筆において学生やインストラクターに有用なツールを提供する。
しかし、以前のaesモデルは、より具体的なルーブリックに基づくスコアや、エッセイを改善するためのフィードバックを提供していない。
FABRICは、英語の授業で生徒やインストラクターが自動生成するのを助けるパイプラインである。
1) 総合得点。
2 特定のルーリックに基づくスコア及び
3)エッセイの改善方法についての詳細なフィードバック。
英語教育の専門家の指導のもと、私たちは内容、組織、言語として特定のスコアのルーブリックを選択しました。
FABRICパイプラインの最初のコンポーネントは、Real-world Dataset for RubricベースのEssay Scoring (DREsS)である。
第2の要素は、エッセイの腐敗に基づく拡張戦略であるcaseであり、ベースラインモデルの精度を45.44%向上させることができる。
第3のコンポーネントであるEssayCoTは、AESモデルから予測されたスコアを使用して、より良いフィードバックを生成するEssay Chain-of-Thoughtプロンプト戦略である。
我々は,新しいデータセットドレスの有効性と拡張戦略ケースを定量的に評価し,既存のデータセットでトレーニングしたモデルに対して有意な改善を示す。
本研究では,EssayCoTが英語教育の専門家と行ったフィードバックを評価し,すべてのルーリックにまたがるフィードバックの有用性を大幅に改善したことを示す。
最後に, FABRICパイプラインを, 大学英語授業の学生を対象に評価し, 平均6点のスコアとフィードバックを1対7の尺度で評価した。
関連論文リスト
- Position: LLMs Can be Good Tutors in Foreign Language Education [87.88557755407815]
我々は、外国語教育(FLE)において、大きな言語モデル(LLM)が効果的な家庭教師として機能する可能性を主張する。
具体的には、(1)データエンハンサーとして、(2)学習教材の作成や学生シミュレーションとして、(2)タスク予測器として、学習者の評価や学習経路の最適化に、(3)エージェントとして、そして、パーソナライズされた包括的教育を可能にする3つの重要な役割を果たせる。
論文 参考訳(メタデータ) (2025-02-08T06:48:49Z) - Embracing AI in Education: Understanding the Surge in Large Language Model Use by Secondary Students [53.20318273452059]
OpenAIのChatGPTのような大規模言語モデル(LLM)は、新しい教育の道を開いた。
学校制限にもかかわらず,中高生300人以上を対象に調査を行ったところ,学生の70%がLDMを利用していることがわかった。
我々は、対象特化モデル、パーソナライズドラーニング、AI教室など、このような問題に対処するいくつかのアイデアを提案する。
論文 参考訳(メタデータ) (2024-11-27T19:19:34Z) - Exploring Knowledge Tracing in Tutor-Student Dialogues using LLMs [49.18567856499736]
本研究では,大規模言語モデル(LLM)が対話学習を支援することができるかどうかを検討する。
我々は,学習者の知識レベルを対話全体にわたって追跡するために,ラベル付きデータに知識追跡(KT)手法を適用した。
我々は,2つの学習対話データセットの実験を行い,従来のKT手法よりも学生の反応の正しさを予測できる新しいLCM-based method LLMKTが優れていることを示す。
論文 参考訳(メタデータ) (2024-09-24T22:31:39Z) - Large Language Model as an Assignment Evaluator: Insights, Feedback, and Challenges in a 1000+ Student Course [49.296957552006226]
大規模言語モデル(LLM)を自動評価に用いることは,NLP研究において重要な評価手法となっている。
本報告では,1028人の大学生を対象に,GPT-4を自動課題評価装置として利用する方法について述べる。
論文 参考訳(メタデータ) (2024-07-07T00:17:24Z) - I don't trust you (anymore)! -- The effect of students' LLM use on Lecturer-Student-Trust in Higher Education [0.0]
Open AIのChatGPTのようなプラットフォームにおける大規模言語モデル(LLM)は、大学生の間で急速に採用されている。
学生によるLLMの使用は、情報と手続きの正義にどのように影響し、チーム信頼と期待されるチームパフォーマンスに影響を与えるか?
本研究は,LLM使用の公平さよりも,学生利用の透明性に重点を置いていることを示唆する。
論文 参考訳(メタデータ) (2024-06-21T05:35:57Z) - Student Perspectives on Using a Large Language Model (LLM) for an Assignment on Professional Ethics [0.0]
LLM(Large Language Models)の出現は、カリキュラム、評価、学生の能力にどのような影響を与えるかについて、教育者の間で真剣な議論を始めた。
本報告では,コンピュータ・マスターの学生がキャリアに必要とする倫理に関する課題を含む,専門的能力のコース内での課題について述べる。
論文 参考訳(メタデータ) (2024-04-09T09:03:47Z) - When LLMs Meet Cunning Texts: A Fallacy Understanding Benchmark for Large Language Models [59.84769254832941]
本稿では,人間が理解し易いが,理解し難い文を含むFaLlacy Understanding Benchmark (FLUB)を提案する。
具体的には、FLUBが焦点を絞ったcunningテキストは、主に、実際のインターネット環境から収集されたトリッキーでユーモラスで誤解を招くテキストで構成されている。
FLUBに基づいて,複数の代表および先進LLMの性能について検討する。
論文 参考訳(メタデータ) (2024-02-16T22:12:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。