論文の概要: FABRIC: Automated Scoring and Feedback Generation for Essays
- arxiv url: http://arxiv.org/abs/2310.05191v1
- Date: Sun, 8 Oct 2023 15:00:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-12 11:33:05.257870
- Title: FABRIC: Automated Scoring and Feedback Generation for Essays
- Title(参考訳): FABRIC:エッセイのための自動スコーリングとフィードバック生成
- Authors: Jieun Han, Haneul Yoo, Junho Myung, Minsun Kim, Hyunseung Lim, Yoonsu
Kim, Tak Yeon Lee, Hwajung Hong, Juho Kim, So-Yeon Ahn, Alice Oh
- Abstract要約: FABRICは,1)全体スコア,2)特定のルーリックスコア,3)エッセイの改善方法に関する詳細なフィードバックを自動生成することで,英語の授業における学生やインストラクターを支援するパイプラインである。
我々は,新しいDREsSと拡張戦略CASEの有効性を定量的に評価し,既存のデータセットでトレーニングしたモデルよりも大幅に改善されたことを示す。
- 参考スコア(独自算出の注目度): 41.979996110725324
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Automated essay scoring (AES) provides a useful tool for students and
instructors in writing classes by generating essay scores in real-time.
However, previous AES models do not provide more specific rubric-based scores
nor feedback on how to improve the essays, which can be even more important
than the overall scores for learning. We present FABRIC, a pipeline to help
students and instructors in English writing classes by automatically generating
1) the overall scores, 2) specific rubric-based scores, and 3) detailed
feedback on how to improve the essays. Under the guidance of English education
experts, we chose the rubrics for the specific scores as content, organization,
and language. The first component of the FABRIC pipeline is DREsS, a real-world
Dataset for Rubric-based Essay Scoring (DREsS). The second component is CASE, a
Corruption-based Augmentation Strategy for Essays, with which we can improve
the accuracy of the baseline model by 45.44%. The third component is EssayCoT,
the Essay Chain-of-Thought prompting strategy which uses scores predicted from
the AES model to generate better feedback. We evaluate the effectiveness of the
new dataset DREsS and the augmentation strategy CASE quantitatively and show
significant improvements over the models trained with existing datasets. We
evaluate the feedback generated by EssayCoT with English education experts to
show significant improvements in the helpfulness of the feedback across all
rubrics. Lastly, we evaluate the FABRIC pipeline with students in a college
English writing class who rated the generated scores and feedback with an
average of 6 on the Likert scale from 1 to 7.
- Abstract(参考訳): 自動エッセイスコア(AES)は,エッセイスコアをリアルタイムで生成することにより,授業の執筆において学生やインストラクターに有用なツールを提供する。
しかし、以前のaesモデルは、より具体的なルーブリックに基づくスコアや、エッセイを改善するためのフィードバックを提供していない。
FABRICは、英語の授業で生徒やインストラクターが自動生成するのを助けるパイプラインである。
1) 総合得点。
2 特定のルーリックに基づくスコア及び
3)エッセイの改善方法についての詳細なフィードバック。
英語教育の専門家の指導のもと、私たちは内容、組織、言語として特定のスコアのルーブリックを選択しました。
FABRICパイプラインの最初のコンポーネントは、Real-world Dataset for RubricベースのEssay Scoring (DREsS)である。
第2の要素は、エッセイの腐敗に基づく拡張戦略であるcaseであり、ベースラインモデルの精度を45.44%向上させることができる。
第3のコンポーネントであるEssayCoTは、AESモデルから予測されたスコアを使用して、より良いフィードバックを生成するEssay Chain-of-Thoughtプロンプト戦略である。
我々は,新しいデータセットドレスの有効性と拡張戦略ケースを定量的に評価し,既存のデータセットでトレーニングしたモデルに対して有意な改善を示す。
本研究では,EssayCoTが英語教育の専門家と行ったフィードバックを評価し,すべてのルーリックにまたがるフィードバックの有用性を大幅に改善したことを示す。
最後に, FABRICパイプラインを, 大学英語授業の学生を対象に評価し, 平均6点のスコアとフィードバックを1対7の尺度で評価した。
関連論文リスト
- LLM-Driven Learning Analytics Dashboard for Teachers in EFL Writing Education [37.904037443211905]
ダッシュボードは、リアルタイムフィードバックのためにChatGPTを統合するエッセイ作成システムによる学生のインタラクションの分析を容易にする。
本研究は,NLPとHuman-Computer Interaction (HCI)の知見を組み合わせることで,教師ダッシュボードの有効性を高める方法を示す。
論文 参考訳(メタデータ) (2024-10-19T07:46:11Z) - Exploring Knowledge Tracing in Tutor-Student Dialogues [53.52699766206808]
本稿では,教師と学生の対話における知識追跡(KT)の最初の試みについて述べる。
そこで本研究では,対話の各ターンに係わる知識コンポーネントやスキルを同定する手法を提案する。
次に,得られたラベル付きデータに様々なKT手法を適用し,対話全体を通して学生の知識レベルを追跡する。
論文 参考訳(メタデータ) (2024-09-24T22:31:39Z) - Large Language Model as an Assignment Evaluator: Insights, Feedback, and Challenges in a 1000+ Student Course [49.296957552006226]
大規模言語モデル(LLM)を自動評価に用いることは,NLP研究において重要な評価手法となっている。
本報告では,1028人の大学生を対象に,GPT-4を自動課題評価装置として利用する方法について述べる。
論文 参考訳(メタデータ) (2024-07-07T00:17:24Z) - I don't trust you (anymore)! -- The effect of students' LLM use on Lecturer-Student-Trust in Higher Education [0.0]
Open AIのChatGPTのようなプラットフォームにおける大規模言語モデル(LLM)は、大学生の間で急速に採用されている。
学生によるLLMの使用は、情報と手続きの正義にどのように影響し、チーム信頼と期待されるチームパフォーマンスに影響を与えるか?
本研究は,LLM使用の公平さよりも,学生利用の透明性に重点を置いていることを示唆する。
論文 参考訳(メタデータ) (2024-06-21T05:35:57Z) - The Life Cycle of Large Language Models: A Review of Biases in Education [3.8757867335422485]
大規模言語モデル(LLM)は、学生や教師にパーソナライズされたサポートを提供するために、教育の文脈でますます採用されている。
教育技術におけるLLMの統合は、教育的不平等を悪化させる可能性のあるアルゴリズムバイアスに対して、新たな懸念を抱いている。
本論は,LLMアプリケーションにおける偏見の複雑な性質を明らかにすることを目的として,その評価のための実践的ガイダンスを提供する。
論文 参考訳(メタデータ) (2024-06-03T18:00:28Z) - Toward Self-Improvement of LLMs via Imagination, Searching, and Criticizing [56.75702900542643]
大規模言語モデルの自己改善のためのAlphaLLMを紹介する。
モンテカルロ木探索(MCTS)とLLMを統合し、自己改善ループを確立する。
実験の結果,AlphaLLM は付加アノテーションを使わずに LLM の性能を大幅に向上することがわかった。
論文 参考訳(メタデータ) (2024-04-18T15:21:34Z) - Student Perspectives on Using a Large Language Model (LLM) for an Assignment on Professional Ethics [0.0]
LLM(Large Language Models)の出現は、カリキュラム、評価、学生の能力にどのような影響を与えるかについて、教育者の間で真剣な議論を始めた。
本報告では,コンピュータ・マスターの学生がキャリアに必要とする倫理に関する課題を含む,専門的能力のコース内での課題について述べる。
論文 参考訳(メタデータ) (2024-04-09T09:03:47Z) - When LLMs Meet Cunning Texts: A Fallacy Understanding Benchmark for Large Language Models [59.84769254832941]
本稿では,人間が理解し易いが,理解し難い文を含むFaLlacy Understanding Benchmark (FLUB)を提案する。
具体的には、FLUBが焦点を絞ったcunningテキストは、主に、実際のインターネット環境から収集されたトリッキーでユーモラスで誤解を招くテキストで構成されている。
FLUBに基づいて,複数の代表および先進LLMの性能について検討する。
論文 参考訳(メタデータ) (2024-02-16T22:12:53Z) - A Survey on Evaluation of Large Language Models [87.60417393701331]
大規模言語モデル(LLM)は、学術と産業の両方で人気が高まっている。
本稿では,評価方法,評価方法,評価方法の3つの重要な側面に焦点をあてる。
論文 参考訳(メタデータ) (2023-07-06T16:28:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。