Fugu-MT 論文翻訳(概要): FABRIC: Automated Scoring and Feedback Generation for Essays

論文の概要: FABRIC: Automated Scoring and Feedback Generation for Essays

arxiv url: http://arxiv.org/abs/2310.05191v1
Date: Sun, 8 Oct 2023 15:00:04 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-12 11:33:05.257870
Title: FABRIC: Automated Scoring and Feedback Generation for Essays
Title（参考訳）: FABRIC:エッセイのための自動スコーリングとフィードバック生成
Authors: Jieun Han, Haneul Yoo, Junho Myung, Minsun Kim, Hyunseung Lim, Yoonsu Kim, Tak Yeon Lee, Hwajung Hong, Juho Kim, So-Yeon Ahn, Alice Oh
Abstract要約: FABRICは,1)全体スコア,2)特定のルーリックスコア,3)エッセイの改善方法に関する詳細なフィードバックを自動生成することで,英語の授業における学生やインストラクターを支援するパイプラインである。我々は,新しいDREsSと拡張戦略CASEの有効性を定量的に評価し,既存のデータセットでトレーニングしたモデルよりも大幅に改善されたことを示す。
参考スコア（独自算出の注目度）: 41.979996110725324
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Automated essay scoring (AES) provides a useful tool for students and instructors in writing classes by generating essay scores in real-time. However, previous AES models do not provide more specific rubric-based scores nor feedback on how to improve the essays, which can be even more important than the overall scores for learning. We present FABRIC, a pipeline to help students and instructors in English writing classes by automatically generating 1) the overall scores, 2) specific rubric-based scores, and 3) detailed feedback on how to improve the essays. Under the guidance of English education experts, we chose the rubrics for the specific scores as content, organization, and language. The first component of the FABRIC pipeline is DREsS, a real-world Dataset for Rubric-based Essay Scoring (DREsS). The second component is CASE, a Corruption-based Augmentation Strategy for Essays, with which we can improve the accuracy of the baseline model by 45.44%. The third component is EssayCoT, the Essay Chain-of-Thought prompting strategy which uses scores predicted from the AES model to generate better feedback. We evaluate the effectiveness of the new dataset DREsS and the augmentation strategy CASE quantitatively and show significant improvements over the models trained with existing datasets. We evaluate the feedback generated by EssayCoT with English education experts to show significant improvements in the helpfulness of the feedback across all rubrics. Lastly, we evaluate the FABRIC pipeline with students in a college English writing class who rated the generated scores and feedback with an average of 6 on the Likert scale from 1 to 7.
Abstract（参考訳）: 自動エッセイスコア(AES)は,エッセイスコアをリアルタイムで生成することにより,授業の執筆において学生やインストラクターに有用なツールを提供する。しかし、以前のaesモデルは、より具体的なルーブリックに基づくスコアや、エッセイを改善するためのフィードバックを提供していない。 FABRICは、英語の授業で生徒やインストラクターが自動生成するのを助けるパイプラインである。 1) 総合得点。 2 特定のルーリックに基づくスコア及び 3)エッセイの改善方法についての詳細なフィードバック。英語教育の専門家の指導のもと、私たちは内容、組織、言語として特定のスコアのルーブリックを選択しました。 FABRICパイプラインの最初のコンポーネントは、Real-world Dataset for RubricベースのEssay Scoring (DREsS)である。第2の要素は、エッセイの腐敗に基づく拡張戦略であるcaseであり、ベースラインモデルの精度を45.44%向上させることができる。第3のコンポーネントであるEssayCoTは、AESモデルから予測されたスコアを使用して、より良いフィードバックを生成するEssay Chain-of-Thoughtプロンプト戦略である。我々は,新しいデータセットドレスの有効性と拡張戦略ケースを定量的に評価し,既存のデータセットでトレーニングしたモデルに対して有意な改善を示す。本研究では,EssayCoTが英語教育の専門家と行ったフィードバックを評価し,すべてのルーリックにまたがるフィードバックの有用性を大幅に改善したことを示す。最後に, FABRICパイプラインを, 大学英語授業の学生を対象に評価し, 平均6点のスコアとフィードバックを1対7の尺度で評価した。

関連論文リスト

Alignment Drift in CEFR-prompted LLMs for Interactive Spanish Tutoring [0.0]
本稿では,第二言語学習における適応型チューターとしてのLarge Language Models(LLMs)の可能性について検討する。スペイン語の教師と学生の対話を,7Bから12Bまでの大きさの命令調整型オープンソースのLLMを用いてシミュレートした。次に、チューターモデルからの出力を用いて、3つの習熟度レベルにわたるテキストの難易度を制御するCEFRベースのプロンプトの有効性を評価する。
論文参考訳（メタデータ） (2025-05-13T08:50:57Z)
Enhanced Bloom's Educational Taxonomy for Fostering Information Literacy in the Era of Large Language Models [16.31527042425208]
本稿では,大規模言語モデル(LLM)を用いた学生の情報リテラシー(IL)の認識と評価を目的としたLLMによるブルーム教育分類法を提案する。このフレームワークは、LLMを使用するために必要な認知能力に対応するILを、Exploration & ActionとCreation & Metacognitionの2つの異なるステージに分類する。
論文参考訳（メタデータ） (2025-03-25T08:23:49Z)
Position: LLMs Can be Good Tutors in Foreign Language Education [87.88557755407815]
我々は、外国語教育(FLE)において、大きな言語モデル(LLM)が効果的な家庭教師として機能する可能性を主張する。具体的には、(1)データエンハンサーとして、(2)学習教材の作成や学生シミュレーションとして、(2)タスク予測器として、学習者の評価や学習経路の最適化に、(3)エージェントとして、そして、パーソナライズされた包括的教育を可能にする3つの重要な役割を果たせる。
論文参考訳（メタデータ） (2025-02-08T06:48:49Z)
Embracing AI in Education: Understanding the Surge in Large Language Model Use by Secondary Students [53.20318273452059]
OpenAIのChatGPTのような大規模言語モデル(LLM)は、新しい教育の道を開いた。学校制限にもかかわらず,中高生300人以上を対象に調査を行ったところ,学生の70%がLDMを利用していることがわかった。我々は、対象特化モデル、パーソナライズドラーニング、AI教室など、このような問題に対処するいくつかのアイデアを提案する。
論文参考訳（メタデータ） (2024-11-27T19:19:34Z)
LLM-Driven Learning Analytics Dashboard for Teachers in EFL Writing Education [37.904037443211905]
ダッシュボードは、リアルタイムフィードバックのためにChatGPTを統合するエッセイ作成システムによる学生のインタラクションの分析を容易にする。本研究は,NLPとHuman-Computer Interaction (HCI)の知見を組み合わせることで,教師ダッシュボードの有効性を高める方法を示す。
論文参考訳（メタデータ） (2024-10-19T07:46:11Z)
Exploring Knowledge Tracing in Tutor-Student Dialogues [53.52699766206808]
本稿では,教師と学生の対話における知識追跡(KT)の最初の試みについて述べる。そこで本研究では,対話の各ターンに係わる知識コンポーネントやスキルを同定する手法を提案する。次に,得られたラベル付きデータに様々なKT手法を適用し,対話全体を通して学生の知識レベルを追跡する。
論文参考訳（メタデータ） (2024-09-24T22:31:39Z)
Large Language Model as an Assignment Evaluator: Insights, Feedback, and Challenges in a 1000+ Student Course [49.296957552006226]
大規模言語モデル(LLM)を自動評価に用いることは,NLP研究において重要な評価手法となっている。本報告では,1028人の大学生を対象に,GPT-4を自動課題評価装置として利用する方法について述べる。
論文参考訳（メタデータ） (2024-07-07T00:17:24Z)
I don't trust you (anymore)! -- The effect of students' LLM use on Lecturer-Student-Trust in Higher Education [0.0]
Open AIのChatGPTのようなプラットフォームにおける大規模言語モデル(LLM)は、大学生の間で急速に採用されている。学生によるLLMの使用は、情報と手続きの正義にどのように影響し、チーム信頼と期待されるチームパフォーマンスに影響を与えるか? 本研究は,LLM使用の公平さよりも,学生利用の透明性に重点を置いていることを示唆する。
論文参考訳（メタデータ） (2024-06-21T05:35:57Z)
The Life Cycle of Large Language Models: A Review of Biases in Education [3.8757867335422485]
大規模言語モデル(LLM)は、学生や教師にパーソナライズされたサポートを提供するために、教育の文脈でますます採用されている。教育技術におけるLLMの統合は、教育的不平等を悪化させる可能性のあるアルゴリズムバイアスに対して、新たな懸念を抱いている。本論は,LLMアプリケーションにおける偏見の複雑な性質を明らかにすることを目的として,その評価のための実践的ガイダンスを提供する。
論文参考訳（メタデータ） (2024-06-03T18:00:28Z)
Toward Self-Improvement of LLMs via Imagination, Searching, and Criticizing [56.75702900542643]
大規模言語モデルの自己改善のためのAlphaLLMを紹介する。モンテカルロ木探索(MCTS)とLLMを統合し、自己改善ループを確立する。実験の結果,AlphaLLM は付加アノテーションを使わずに LLM の性能を大幅に向上することがわかった。
論文参考訳（メタデータ） (2024-04-18T15:21:34Z)
Student Perspectives on Using a Large Language Model (LLM) for an Assignment on Professional Ethics [0.0]
LLM(Large Language Models)の出現は、カリキュラム、評価、学生の能力にどのような影響を与えるかについて、教育者の間で真剣な議論を始めた。本報告では,コンピュータ・マスターの学生がキャリアに必要とする倫理に関する課題を含む,専門的能力のコース内での課題について述べる。
論文参考訳（メタデータ） (2024-04-09T09:03:47Z)
When LLMs Meet Cunning Texts: A Fallacy Understanding Benchmark for Large Language Models [59.84769254832941]
本稿では,人間が理解し易いが,理解し難い文を含むFaLlacy Understanding Benchmark (FLUB)を提案する。具体的には、FLUBが焦点を絞ったcunningテキストは、主に、実際のインターネット環境から収集されたトリッキーでユーモラスで誤解を招くテキストで構成されている。 FLUBに基づいて,複数の代表および先進LLMの性能について検討する。
論文参考訳（メタデータ） (2024-02-16T22:12:53Z)
A Survey on Evaluation of Large Language Models [87.60417393701331]
大規模言語モデル(LLM)は、学術と産業の両方で人気が高まっている。本稿では,評価方法,評価方法,評価方法の3つの重要な側面に焦点をあてる。
論文参考訳（メタデータ） (2023-07-06T16:28:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。