論文の概要: Exploring LLM Prompting Strategies for Joint Essay Scoring and Feedback Generation
- arxiv url: http://arxiv.org/abs/2404.15845v1
- Date: Wed, 24 Apr 2024 12:48:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-26 19:10:55.779386
- Title: Exploring LLM Prompting Strategies for Joint Essay Scoring and Feedback Generation
- Title(参考訳): 共同評価とフィードバック生成のためのLDMプロンプティング戦略の探索
- Authors: Maja Stahl, Leon Biermann, Andreas Nehring, Henning Wachsmuth,
- Abstract要約: 大規模言語モデル(LLM)は、一貫性と文脈に関連のあるテキストを生成する上で、強力な性能を示している。
本研究は,LLMをベースとしたゼロショットと数発のエッセイフィードバックの促進戦略について検討する。
Chain-of-Thoughtのプロンプトにインスパイアされた私たちは、自動エッセイスコア(AES)が生成したフィードバックの品質にどのような影響を及ぼすか、その程度について調査する。
- 参考スコア(独自算出の注目度): 13.854903594424876
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Individual feedback can help students improve their essay writing skills. However, the manual effort required to provide such feedback limits individualization in practice. Automatically-generated essay feedback may serve as an alternative to guide students at their own pace, convenience, and desired frequency. Large language models (LLMs) have demonstrated strong performance in generating coherent and contextually relevant text. Yet, their ability to provide helpful essay feedback is unclear. This work explores several prompting strategies for LLM-based zero-shot and few-shot generation of essay feedback. Inspired by Chain-of-Thought prompting, we study how and to what extent automated essay scoring (AES) can benefit the quality of generated feedback. We evaluate both the AES performance that LLMs can achieve with prompting only and the helpfulness of the generated essay feedback. Our results suggest that tackling AES and feedback generation jointly improves AES performance. However, while our manual evaluation emphasizes the quality of the generated essay feedback, the impact of essay scoring on the generated feedback remains low ultimately.
- Abstract(参考訳): 個々のフィードバックは、学生がエッセイを書くスキルを改善するのに役立つ。
しかし、そのようなフィードバックを提供するために必要な手作業は、実際は個人化を制限する。
自動生成エッセイフィードバックは、生徒を自身のペース、利便性、望ましい頻度で指導する代替手段として機能する。
大規模言語モデル(LLM)は、一貫性と文脈に関連のあるテキストを生成する上で、強力な性能を示している。
しかし、役に立つエッセイフィードバックを提供する能力は不明確である。
本研究は,LLMをベースとしたゼロショットと数発のエッセイフィードバックの促進戦略について検討する。
Chain-of-Thoughtのプロンプトにインスパイアされた私たちは、自動エッセイスコア(AES)が生成したフィードバックの品質にどのような影響を及ぼすか、その程度について調査する。
LLMが達成できるAES性能と、生成したエッセイフィードバックの有用性の両方を評価した。
その結果,AESとフィードバック生成を併用することで,AESの性能が向上することが示唆された。
しかし,我々の手作業による評価では,生成したエッセイフィードバックの品質が重視される一方で,生成したフィードバックに対するエッセイスコアリングの影響は依然として低いままである。
関連論文リスト
- Can Language Models Evaluate Human Written Text? Case Study on Korean Student Writing for Education [1.6340559025561785]
大規模言語モデル(LLM)に基づく評価パイプラインは、機械生成テキストを堅牢に評価する能力を示した。
LLMが教育目的のために人文テキストを効果的に評価できるかどうかを検討する。
論文 参考訳(メタデータ) (2024-07-24T06:02:57Z) - LLMs Assist NLP Researchers: Critique Paper (Meta-)Reviewing [106.45895712717612]
大規模言語モデル(LLM)は、様々な生成タスクにおいて顕著な汎用性を示している。
本研究は,NLP研究者を支援するLLMの話題に焦点を当てる。
私たちの知る限りでは、このような包括的な分析を提供するのはこれが初めてです。
論文 参考訳(メタデータ) (2024-06-24T01:30:22Z) - Improving the Validity of Automatically Generated Feedback via
Reinforcement Learning [50.067342343957876]
強化学習(RL)を用いた正当性と整合性の両方を最適化するフィードバック生成フレームワークを提案する。
具体的には、直接選好最適化(DPO)によるトレーニングのための拡張データセットにおいて、GPT-4のアノテーションを使用してフィードバックペアよりも好みを生成する。
論文 参考訳(メタデータ) (2024-03-02T20:25:50Z) - Evaluation of ChatGPT Feedback on ELL Writers' Coherence and Cohesion [0.7028778922533686]
ChatGPTは、学生が宿題を手伝うために利用し、教師が教育実践に積極的に採用している教育に変革をもたらす。
本研究は,英語学習者(ELL)のエッセイの一貫性と凝集性について,ChatGPTが生み出したフィードバックの質を評価した。
論文 参考訳(メタデータ) (2023-10-10T10:25:56Z) - Constructive Large Language Models Alignment with Diverse Feedback [76.9578950893839]
本稿では,大規模言語モデルのアライメント向上のための新しい手法として,コンストラクティブ・ディバース・フィードバック(CDF)を導入する。
我々は,簡単な問題に対する批判的フィードバック,中級問題に対する改善的フィードバック,難題に対する選好的フィードバックを利用する。
このような多様なフィードバックでモデルをトレーニングすることで、トレーニングデータの少ない使用でアライメント性能を向上させることができる。
論文 参考訳(メタデータ) (2023-10-10T09:20:14Z) - FABRIC: Automated Scoring and Feedback Generation for Essays [41.979996110725324]
FABRICは,1)全体スコア,2)特定のルーリックスコア,3)エッセイの改善方法に関する詳細なフィードバックを自動生成することで,英語の授業における学生やインストラクターを支援するパイプラインである。
我々は,新しいDREsSと拡張戦略CASEの有効性を定量的に評価し,既存のデータセットでトレーニングしたモデルよりも大幅に改善されたことを示す。
論文 参考訳(メタデータ) (2023-10-08T15:00:04Z) - Factually Consistent Summarization via Reinforcement Learning with
Textual Entailment Feedback [57.816210168909286]
我々は,この問題を抽象的な要約システムで解くために,テキストエンテーメントモデルの最近の進歩を活用している。
我々は、事実整合性を最適化するために、レファレンスフリーのテキストエンターメント報酬を用いた強化学習を用いる。
自動測定と人的評価の両結果から,提案手法は生成した要約の忠実さ,サリエンス,簡潔さを著しく向上させることが示された。
論文 参考訳(メタデータ) (2023-05-31T21:04:04Z) - Can Large Language Models Be an Alternative to Human Evaluations? [80.81532239566992]
大規模言語モデル(LLM)は、タスク命令のみを提供する場合、目に見えないタスクに対して例外的な性能を示す。
LLM評価の結果は、専門家による評価の結果と一致していることを示す。
論文 参考訳(メタデータ) (2023-05-03T07:28:50Z) - An Exploration of Post-Editing Effectiveness in Text Summarization [58.99765574294715]
AI生成テキストの"ポスト編集"は、人間の作業量を削減し、AI出力の品質を改善する。
編集後提供した要約と,要約品質,人的効率,ユーザエクスペリエンスのマニュアル要約を比較した。
本研究は,テキスト要約にポスト編集がいつ有用かについて,貴重な知見を提示する。
論文 参考訳(メタデータ) (2022-06-13T18:00:02Z) - Annotation and Classification of Evidence and Reasoning Revisions in
Argumentative Writing [0.9449650062296824]
本稿では,エビデンスの使用と推論の文レベルの改訂の性質を捉えるためのアノテーションスキームを提案する。
信頼性のある手書きアノテーションが達成できることを示し,修正アノテーションはエッセイ改善の全体的評価と相関することを示す。
論文 参考訳(メタデータ) (2021-07-14T20:58:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。