論文の概要: Exploring LLM Prompting Strategies for Joint Essay Scoring and Feedback Generation
- arxiv url: http://arxiv.org/abs/2404.15845v1
- Date: Wed, 24 Apr 2024 12:48:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-26 19:10:55.779386
- Title: Exploring LLM Prompting Strategies for Joint Essay Scoring and Feedback Generation
- Title(参考訳): 共同評価とフィードバック生成のためのLDMプロンプティング戦略の探索
- Authors: Maja Stahl, Leon Biermann, Andreas Nehring, Henning Wachsmuth,
- Abstract要約: 大規模言語モデル(LLM)は、一貫性と文脈に関連のあるテキストを生成する上で、強力な性能を示している。
本研究は,LLMをベースとしたゼロショットと数発のエッセイフィードバックの促進戦略について検討する。
Chain-of-Thoughtのプロンプトにインスパイアされた私たちは、自動エッセイスコア(AES)が生成したフィードバックの品質にどのような影響を及ぼすか、その程度について調査する。
- 参考スコア(独自算出の注目度): 13.854903594424876
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Individual feedback can help students improve their essay writing skills. However, the manual effort required to provide such feedback limits individualization in practice. Automatically-generated essay feedback may serve as an alternative to guide students at their own pace, convenience, and desired frequency. Large language models (LLMs) have demonstrated strong performance in generating coherent and contextually relevant text. Yet, their ability to provide helpful essay feedback is unclear. This work explores several prompting strategies for LLM-based zero-shot and few-shot generation of essay feedback. Inspired by Chain-of-Thought prompting, we study how and to what extent automated essay scoring (AES) can benefit the quality of generated feedback. We evaluate both the AES performance that LLMs can achieve with prompting only and the helpfulness of the generated essay feedback. Our results suggest that tackling AES and feedback generation jointly improves AES performance. However, while our manual evaluation emphasizes the quality of the generated essay feedback, the impact of essay scoring on the generated feedback remains low ultimately.
- Abstract(参考訳): 個々のフィードバックは、学生がエッセイを書くスキルを改善するのに役立つ。
しかし、そのようなフィードバックを提供するために必要な手作業は、実際は個人化を制限する。
自動生成エッセイフィードバックは、生徒を自身のペース、利便性、望ましい頻度で指導する代替手段として機能する。
大規模言語モデル(LLM)は、一貫性と文脈に関連のあるテキストを生成する上で、強力な性能を示している。
しかし、役に立つエッセイフィードバックを提供する能力は不明確である。
本研究は,LLMをベースとしたゼロショットと数発のエッセイフィードバックの促進戦略について検討する。
Chain-of-Thoughtのプロンプトにインスパイアされた私たちは、自動エッセイスコア(AES)が生成したフィードバックの品質にどのような影響を及ぼすか、その程度について調査する。
LLMが達成できるAES性能と、生成したエッセイフィードバックの有用性の両方を評価した。
その結果,AESとフィードバック生成を併用することで,AESの性能が向上することが示唆された。
しかし,我々の手作業による評価では,生成したエッセイフィードバックの品質が重視される一方で,生成したフィードバックに対するエッセイスコアリングの影響は依然として低いままである。
関連論文リスト
- SEFL: Harnessing Large Language Model Agents to Improve Educational Feedback Systems [5.191286314473505]
Synthetic Educational Feedback Loops (SEFL)は、大規模に即時かつオンデマンドなフィードバックを提供するように設計された新しいフレームワークである。
2つの大きな言語モデル(LLM)は、課題完了と形式的フィードバックをシミュレートするために教師の役割で機能する。
また,SEFL調整モデルでは,フィードバック品質,明瞭度,タイムラインの非チューニングモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2025-02-18T15:09:29Z) - eRevise+RF: A Writing Evaluation System for Assessing Student Essay Revisions and Providing Formative Feedback [1.5367711550341163]
eRevise+RFは、学生エッセイのリビジョンを評価し、リビジョンフィードバックを提供するための拡張されたAWEシステムである。
ペンシルベニアとルイジアナの3校に6人の教師と406人の学生を配置した。
その結果,(1)エッセイのエッセイのエビデンス評価,(2)エッセイ間のエビデンスと推論のリビジョンの抽出,(3)フィードバックに対するリビジョンの成功判定において有効性が確認された。
論文 参考訳(メタデータ) (2025-01-01T03:49:48Z) - Streamlining the review process: AI-generated annotations in research manuscripts [0.5735035463793009]
本研究では,Large Language Models (LLM) をピアレビュープロセスに統合し,効率を向上する可能性について検討する。
我々は、AIと人間のコラボレーションの潜在的な領域として、写本の注釈、特に抜粋ハイライトに焦点を当てている。
本稿では,GPT-4を利用した原稿レビュープラットフォームAnnotateGPTを紹介する。
論文 参考訳(メタデータ) (2024-11-29T23:26:34Z) - Closing the Loop: Learning to Generate Writing Feedback via Language Model Simulated Student Revisions [6.216542656489173]
本稿では,LM シミュレーションによる学生のリビジョンの学習を通じてフィードバックを生成できる ProF を提案する。
本稿では,PROFの有効性を実証的に検証し,本手法が学生の筆跡改善に有効であることを示す。
論文 参考訳(メタデータ) (2024-10-10T15:52:48Z) - "My Grade is Wrong!": A Contestable AI Framework for Interactive Feedback in Evaluating Student Essays [6.810086342993699]
本稿では,対話型フィードバックを自動生成するContestable AI Empowered LLM FrameworkであるCAELFを紹介する。
CAELFは、マルチエージェントシステムと計算的議論を統合することで、学生がフィードバックをクエリし、挑戦し、明確化することができる。
ユーザスタディを用いた500の批判的思考エッセイのケーススタディでは,CAELFが対話的フィードバックを大幅に改善することが示された。
論文 参考訳(メタデータ) (2024-09-11T17:59:01Z) - Large Language Model as an Assignment Evaluator: Insights, Feedback, and Challenges in a 1000+ Student Course [49.296957552006226]
大規模言語モデル(LLM)を自動評価に用いることは,NLP研究において重要な評価手法となっている。
本報告では,1028人の大学生を対象に,GPT-4を自動課題評価装置として利用する方法について述べる。
論文 参考訳(メタデータ) (2024-07-07T00:17:24Z) - LLMs Assist NLP Researchers: Critique Paper (Meta-)Reviewing [106.45895712717612]
大規模言語モデル(LLM)は、様々な生成タスクにおいて顕著な汎用性を示している。
本研究は,NLP研究者を支援するLLMの話題に焦点を当てる。
私たちの知る限りでは、このような包括的な分析を提供するのはこれが初めてです。
論文 参考訳(メタデータ) (2024-06-24T01:30:22Z) - Improving the Validity of Automatically Generated Feedback via Reinforcement Learning [46.667783153759636]
強化学習(RL)を用いた正当性と整合性の両方を最適化するフィードバック生成フレームワークを提案する。
具体的には、直接選好最適化(DPO)によるトレーニングのための拡張データセットにおいて、GPT-4のアノテーションを使用してフィードバックペアよりも好みを生成する。
論文 参考訳(メタデータ) (2024-03-02T20:25:50Z) - Constructive Large Language Models Alignment with Diverse Feedback [76.9578950893839]
本稿では,大規模言語モデルのアライメント向上のための新しい手法として,コンストラクティブ・ディバース・フィードバック(CDF)を導入する。
我々は,簡単な問題に対する批判的フィードバック,中級問題に対する改善的フィードバック,難題に対する選好的フィードバックを利用する。
このような多様なフィードバックでモデルをトレーニングすることで、トレーニングデータの少ない使用でアライメント性能を向上させることができる。
論文 参考訳(メタデータ) (2023-10-10T09:20:14Z) - Factually Consistent Summarization via Reinforcement Learning with
Textual Entailment Feedback [57.816210168909286]
我々は,この問題を抽象的な要約システムで解くために,テキストエンテーメントモデルの最近の進歩を活用している。
我々は、事実整合性を最適化するために、レファレンスフリーのテキストエンターメント報酬を用いた強化学習を用いる。
自動測定と人的評価の両結果から,提案手法は生成した要約の忠実さ,サリエンス,簡潔さを著しく向上させることが示された。
論文 参考訳(メタデータ) (2023-05-31T21:04:04Z) - Can Large Language Models Be an Alternative to Human Evaluations? [80.81532239566992]
大規模言語モデル(LLM)は、タスク命令のみを提供する場合、目に見えないタスクに対して例外的な性能を示す。
LLM評価の結果は、専門家による評価の結果と一致していることを示す。
論文 参考訳(メタデータ) (2023-05-03T07:28:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。