論文の概要: On the effectiveness of LLMs for automatic grading of open-ended questions in Spanish
- arxiv url: http://arxiv.org/abs/2503.18072v1
- Date: Sun, 23 Mar 2025 13:43:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 14:39:16.788359
- Title: On the effectiveness of LLMs for automatic grading of open-ended questions in Spanish
- Title(参考訳): スペイン語におけるオープンエンド質問の自動評価におけるLLMの有効性について
- Authors: Germán Capdehourat, Isabel Amigo, Brian Lorenzo, Joaquín Trigo,
- Abstract要約: 本稿では,異なるLLMの性能について検討し,オープンエンド質問に対する短文回答を自動的に評価する手法を提案する。
結果は、プロンプトのスタイルに特に敏感であり、プロンプト内の特定の単語やコンテンツに対するバイアスを示唆している。
- 参考スコア(独自算出の注目度): 0.8224695424591679
- License:
- Abstract: Grading is a time-consuming and laborious task that educators must face. It is an important task since it provides feedback signals to learners, and it has been demonstrated that timely feedback improves the learning process. In recent years, the irruption of LLMs has shed light on the effectiveness of automatic grading. In this paper, we explore the performance of different LLMs and prompting techniques in automatically grading short-text answers to open-ended questions. Unlike most of the literature, our study focuses on a use case where the questions, answers, and prompts are all in Spanish. Experimental results comparing automatic scores to those of human-expert evaluators show good outcomes in terms of accuracy, precision and consistency for advanced LLMs, both open and proprietary. Results are notably sensitive to prompt styles, suggesting biases toward certain words or content in the prompt. However, the best combinations of models and prompt strategies, consistently surpasses an accuracy of 95% in a three-level grading task, which even rises up to more than 98% when the it is simplified to a binary right or wrong rating problem, which demonstrates the potential that LLMs have to implement this type of automation in education applications.
- Abstract(参考訳): グラディングは、教育者が直面するべき時間と労力のかかるタスクである。
学習者にフィードバック信号を提供するため重要な課題であり、タイムリーなフィードバックが学習プロセスを改善することが示されている。
近年, LLMの破壊は, 自動グレーティングの有効性に光を当てている。
本稿では,異なるLLMの性能について検討し,オープンエンド質問に対する短文回答を自動的に評価する手法を提案する。
ほとんどの文献とは異なり、我々の研究は、質問、回答、プロンプトがすべてスペイン語で書かれているユースケースに焦点を当てている。
自動スコアと人間熟練評価器のスコアを比較した実験結果は,オープンかつプロプライエタリな先進LLMの精度,精度,一貫性の点で良好な結果を示した。
結果は、プロンプトのスタイルに特に敏感であり、プロンプト内の特定の単語やコンテンツに対するバイアスを示唆している。
しかし、モデルとプロンプト戦略の最良の組み合わせは、3段階のグレーティングタスクにおいて95%の精度を一貫して上回り、バイナリ右または間違った評価問題に単純化されると98%以上まで上昇し、LCMがこのような自動化を教育アプリケーションで実装しなければならない可能性を示している。
関連論文リスト
- Automated Assignment Grading with Large Language Models: Insights From a Bioinformatics Course [0.0]
自然言語処理と大規模言語モデル(LLM)は、パーソナライズされたフィードバックの効率的な配信を可能にすることで、有望なソリューションを提供する。
自然言語処理と大規模言語モデル(LLM)の最近の進歩は、パーソナライズされたフィードバックの効率的な配信を可能にすることによって、有望なソリューションを提供する。
提案手法により,LLMは人間の評価値に匹敵する評価精度とフィードバック品質を達成できることが示唆された。
論文 参考訳(メタデータ) (2025-01-24T13:59:14Z) - Exploring Knowledge Tracing in Tutor-Student Dialogues using LLMs [49.18567856499736]
本研究では,大規模言語モデル(LLM)が対話学習を支援することができるかどうかを検討する。
我々は,学習者の知識レベルを対話全体にわたって追跡するために,ラベル付きデータに知識追跡(KT)手法を適用した。
我々は,2つの学習対話データセットの実験を行い,従来のKT手法よりも学生の反応の正しさを予測できる新しいLCM-based method LLMKTが優れていることを示す。
論文 参考訳(メタデータ) (2024-09-24T22:31:39Z) - Unveiling Scoring Processes: Dissecting the Differences between LLMs and Human Graders in Automatic Scoring [21.7782670140939]
大規模言語モデル(LLM)は、構築された応答評価のための自動スコアリングを行う上で、強力な可能性を示している。
人間によってランク付けされた構築された応答は、通常、与えられた格付けされたルーリックに基づいているが、LSMがスコアを割り当てる方法はほとんど不明である。
本稿では,理科の課題に対する学生の書面回答と人間のスコアとの整合性を評価するために,LLMが用いたグレーディングルーブリックを明らかにする。
論文 参考訳(メタデータ) (2024-07-04T22:26:20Z) - Social Bias Evaluation for Large Language Models Requires Prompt Variations [38.91306092184724]
大規模言語モデル(LLM)は、かなりの社会的偏見を示す。
本稿では,高速変動変化におけるLDMの感度について検討する。
LLMは、そのプロンプトによって引き起こされる社会的偏見と性能のトレードオフがあることが示される。
論文 参考訳(メタデータ) (2024-07-03T14:12:04Z) - Fact-and-Reflection (FaR) Improves Confidence Calibration of Large Language Models [84.94220787791389]
ファクト・アンド・リフレクション(FaR)プロンプトを提案し,LLMキャリブレーションを2ステップで改善する。
実験の結果、FaRはキャリブレーションが大幅に向上し、期待される誤差を23.5%下げた。
FaRは、信頼性の低いシナリオにおいて、言語的に関心を表現できる能力さえも持っています。
論文 参考訳(メタデータ) (2024-02-27T01:37:23Z) - Rephrase and Respond: Let Large Language Models Ask Better Questions for Themselves [57.974103113675795]
本稿では,Rephrase and Respond'(RaR)という手法を提案する。
RaRは、パフォーマンスを改善するためのシンプルだが効果的なプロンプト方法として機能する。
また,RaRは理論的にも経験的にも,一般的なChain-of-Thought(CoT)法と相補的であることを示す。
論文 参考訳(メタデータ) (2023-11-07T18:43:34Z) - Knowing What LLMs DO NOT Know: A Simple Yet Effective Self-Detection Method [36.24876571343749]
大規模言語モデル(LLM)は自然言語処理(NLP)タスクにおいて大きな可能性を示している。
近年の文献では、LLMは断続的に非実効応答を生成する。
本研究では,LLM が知らない質問が非現実的な結果を生成する傾向にあることを検知する新たな自己検出手法を提案する。
論文 参考訳(メタデータ) (2023-10-27T06:22:14Z) - Towards LLM-based Autograding for Short Textual Answers [4.853810201626855]
この写本は、自動階調のための大きな言語モデルの評価である。
のLCMは貴重なツールであるが、独立した自動グルーピングのための準備がまだ進行中であることを示唆している。
論文 参考訳(メタデータ) (2023-09-09T22:25:56Z) - Automatically Correcting Large Language Models: Surveying the landscape
of diverse self-correction strategies [104.32199881187607]
大規模言語モデル(LLM)は、幅広いNLPタスクで顕著な性能を示した。
これらの欠陥を正すための有望なアプローチは自己補正であり、LLM自体が自身の出力で問題を修正するために誘導される。
本稿では,この新技術について概観する。
論文 参考訳(メタデータ) (2023-08-06T18:38:52Z) - Automatic Prompt Optimization with "Gradient Descent" and Beam Search [64.08364384823645]
大きな言語モデル(LLM)は汎用エージェントとして優れたパフォーマンスを示しているが、その能力はプロンプトに大きく依存している。
この問題に対する単純で非パラメトリックな解である自動プロンプト最適化(APO)を提案する。
APOはデータのミニバッチを使用して、現在のプロンプトを批判する自然言語「段階的」を形成する。
次に、勾配の反対の意味方向のプロンプトを編集することで、勾配をプロンプトに「伝播」する。
論文 参考訳(メタデータ) (2023-05-04T15:15:22Z) - RLPrompt: Optimizing Discrete Text Prompts With Reinforcement Learning [84.75064077323098]
本稿では、強化学習(RL)を用いた離散的高速最適化手法RLPromptを提案する。
RLPromptは、マスク付きジベリッシュ(例:grammaBERT)や左から右へのモデル(例:GPT)など、様々な種類のLMに柔軟に適用可能である。
少数ショット分類と教師なしテキストスタイル転送の実験は、既存のファインタニングやプロンプト手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-05-25T07:50:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。