論文の概要: On the effectiveness of LLMs for automatic grading of open-ended questions in Spanish
- arxiv url: http://arxiv.org/abs/2503.18072v1
- Date: Sun, 23 Mar 2025 13:43:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 16:32:16.971606
- Title: On the effectiveness of LLMs for automatic grading of open-ended questions in Spanish
- Title(参考訳): スペイン語におけるオープンエンド質問の自動評価におけるLLMの有効性について
- Authors: Germán Capdehourat, Isabel Amigo, Brian Lorenzo, Joaquín Trigo,
- Abstract要約: 本稿では,異なるLLMの性能について検討し,オープンエンド質問に対する短文回答を自動的に評価する手法を提案する。
結果は、プロンプトのスタイルに特に敏感であり、プロンプト内の特定の単語やコンテンツに対するバイアスを示唆している。
- 参考スコア(独自算出の注目度): 0.8224695424591679
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Grading is a time-consuming and laborious task that educators must face. It is an important task since it provides feedback signals to learners, and it has been demonstrated that timely feedback improves the learning process. In recent years, the irruption of LLMs has shed light on the effectiveness of automatic grading. In this paper, we explore the performance of different LLMs and prompting techniques in automatically grading short-text answers to open-ended questions. Unlike most of the literature, our study focuses on a use case where the questions, answers, and prompts are all in Spanish. Experimental results comparing automatic scores to those of human-expert evaluators show good outcomes in terms of accuracy, precision and consistency for advanced LLMs, both open and proprietary. Results are notably sensitive to prompt styles, suggesting biases toward certain words or content in the prompt. However, the best combinations of models and prompt strategies, consistently surpasses an accuracy of 95% in a three-level grading task, which even rises up to more than 98% when the it is simplified to a binary right or wrong rating problem, which demonstrates the potential that LLMs have to implement this type of automation in education applications.
- Abstract(参考訳): グラディングは、教育者が直面するべき時間と労力のかかるタスクである。
学習者にフィードバック信号を提供するため重要な課題であり、タイムリーなフィードバックが学習プロセスを改善することが示されている。
近年, LLMの破壊は, 自動グレーティングの有効性に光を当てている。
本稿では,異なるLLMの性能について検討し,オープンエンド質問に対する短文回答を自動的に評価する手法を提案する。
ほとんどの文献とは異なり、我々の研究は、質問、回答、プロンプトがすべてスペイン語で書かれているユースケースに焦点を当てている。
自動スコアと人間熟練評価器のスコアを比較した実験結果は,オープンかつプロプライエタリな先進LLMの精度,精度,一貫性の点で良好な結果を示した。
結果は、プロンプトのスタイルに特に敏感であり、プロンプト内の特定の単語やコンテンツに対するバイアスを示唆している。
しかし、モデルとプロンプト戦略の最良の組み合わせは、3段階のグレーティングタスクにおいて95%の精度を一貫して上回り、バイナリ右または間違った評価問題に単純化されると98%以上まで上昇し、LCMがこのような自動化を教育アプリケーションで実装しなければならない可能性を示している。
関連論文リスト
- Can Large Language Models Match Tutoring System Adaptivity? A Benchmarking Study [0.0]
大規模言語モデル(LLM)は動的命令補助として約束を守る。
しかし、LLMが知的チューリングシステム(ITS)の適応性を再現できるかどうかは不明である。
論文 参考訳(メタデータ) (2025-04-07T23:57:32Z) - LLMs Can Generate a Better Answer by Aggregating Their Own Responses [83.69632759174405]
大きな言語モデル(LLM)はタスク間で顕著な機能を示しているが、複雑な問題に直面している場合、追加のプロンプト技術を必要とすることが多い。
この制限は、共通LLMポストトレーニング手順が差別的判断タスクの明示的な監督を欠いているという事実に起因している、と我々は主張する。
本稿では,モデルの識別機能を必要とせず,解答品質を向上させる手法である生成自己集合(GSA)を提案する。
論文 参考訳(メタデータ) (2025-03-06T05:25:43Z) - Use Me Wisely: AI-Driven Assessment for LLM Prompting Skills Development [5.559706293891474]
大規模言語モデル(LLM)を利用したチャットボットは、様々な領域で普及し、様々なタスクやプロセスをサポートしている。
しかし、プロンプトは非常にタスクに依存し、ドメインに依存しており、ジェネリックアプローチの有効性を制限している。
本研究では, アドホックガイドラインと最小限の注釈付きプロンプトサンプルを用いて, LLM を用いた学習評価を促進できるかどうかを検討する。
論文 参考訳(メタデータ) (2025-03-04T11:56:33Z) - Automated Assignment Grading with Large Language Models: Insights From a Bioinformatics Course [0.0]
自然言語処理と大規模言語モデル(LLM)は、パーソナライズされたフィードバックの効率的な配信を可能にすることで、有望なソリューションを提供する。
自然言語処理と大規模言語モデル(LLM)の最近の進歩は、パーソナライズされたフィードバックの効率的な配信を可能にすることによって、有望なソリューションを提供する。
提案手法により,LLMは人間の評価値に匹敵する評価精度とフィードバック品質を達成できることが示唆された。
論文 参考訳(メタデータ) (2025-01-24T13:59:14Z) - Exploring Knowledge Tracing in Tutor-Student Dialogues using LLMs [49.18567856499736]
本研究では,大規模言語モデル(LLM)が対話学習を支援することができるかどうかを検討する。
我々は,学習者の知識レベルを対話全体にわたって追跡するために,ラベル付きデータに知識追跡(KT)手法を適用した。
我々は,2つの学習対話データセットの実験を行い,従来のKT手法よりも学生の反応の正しさを予測できる新しいLCM-based method LLMKTが優れていることを示す。
論文 参考訳(メタデータ) (2024-09-24T22:31:39Z) - Unveiling Scoring Processes: Dissecting the Differences between LLMs and Human Graders in Automatic Scoring [21.7782670140939]
大規模言語モデル(LLM)は、構築された応答評価のための自動スコアリングを行う上で、強力な可能性を示している。
人間によってランク付けされた構築された応答は、通常、与えられた格付けされたルーリックに基づいているが、LSMがスコアを割り当てる方法はほとんど不明である。
本稿では,理科の課題に対する学生の書面回答と人間のスコアとの整合性を評価するために,LLMが用いたグレーディングルーブリックを明らかにする。
論文 参考訳(メタデータ) (2024-07-04T22:26:20Z) - Fact-and-Reflection (FaR) Improves Confidence Calibration of Large Language Models [84.94220787791389]
ファクト・アンド・リフレクション(FaR)プロンプトを提案し,LLMキャリブレーションを2ステップで改善する。
実験の結果、FaRはキャリブレーションが大幅に向上し、期待される誤差を23.5%下げた。
FaRは、信頼性の低いシナリオにおいて、言語的に関心を表現できる能力さえも持っています。
論文 参考訳(メタデータ) (2024-02-27T01:37:23Z) - Rephrase and Respond: Let Large Language Models Ask Better Questions for Themselves [57.974103113675795]
本稿では,Rephrase and Respond'(RaR)という手法を提案する。
RaRは、パフォーマンスを改善するためのシンプルだが効果的なプロンプト方法として機能する。
また,RaRは理論的にも経験的にも,一般的なChain-of-Thought(CoT)法と相補的であることを示す。
論文 参考訳(メタデータ) (2023-11-07T18:43:34Z) - Towards LLM-based Autograding for Short Textual Answers [4.853810201626855]
この写本は、自動階調のための大きな言語モデルの評価である。
のLCMは貴重なツールであるが、独立した自動グルーピングのための準備がまだ進行中であることを示唆している。
論文 参考訳(メタデータ) (2023-09-09T22:25:56Z) - Automatically Correcting Large Language Models: Surveying the landscape
of diverse self-correction strategies [104.32199881187607]
大規模言語モデル(LLM)は、幅広いNLPタスクで顕著な性能を示した。
これらの欠陥を正すための有望なアプローチは自己補正であり、LLM自体が自身の出力で問題を修正するために誘導される。
本稿では,この新技術について概観する。
論文 参考訳(メタデータ) (2023-08-06T18:38:52Z) - Automatic Prompt Optimization with "Gradient Descent" and Beam Search [64.08364384823645]
大きな言語モデル(LLM)は汎用エージェントとして優れたパフォーマンスを示しているが、その能力はプロンプトに大きく依存している。
この問題に対する単純で非パラメトリックな解である自動プロンプト最適化(APO)を提案する。
APOはデータのミニバッチを使用して、現在のプロンプトを批判する自然言語「段階的」を形成する。
次に、勾配の反対の意味方向のプロンプトを編集することで、勾配をプロンプトに「伝播」する。
論文 参考訳(メタデータ) (2023-05-04T15:15:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。