論文の概要: Large Language Models as Partners in Student Essay Evaluation
- arxiv url: http://arxiv.org/abs/2405.18632v1
- Date: Tue, 28 May 2024 22:28:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-30 21:33:21.023122
- Title: Large Language Models as Partners in Student Essay Evaluation
- Title(参考訳): 学生評価におけるパートナーとしての大規模言語モデル
- Authors: Toru Ishida, Tongxi Liu, Hailong Wang, William K. Cheung,
- Abstract要約: 本稿では,3つのシナリオで実際の学生エッセイを用いて,Large Language Models (LLMs) を用いて評価を行った。
その結果, LLMと教職員評価の相関関係は, 事前に特定したルーリックとの相互比較シナリオにおいて強い相関性を示した。
- 参考スコア(独自算出の注目度): 5.479797073162603
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: As the importance of comprehensive evaluation in workshop courses increases, there is a growing demand for efficient and fair assessment methods that reduce the workload for faculty members. This paper presents an evaluation conducted with Large Language Models (LLMs) using actual student essays in three scenarios: 1) without providing guidance such as rubrics, 2) with pre-specified rubrics, and 3) through pairwise comparison of essays. Quantitative analysis of the results revealed a strong correlation between LLM and faculty member assessments in the pairwise comparison scenario with pre-specified rubrics, although concerns about the quality and stability of evaluations remained. Therefore, we conducted a qualitative analysis of LLM assessment comments, showing that: 1) LLMs can match the assessment capabilities of faculty members, 2) variations in LLM assessments should be interpreted as diversity rather than confusion, and 3) assessments by humans and LLMs can differ and complement each other. In conclusion, this paper suggests that LLMs should not be seen merely as assistants to faculty members but as partners in evaluation committees and outlines directions for further research.
- Abstract(参考訳): ワークショップコースにおける総合的な評価の重要性が増すにつれ、教員の作業負荷を減らすための効率的で公平な評価方法への需要が高まっている。
本稿では,3つのシナリオにおいて,学生エッセイを用いたLarge Language Models (LLMs)による評価について述べる。
1) れんが等の指導を伴わない。
2) あらかじめ特定された潤滑油,及び
3)エッセイのペア比較による。
評価の質と安定性に関する懸念は残るものの, 分析結果の定量的分析により, LLMと教員評価の相互比較シナリオにおける相関が強いことが明らかとなった。
そこで,LLM評価コメントの質的分析を行い,以下の結果を得た。
1) LLM は, 教員の評価能力に適合することができる。
2 LLM評価のバリエーションは、混乱よりも多様性と解釈すべきであり、
3)人間とLLMによる評価は相違し,相互に補完することができる。
結論として, LLM は, 教員の助手としてだけではなく, 評価委員会のパートナーとして, 今後の研究の方向性を概説すべきであると考えられる。
関連論文リスト
- Analyzing Large Language Models for Classroom Discussion Assessment [0.8194411391152481]
本研究では,2つの大規模言語モデル(LLM)の評価性能が,タスクの定式化,文脈長,少数例の3つの要因とどのように相互作用するかを検討する。
その結果, 上記の3つの要因がLLMの性能に影響を与え, 一貫性と性能に相関があることが示唆された。
予測性能, 計算効率, 整合性の観点から, バランスのよいLCMベースの評価手法を推奨する。
論文 参考訳(メタデータ) (2024-06-12T22:43:38Z) - Large Language Models as Evaluators for Recommendation Explanations [23.938202791437337]
我々は,LLMがレコメンデーション・リコメンデーション・リコメンデーションの評価に役立てられるかどうかを検討する。
我々は,評価者ラベルとユーザが提供する真実との相関を計測するために,3段階のメタ評価戦略を設計し,適用する。
本研究は,LLMを評価対象として活用することは,レコメンデーション説明文の評価において,正確かつ再現可能で費用対効果の高いソリューションであることを示す。
論文 参考訳(メタデータ) (2024-06-05T13:23:23Z) - Facilitating Holistic Evaluations with LLMs: Insights from Scenario-Based Experiments [0.32634122554914]
さまざまな評価を統合するためには、適切な議論が不可欠である。
議論のない平均スコアの導出は、全体的評価の目的を損なう。
本稿では,多様な教員評価を統合するためのファシリテータとして,LLM(Large Language Model)の利用について検討する。
論文 参考訳(メタデータ) (2024-05-28T01:07:06Z) - Decompose and Aggregate: A Step-by-Step Interpretable Evaluation Framework [75.81096662788254]
大規模言語モデル(LLM)はスケーラブルで経済的な評価指標である。
これらの評価者がどの程度信頼できるかという問題は、重要な研究課題として浮上している。
本稿では,デコンプリートとアグリゲートを提案し,その評価プロセスを教育実践に基づいて異なる段階に分解する。
論文 参考訳(メタデータ) (2024-05-24T08:12:30Z) - Large Language Models are Inconsistent and Biased Evaluators [2.136983452580014]
我々は,Large Language Models (LLMs) が親しみの偏りを示し,評価の歪んだ分布を示すため,評価値の偏りを示すことを示した。
また, LLM は不整合性評価器であり, テキスト品質の人間の理解に欠かせない相違を誘発する「サンプル間合意」が低く, 感度が高いことがわかった。
論文 参考訳(メタデータ) (2024-05-02T20:42:28Z) - Aligning with Human Judgement: The Role of Pairwise Preference in Large Language Model Evaluators [48.54465599914978]
大規模言語モデル(LLM)は、生成された自然言語の品質を評価する上で有望な能力を示している。
LLMは依然として評価のバイアスを示しており、人間の評価と整合したコヒーレントな評価を生成するのに苦労することが多い。
Pairwise-preference Search (PairS)は、LLMを用いてペア比較を行い、候補テキストを効率よくランク付けする不確実性誘導探索手法である。
論文 参考訳(メタデータ) (2024-03-25T17:11:28Z) - Evaluating Large Language Models at Evaluating Instruction Following [54.49567482594617]
我々は,命令追従出力の識別におけるLLM評価器の能力をテストするために,挑戦的なメタ評価ベンチマーク LLMBar を導入する。
異なる評価器がLLMBarに対して異なる性能を示し、最高の評価器でさえ改善の余地があることが判明した。
論文 参考訳(メタデータ) (2023-10-11T16:38:11Z) - A Survey on Evaluation of Large Language Models [87.60417393701331]
大規模言語モデル(LLM)は、学術と産業の両方で人気が高まっている。
本稿では,評価方法,評価方法,評価方法の3つの重要な側面に焦点をあてる。
論文 参考訳(メタデータ) (2023-07-06T16:28:35Z) - Sentiment Analysis in the Era of Large Language Models: A Reality Check [69.97942065617664]
本稿では,大規模言語モデル(LLM)の様々な感情分析タスクの実行能力について検討する。
26のデータセット上の13のタスクのパフォーマンスを評価し、ドメイン固有のデータセットに基づいて訓練された小言語モデル(SLM)と比較した。
論文 参考訳(メタデータ) (2023-05-24T10:45:25Z) - Can Large Language Models Be an Alternative to Human Evaluations? [80.81532239566992]
大規模言語モデル(LLM)は、タスク命令のみを提供する場合、目に見えないタスクに対して例外的な性能を示す。
LLM評価の結果は、専門家による評価の結果と一致していることを示す。
論文 参考訳(メタデータ) (2023-05-03T07:28:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。