Fugu-MT 論文翻訳(概要): Large Language Models as Partners in Student Essay Evaluation

論文の概要: Large Language Models as Partners in Student Essay Evaluation

arxiv url: http://arxiv.org/abs/2405.18632v1
Date: Tue, 28 May 2024 22:28:50 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-30 21:33:21.023122
Title: Large Language Models as Partners in Student Essay Evaluation
Title（参考訳）: 学生評価におけるパートナーとしての大規模言語モデル
Authors: Toru Ishida, Tongxi Liu, Hailong Wang, William K. Cheung,
Abstract要約: 本稿では,3つのシナリオで実際の学生エッセイを用いて,Large Language Models (LLMs) を用いて評価を行った。その結果, LLMと教職員評価の相関関係は, 事前に特定したルーリックとの相互比較シナリオにおいて強い相関性を示した。
参考スコア（独自算出の注目度）: 5.479797073162603
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: As the importance of comprehensive evaluation in workshop courses increases, there is a growing demand for efficient and fair assessment methods that reduce the workload for faculty members. This paper presents an evaluation conducted with Large Language Models (LLMs) using actual student essays in three scenarios: 1) without providing guidance such as rubrics, 2) with pre-specified rubrics, and 3) through pairwise comparison of essays. Quantitative analysis of the results revealed a strong correlation between LLM and faculty member assessments in the pairwise comparison scenario with pre-specified rubrics, although concerns about the quality and stability of evaluations remained. Therefore, we conducted a qualitative analysis of LLM assessment comments, showing that: 1) LLMs can match the assessment capabilities of faculty members, 2) variations in LLM assessments should be interpreted as diversity rather than confusion, and 3) assessments by humans and LLMs can differ and complement each other. In conclusion, this paper suggests that LLMs should not be seen merely as assistants to faculty members but as partners in evaluation committees and outlines directions for further research.
Abstract（参考訳）: ワークショップコースにおける総合的な評価の重要性が増すにつれ、教員の作業負荷を減らすための効率的で公平な評価方法への需要が高まっている。本稿では,3つのシナリオにおいて,学生エッセイを用いたLarge Language Models (LLMs)による評価について述べる。 1) れんが等の指導を伴わない。 2) あらかじめ特定された潤滑油,及び 3)エッセイのペア比較による。評価の質と安定性に関する懸念は残るものの, 分析結果の定量的分析により, LLMと教員評価の相互比較シナリオにおける相関が強いことが明らかとなった。そこで,LLM評価コメントの質的分析を行い,以下の結果を得た。 1) LLM は, 教員の評価能力に適合することができる。 2 LLM評価のバリエーションは、混乱よりも多様性と解釈すべきであり、 3)人間とLLMによる評価は相違し,相互に補完することができる。結論として, LLM は, 教員の助手としてだけではなく, 評価委員会のパートナーとして, 今後の研究の方向性を概説すべきであると考えられる。

関連論文リスト

LLMs can Perform Multi-Dimensional Analytic Writing Assessments: A Case Study of L2 Graduate-Level Academic English Writing [10.239220270988136]
我々は,L2大学院生による文献レビューのコーパスを用いて,9つの分析基準に対して,人間専門家による評価を行った。フィードバックコメントの品質を評価するために,新しいフィードバックコメント品質評価フレームワークを適用した。 LLMは、合理的に良好で信頼性の高い多次元解析アセスメントを生成することができる。
論文参考訳（メタデータ） (2025-02-17T02:31:56Z)
From Text to Insight: Leveraging Large Language Models for Performance Evaluation in Management [6.70908766695241]
本研究では,大規模言語モデル(LLM),特にGPT-4の可能性を探り,組織的タスクパフォーマンス評価における客観性を高める。以上の結果から,GPT評価は人間の評価に匹敵するが,一貫性と信頼性が高いことが示唆された。 LLMはテキストベースのデータから意味のある構成物を抽出できるが、その範囲は特定のパフォーマンス評価形式に限定されている。
論文参考訳（メタデータ） (2024-08-09T20:35:10Z)
Analyzing Large Language Models for Classroom Discussion Assessment [0.8194411391152481]
本研究では,2つの大規模言語モデル(LLM)の評価性能が,タスクの定式化,文脈長,少数例の3つの要因とどのように相互作用するかを検討する。その結果, 上記の3つの要因がLLMの性能に影響を与え, 一貫性と性能に相関があることが示唆された。予測性能, 計算効率, 整合性の観点から, バランスのよいLCMベースの評価手法を推奨する。
論文参考訳（メタデータ） (2024-06-12T22:43:38Z)
Facilitating Holistic Evaluations with LLMs: Insights from Scenario-Based Experiments [0.22499166814992438]
経験豊富な教員チームでさえ、さまざまな視点に対応する総合的な評価を実現するのは難しいと感じています。本稿では,多様な教員評価を統合するためのファシリテータとして,LLM(Large Language Model)の利用について検討する。
論文参考訳（メタデータ） (2024-05-28T01:07:06Z)
Decompose and Aggregate: A Step-by-Step Interpretable Evaluation Framework [75.81096662788254]
大規模言語モデル(LLM)はスケーラブルで経済的な評価指標である。これらの評価者がどの程度信頼できるかという問題は、重要な研究課題として浮上している。本稿では,デコンプリートとアグリゲートを提案し,その評価プロセスを教育実践に基づいて異なる段階に分解する。
論文参考訳（メタデータ） (2024-05-24T08:12:30Z)
Large Language Models are Inconsistent and Biased Evaluators [2.136983452580014]
我々は,Large Language Models (LLMs) が親しみの偏りを示し,評価の歪んだ分布を示すため,評価値の偏りを示すことを示した。また, LLM は不整合性評価器であり, テキスト品質の人間の理解に欠かせない相違を誘発する「サンプル間合意」が低く, 感度が高いことがわかった。
論文参考訳（メタデータ） (2024-05-02T20:42:28Z)
Aligning with Human Judgement: The Role of Pairwise Preference in Large Language Model Evaluators [48.54465599914978]
大規模言語モデル(LLM)は、生成された自然言語の品質を評価する上で有望な能力を示している。 LLMは依然として評価のバイアスを示しており、人間の評価と整合したコヒーレントな評価を生成するのに苦労することが多い。 Pairwise-preference Search (PairS)は、LLMを用いてペア比較を行い、候補テキストを効率よくランク付けする不確実性誘導探索手法である。
論文参考訳（メタデータ） (2024-03-25T17:11:28Z)
Exploring the Reliability of Large Language Models as Customized Evaluators for Diverse NLP Tasks [65.69651759036535]
大規模言語モデル(LLM)が人間にとって信頼できる代替手段であるかどうかを解析する。本稿では、従来のタスク(例えば、ストーリー生成)とアライメントタスク(例えば、数学推論)の両方について検討する。 LLM評価器は不要な基準を生成したり、重要な基準を省略することができる。
論文参考訳（メタデータ） (2023-10-30T17:04:35Z)
Evaluating Large Language Models at Evaluating Instruction Following [54.49567482594617]
我々は,命令追従出力の識別におけるLLM評価器の能力をテストするために,挑戦的なメタ評価ベンチマーク LLMBar を導入する。異なる評価器がLLMBarに対して異なる性能を示し、最高の評価器でさえ改善の余地があることが判明した。
論文参考訳（メタデータ） (2023-10-11T16:38:11Z)
A Survey on Evaluation of Large Language Models [87.60417393701331]
大規模言語モデル(LLM)は、学術と産業の両方で人気が高まっている。本稿では,評価方法,評価方法,評価方法の3つの重要な側面に焦点をあてる。
論文参考訳（メタデータ） (2023-07-06T16:28:35Z)
Sentiment Analysis in the Era of Large Language Models: A Reality Check [69.97942065617664]
本稿では,大規模言語モデル(LLM)の様々な感情分析タスクの実行能力について検討する。 26のデータセット上の13のタスクのパフォーマンスを評価し、ドメイン固有のデータセットに基づいて訓練された小言語モデル(SLM)と比較した。
論文参考訳（メタデータ） (2023-05-24T10:45:25Z)
Can Large Language Models Be an Alternative to Human Evaluations? [80.81532239566992]
大規模言語モデル(LLM)は、タスク命令のみを提供する場合、目に見えないタスクに対して例外的な性能を示す。 LLM評価の結果は、専門家による評価の結果と一致していることを示す。
論文参考訳（メタデータ） (2023-05-03T07:28:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。