論文の概要: An Exploration of Higher Education Course Evaluation by Large Language Models
- arxiv url: http://arxiv.org/abs/2411.02455v1
- Date: Sun, 03 Nov 2024 20:43:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-06 15:01:41.797770
- Title: An Exploration of Higher Education Course Evaluation by Large Language Models
- Title(参考訳): 大規模言語モデルによる高等教育コース評価の探索
- Authors: Bo Yuan, Jiazi Hu,
- Abstract要約: 人工知能(AI)における大規模言語モデル(LLM)は、コース評価プロセスを強化するための新しい道筋を示す。
本研究は,中国大大学の100コースにわたる厳密な実験を行い,複数の視点から自動コース評価へのLLMの適用について検討した。
- 参考スコア(独自算出の注目度): 4.943165921136573
- License:
- Abstract: Course evaluation is a critical component in higher education pedagogy. It not only serves to identify limitations in existing course designs and provide a basis for curricular innovation, but also to offer quantitative insights for university administrative decision-making. Traditional evaluation methods, primarily comprising student surveys, instructor self-assessments, and expert reviews, often encounter challenges, including inherent subjectivity, feedback delays, inefficiencies, and limitations in addressing innovative teaching approaches. Recent advancements in large language models (LLMs) within artificial intelligence (AI) present promising new avenues for enhancing course evaluation processes. This study explores the application of LLMs in automated course evaluation from multiple perspectives and conducts rigorous experiments across 100 courses at a major university in China. The findings indicate that: (1) LLMs can be an effective tool for course evaluation; (2) their effectiveness is contingent upon appropriate fine-tuning and prompt engineering; and (3) LLM-generated evaluation results demonstrate a notable level of rationality and interpretability.
- Abstract(参考訳): 授業評価は高等教育教育において重要な要素である。
既存のコースデザインの限界を特定し、カリキュラムの革新の基盤を提供するだけでなく、大学経営の意思決定に定量的な洞察を与えるのにも役立っている。
学生調査、インストラクターの自己評価、専門家のレビューを含む従来の評価手法は、固有の主観性、フィードバックの遅延、非効率性、革新的な教育アプローチに取り組む際の限界といった課題にしばしば遭遇する。
人工知能(AI)における大規模言語モデル(LLM)の最近の進歩は、コース評価プロセスを強化するための新しい道のりを示す。
本研究は,中国大大学の100コースにわたる厳密な実験を行い,複数の視点から自動コース評価へのLLMの適用について検討した。
その結果, (1) LLM はコース評価に有効なツールであり, (2) 有効性は適切な微調整と迅速な工学に基づくものであり, (3) LLM 生成した評価結果は, 有理性と解釈可能性の顕著なレベルを示す。
関連論文リスト
- A Novel Psychometrics-Based Approach to Developing Professional Competency Benchmark for Large Language Models [0.0]
本稿では,厳密な心理測定原理に基づくベンチマーク開発への包括的アプローチを提案する。
我々は、教育と教育の分野で新しいベンチマークを作成することで、このアプローチを説明する最初の試みを行う。
我々はブルームの分類学によってガイドされ、テスト開発で訓練された教育専門家のコンソーシアムによって厳格に設計された新しいベンチマークを構築した。
論文 参考訳(メタデータ) (2024-10-29T19:32:43Z) - An Automatic and Cost-Efficient Peer-Review Framework for Language Generation Evaluation [29.81362106367831]
既存の評価手法は、しばしば高いコスト、限られたテスト形式、人間の参照の必要性、体系的な評価バイアスに悩まされる。
人間のアノテーションに依存する以前の研究とは対照的に、Auto-PREはそれら固有の特性に基づいて自動的に評価者を選択する。
実験結果から,我々のAuto-PREは最先端の性能を低コストで達成できることが示された。
論文 参考訳(メタデータ) (2024-10-16T06:06:06Z) - Large Language Model as an Assignment Evaluator: Insights, Feedback, and Challenges in a 1000+ Student Course [49.296957552006226]
大規模言語モデル(LLM)を自動評価に用いることは,NLP研究において重要な評価手法となっている。
本報告では,1028人の大学生を対象に,GPT-4を自動課題評価装置として利用する方法について述べる。
論文 参考訳(メタデータ) (2024-07-07T00:17:24Z) - Disce aut Deficere: Evaluating LLMs Proficiency on the INVALSI Italian Benchmark [12.729687989535359]
大規模言語モデル(LLM)を英語以外の言語で評価することは、その言語的汎用性、文化的妥当性、そして多様なグローバルな文脈における適用性を保証するために不可欠である。
InVALSIテストは、イタリア全土の教育能力を測定するために設計された、確立された評価セットである。
論文 参考訳(メタデータ) (2024-06-25T13:20:08Z) - Facilitating Holistic Evaluations with LLMs: Insights from Scenario-Based Experiments [0.22499166814992438]
経験豊富な教員チームでさえ、さまざまな視点に対応する総合的な評価を実現するのは難しいと感じています。
本稿では,多様な教員評価を統合するためのファシリテータとして,LLM(Large Language Model)の利用について検討する。
論文 参考訳(メタデータ) (2024-05-28T01:07:06Z) - FoundaBench: Evaluating Chinese Fundamental Knowledge Capabilities of Large Language Models [64.11333762954283]
本稿では,中国のLLMの基本知識能力を厳格に評価するための先駆的ベンチマークであるFoundaBenchを紹介する。
本稿では、従来の評価手法とCircularEvalプロトコルの両方を用いて、モデル応答の潜在的なバイアスを軽減するため、FoundaBenchを用いた12の最先端LCMの広範な評価を行う。
以上の結果から,中国のコーパスで事前学習したモデルの性能が向上し,モデル推論とメモリリコール能力の相違が明らかとなった。
論文 参考訳(メタデータ) (2024-04-29T01:49:07Z) - Comprehensive Reassessment of Large-Scale Evaluation Outcomes in LLMs: A Multifaceted Statistical Approach [64.42462708687921]
評価の結果、スケーリング、トレーニングタイプ、アーキテクチャなどの要因がLLMのパフォーマンスに大きな影響を与えていることが明らかになった。
本研究は, これらのLCMの徹底的な再検討に着手し, 現状評価手法における不整合性に着目した。
これには、ANOVA、Tukey HSDテスト、GAMM、クラスタリング技術などが含まれる。
論文 参考訳(メタデータ) (2024-03-22T14:47:35Z) - Evaluating and Optimizing Educational Content with Large Language Model Judgments [52.33701672559594]
言語モデル(LM)を教育専門家として活用し,学習結果に対する様々な指導の影響を評価する。
本稿では,一方のLMが他方のLMの判断を報酬関数として利用して命令材料を生成する命令最適化手法を提案する。
ヒトの教師によるこれらのLM生成ワークシートの評価は、LM判定と人間の教師の嗜好との間に有意な整合性を示す。
論文 参考訳(メタデータ) (2024-03-05T09:09:15Z) - F-Eval: Assessing Fundamental Abilities with Refined Evaluation Methods [102.98899881389211]
F-Evalは、表現、常識、論理などの基本能力を評価するためのバイリンガル評価ベンチマークである。
参照不要な主観的タスクに対しては,APIモデルによるスコアの代替として,新たな評価手法を考案する。
論文 参考訳(メタデータ) (2024-01-26T13:55:32Z) - A Survey on Evaluation of Large Language Models [87.60417393701331]
大規模言語モデル(LLM)は、学術と産業の両方で人気が高まっている。
本稿では,評価方法,評価方法,評価方法の3つの重要な側面に焦点をあてる。
論文 参考訳(メタデータ) (2023-07-06T16:28:35Z) - Case study of Innovative Teaching Practices and their Impact for
Electrical Engineering Courses during COVID-19 Pandemic [3.797359376885945]
この研究は、新型コロナウイルスのパンデミック中のオンライン教育が原因で、学生にMPLに組み込まれたオンラインアセスメント技術に関するフィードバックを提供する。
MPLとオンラインアセスメントは,パンデミックの状況下においても,学生の学習成果の達成に有効であると結論付けることができる。
論文 参考訳(メタデータ) (2021-07-01T21:10:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。