論文の概要: Facilitating Holistic Evaluations with LLMs: Insights from Scenario-Based Experiments
- arxiv url: http://arxiv.org/abs/2405.17728v2
- Date: Mon, 12 Aug 2024 00:54:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-13 21:12:59.770542
- Title: Facilitating Holistic Evaluations with LLMs: Insights from Scenario-Based Experiments
- Title(参考訳): LLMによる全体的評価のファシリテート:シナリオベース実験からの考察
- Authors: Toru Ishida, Tongxi Liu, Hailong Wang, William K. Cheunga,
- Abstract要約: 経験豊富な教員チームでさえ、さまざまな視点に対応する総合的な評価を実現するのは難しいと感じています。
本稿では,多様な教員評価を統合するためのファシリテータとして,LLM(Large Language Model)の利用について検討する。
- 参考スコア(独自算出の注目度): 0.22499166814992438
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Workshop courses designed to foster creativity are gaining popularity. However, even experienced faculty teams find it challenging to realize a holistic evaluation that accommodates diverse perspectives. Adequate deliberation is essential to integrate varied assessments, but faculty often lack the time for such exchanges. Deriving an average score without discussion undermines the purpose of a holistic evaluation. Therefore, this paper explores the use of a Large Language Model (LLM) as a facilitator to integrate diverse faculty assessments. Scenario-based experiments were conducted to determine if the LLM could integrate diverse evaluations and explain the underlying pedagogical theories to faculty. The results were noteworthy, showing that the LLM can effectively facilitate faculty discussions. Additionally, the LLM demonstrated the capability to create evaluation criteria by generalizing a single scenario-based experiment, leveraging its already acquired pedagogical domain knowledge.
- Abstract(参考訳): クリエイティビティを促進するためのワークショップコースが人気を集めている。
しかし、経験豊富な教員チームでさえ、様々な視点に対応する総合的な評価を実現することは困難である。
様々な評価を統合するためには適切な熟考が不可欠であるが、大学はそのような交換の時間を欠いていることが多い。
議論のない平均スコアの導出は、全体的評価の目的を損なう。
そこで本稿では,多様な教員評価を統合するためのファシリテータとして,LLM(Large Language Model)の利用について検討する。
LLMが多様な評価を統合できるかどうかを判断し、基礎となる教育理論を学部に説明するためのシナリオベースの実験を行った。
その結果,LLMは教員の議論を効果的に促進できることが示唆された。
さらに、LLMは、すでに獲得した教育領域の知識を活用して、単一のシナリオベースの実験を一般化することで評価基準を作成する能力を示した。
関連論文リスト
- Large Language Model as an Assignment Evaluator: Insights, Feedback, and Challenges in a 1000+ Student Course [49.296957552006226]
大規模言語モデル(LLM)を自動評価に用いることは,NLP研究において重要な評価手法となっている。
本報告では,1028人の大学生を対象に,GPT-4を自動課題評価装置として利用する方法について述べる。
論文 参考訳(メタデータ) (2024-07-07T00:17:24Z) - Supporting Self-Reflection at Scale with Large Language Models: Insights from Randomized Field Experiments in Classrooms [7.550701021850185]
本研究では,大規模言語モデル (LLMs) が学生の反省会後リフレクションに役立てる可能性について検討する。
大学コンピュータサイエンス科でランダムフィールド実験を2回行った。
論文 参考訳(メタデータ) (2024-06-01T02:41:59Z) - Large Language Models as Partners in Student Essay Evaluation [5.479797073162603]
本稿では,3つのシナリオで実際の学生エッセイを用いて,Large Language Models (LLMs) を用いて評価を行った。
その結果, LLMと教職員評価の相関関係は, 事前に特定したルーリックとの相互比較シナリオにおいて強い相関性を示した。
論文 参考訳(メタデータ) (2024-05-28T22:28:50Z) - Decompose and Aggregate: A Step-by-Step Interpretable Evaluation Framework [75.81096662788254]
大規模言語モデル(LLM)はスケーラブルで経済的な評価指標である。
これらの評価者がどの程度信頼できるかという問題は、重要な研究課題として浮上している。
本稿では,デコンプリートとアグリゲートを提案し,その評価プロセスを教育実践に基づいて異なる段階に分解する。
論文 参考訳(メタデータ) (2024-05-24T08:12:30Z) - Evaluating and Optimizing Educational Content with Large Language Model Judgments [52.33701672559594]
言語モデル(LM)を教育専門家として活用し,学習結果に対する様々な指導の影響を評価する。
本稿では,一方のLMが他方のLMの判断を報酬関数として利用して命令材料を生成する命令最適化手法を提案する。
ヒトの教師によるこれらのLM生成ワークシートの評価は、LM判定と人間の教師の嗜好との間に有意な整合性を示す。
論文 参考訳(メタデータ) (2024-03-05T09:09:15Z) - PRE: A Peer Review Based Large Language Model Evaluator [14.585292530642603]
既存のパラダイムは、LLMの性能を評価するために、人間アノテーションまたはモデルベースの評価器のいずれかに依存している。
ピアレビュープロセスを通じてLLMを自動的に評価できる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-28T12:33:14Z) - Collaborative Evaluation: Exploring the Synergy of Large Language Models
and Humans for Open-ended Generation Evaluation [71.76872586182981]
大規模言語モデル(LLM)は、人間の評価に代わるスケーラブルで費用対効果の高い代替品として登場した。
本稿では,タスク固有の基準のチェックリストとテキストの詳細な評価を含む協調評価パイプラインCoEvalを提案する。
論文 参考訳(メタデータ) (2023-10-30T17:04:35Z) - Through the Lens of Core Competency: Survey on Evaluation of Large
Language Models [27.271533306818732]
大規模言語モデル(LLM)は優れた性能と幅広い実用性を持っている。
既存の評価タスクは、現実世界のシナリオにおける幅広いアプリケーションに追いつくのは難しい。
LLMの4つのコア能力は、推論、知識、信頼性、安全性などである。
この能力アーキテクチャの下では、類似したタスクを組み合わせて対応する能力を反映し、新しいタスクをシステムに簡単に追加することができる。
論文 参考訳(メタデータ) (2023-08-15T17:40:34Z) - A Survey on Evaluation of Large Language Models [87.60417393701331]
大規模言語モデル(LLM)は、学術と産業の両方で人気が高まっている。
本稿では,評価方法,評価方法,評価方法の3つの重要な側面に焦点をあてる。
論文 参考訳(メタデータ) (2023-07-06T16:28:35Z) - Can ChatGPT Assess Human Personalities? A General Evaluation Framework [70.90142717649785]
大きな言語モデル(LLM)は、様々な分野で印象的な成果を上げてきたが、その潜在的な人間のような心理学はいまだに研究されていない。
本稿では,Mers Briggs Type Indicator (MBTI) テストに基づく人格評価のための総合評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-01T06:16:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。