論文の概要: Facilitating Holistic Evaluations with LLMs: Insights from Scenario-Based Experiments
- arxiv url: http://arxiv.org/abs/2405.17728v1
- Date: Tue, 28 May 2024 01:07:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-29 22:51:42.252491
- Title: Facilitating Holistic Evaluations with LLMs: Insights from Scenario-Based Experiments
- Title(参考訳): LLMによる全体的評価のファシリテート:シナリオベース実験からの考察
- Authors: Toru Ishida,
- Abstract要約: さまざまな評価を統合するためには、適切な議論が不可欠である。
議論のない平均スコアの導出は、全体的評価の目的を損なう。
本稿では,多様な教員評価を統合するためのファシリテータとして,LLM(Large Language Model)の利用について検討する。
- 参考スコア(独自算出の注目度): 0.32634122554914
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Workshop courses designed to foster creativity are gaining popularity. However, achieving a holistic evaluation that accommodates diverse perspectives is challenging, even for experienced faculty teams. Adequate discussion is essential to integrate varied assessments, but faculty often lack the time for such deliberations. Deriving an average score without discussion undermines the purpose of a holistic evaluation. This paper explores the use of a Large Language Model (LLM) as a facilitator to integrate diverse faculty assessments. Scenario-based experiments were conducted to determine if the LLM could synthesize diverse evaluations and explain the underlying theories to faculty. The results were noteworthy, showing that the LLM effectively facilitated faculty discussions. Additionally, the LLM demonstrated the capability to generalize and create evaluation criteria from a single scenario based on its learned domain knowledge.
- Abstract(参考訳): クリエイティビティを促進するためのワークショップコースが人気を集めている。
しかし,経験豊富な教員チームであっても,多様な視点で総合評価を行うことは困難である。
様々な評価を統合するためには適切な議論が不可欠であるが、大学はそのような検討の時間を欠いていることが多い。
議論のない平均スコアの導出は、全体的評価の目的を損なう。
本稿では,多様な教員評価を統合するためのファシリテータとして,LLM(Large Language Model)の利用について検討する。
シナリオに基づく実験は、LLMが多様な評価を合成し、基礎となる理論を学部に説明できるかどうかを決定するために行われた。
その結果, LLMは学部の議論を効果的に促進したことが明らかとなった。
さらにLLMは、学習したドメイン知識に基づいて、単一のシナリオから評価基準を一般化し作成する能力を示した。
関連論文リスト
- Large Language Model as an Assignment Evaluator: Insights, Feedback, and Challenges in a 1000+ Student Course [49.296957552006226]
大規模言語モデル(LLM)による自動評価が現実世界の教室で適用可能かどうかは不明である。
本報告では,1028人の大学生を対象に,GPT-4を自動課題評価装置として利用する方法について述べる。
論文 参考訳(メタデータ) (2024-07-07T00:17:24Z) - Large Language Models as Partners in Student Essay Evaluation [5.479797073162603]
本稿では,3つのシナリオで実際の学生エッセイを用いて,Large Language Models (LLMs) を用いて評価を行った。
その結果, LLMと教職員評価の相関関係は, 事前に特定したルーリックとの相互比較シナリオにおいて強い相関性を示した。
論文 参考訳(メタデータ) (2024-05-28T22:28:50Z) - Decompose and Aggregate: A Step-by-Step Interpretable Evaluation Framework [75.81096662788254]
大規模言語モデル(LLM)はスケーラブルで経済的な評価指標である。
これらの評価者がどの程度信頼できるかという問題は、重要な研究課題として浮上している。
本稿では,デコンプリートとアグリゲートを提案し,その評価プロセスを教育実践に基づいて異なる段階に分解する。
論文 参考訳(メタデータ) (2024-05-24T08:12:30Z) - PRE: A Peer Review Based Large Language Model Evaluator [14.585292530642603]
既存のパラダイムは、LLMの性能を評価するために、人間アノテーションまたはモデルベースの評価器のいずれかに依存している。
ピアレビュープロセスを通じてLLMを自動的に評価できる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-28T12:33:14Z) - Collaborative Evaluation: Exploring the Synergy of Large Language Models
and Humans for Open-ended Generation Evaluation [71.76872586182981]
大規模言語モデル(LLM)は、人間の評価に代わるスケーラブルで費用対効果の高い代替品として登場した。
本稿では,タスク固有の基準のチェックリストとテキストの詳細な評価を含む協調評価パイプラインCoEvalを提案する。
論文 参考訳(メタデータ) (2023-10-30T17:04:35Z) - Through the Lens of Core Competency: Survey on Evaluation of Large
Language Models [27.271533306818732]
大規模言語モデル(LLM)は優れた性能と幅広い実用性を持っている。
既存の評価タスクは、現実世界のシナリオにおける幅広いアプリケーションに追いつくのは難しい。
LLMの4つのコア能力は、推論、知識、信頼性、安全性などである。
この能力アーキテクチャの下では、類似したタスクを組み合わせて対応する能力を反映し、新しいタスクをシステムに簡単に追加することができる。
論文 参考訳(メタデータ) (2023-08-15T17:40:34Z) - A Survey on Evaluation of Large Language Models [87.60417393701331]
大規模言語モデル(LLM)は、学術と産業の両方で人気が高まっている。
本稿では,評価方法,評価方法,評価方法の3つの重要な側面に焦点をあてる。
論文 参考訳(メタデータ) (2023-07-06T16:28:35Z) - Can Large Language Models Be an Alternative to Human Evaluations? [80.81532239566992]
大規模言語モデル(LLM)は、タスク命令のみを提供する場合、目に見えないタスクに対して例外的な性能を示す。
LLM評価の結果は、専門家による評価の結果と一致していることを示す。
論文 参考訳(メタデータ) (2023-05-03T07:28:50Z) - Can ChatGPT Assess Human Personalities? A General Evaluation Framework [70.90142717649785]
大きな言語モデル(LLM)は、様々な分野で印象的な成果を上げてきたが、その潜在的な人間のような心理学はいまだに研究されていない。
本稿では,Mers Briggs Type Indicator (MBTI) テストに基づく人格評価のための総合評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-01T06:16:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。