論文の概要: Applying Large Language Models and Chain-of-Thought for Automatic
Scoring
- arxiv url: http://arxiv.org/abs/2312.03748v1
- Date: Thu, 30 Nov 2023 21:22:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-11 02:57:10.115931
- Title: Applying Large Language Models and Chain-of-Thought for Automatic
Scoring
- Title(参考訳): 自動スコアリングのための大規模言語モデルとチェーン・オブ・マインドの適用
- Authors: Gyeong-Geon Lee, Ehsan Latif, Xuansheng Wu, Ninghao Liu, and Xiaoming
Zhai
- Abstract要約: 本研究では,大規模言語モデル(LLM)の学生による科学評価に対する応答の自動評価への適用について検討した。
我々は、アクセシビリティ、技術的な複雑さ、以前は自動アセスメントツールの使用を制限していた説明可能性の欠如といった課題を克服することに注力した。
- 参考スコア(独自算出の注目度): 23.076596289069506
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This study investigates the application of large language models (LLMs),
specifically GPT-3.5 and GPT-4, with Chain-of-Though (CoT)in the automatic
scoring of student-written responses to science assessments. We focused on
overcoming the challenges of accessibility, technical complexity, and lack of
explainability that have previously limited the use of automatic assessment
tools among researchers and educators. We used a testing dataset comprising six
assessment tasks (three binomial and three trinomial) with 1,650 student
responses. We employed six prompt engineering strategies, combining zero-shot
or few-shot learning with CoT, either alone or alongside item stem and scoring
rubrics. Results indicated that few-shot (acc = .67) outperformed zero-shot
learning (acc = .60), with 12.6\% increase. CoT, when used without item stem
and scoring rubrics, did not significantly affect scoring accuracy (acc = .60).
However, CoT prompting paired with contextual item stems and rubrics proved to
be a significant contributor to scoring accuracy (13.44\% increase for
zero-shot; 3.7\% increase for few-shot). Using a novel approach PPEAS, we found
a more balanced accuracy across different proficiency categories, highlighting
the importance of domain-specific reasoning in enhancing the effectiveness of
LLMs in scoring tasks. Additionally, we also found that GPT-4 demonstrated
superior performance over GPT-3.5 in various scoring tasks, showing 8.64\%
difference. The study revealed that the single-call strategy with GPT-4,
particularly using greedy sampling, outperformed other approaches, including
ensemble voting strategies. This study demonstrates the potential of LLMs in
facilitating automatic scoring, emphasizing that CoT enhances accuracy,
particularly when used with item stem and scoring rubrics.
- Abstract(参考訳): 本研究では,gpt-3.5とgpt-4を用いた大規模言語モデル(llms)の理科評価への学生書面応答の自動スコアリングにおける適用について検討した。
研究者や教育者の間では,これまで自動評価ツールの使用が制限されていたアクセシビリティ,技術的な複雑さ,説明可能性の欠如といった課題を克服することに注力した。
6つの評価タスク(二項と三項)と1,650人の学生の回答からなるテストデータセットを使用した。
ゼロショットや少数ショットの学習をCoTと組み合わせた6つの迅速なエンジニアリング戦略を採用しました。
その結果、少ショット(acc = .67)はゼロショット学習(acc = .60)を上回っ、12.6\%増加した。
CoTは、アイテムステムとスコアリングルーリックなしで使用される場合、スコアリング精度(acc = .60)に大きな影響を与えなかった。
しかし、コンテクストアイテムのstemとrubricsと組み合わせたcotプロンプトはスコアリングの精度に重要な貢献をした(ゼロショットでは13.44\%、少数ショットでは3.7\%)。
新しいアプローチppeasを用いて、異なる熟練度カテゴリ間でよりバランスの取れた精度を示し、スコアリングタスクにおけるllmの有効性を高めるためのドメイン固有の推論の重要性を強調した。
また, GPT-4 は GPT-3.5 よりも優れた性能を示し, 8.64 % の差を示した。
本研究は, GPT-4を用いた単一呼出方式, 特にグリーディサンプリングを用いた場合, アンサンブル投票方式を含む他の手法よりも優れていることを示した。
本研究は,自動スコアリングの容易化におけるllmの可能性を示し,特に点数や点数において,cotが精度を高めることを強調する。
関連論文リスト
- Towards Scalable Automated Grading: Leveraging Large Language Models for Conceptual Question Evaluation in Engineering [5.160473221022088]
本研究では,大言語モデル(LLM)を用いた概念質問の自動評価の実現可能性について検討する。
テキサスA&M大学における MEEN 361 コースの10クイズ問題に対して GPT-4o の成績を比較した。
解析の結果, GPT-4o は評価基準が単純だが, ニュアンス解答に苦慮していることが明らかとなった。
論文 参考訳(メタデータ) (2024-11-06T04:41:13Z) - Evaluating Large Language Models on Spatial Tasks: A Multi-Task Benchmarking Study [4.80612909282198]
本研究では,新しいマルチタスク空間評価データセットを提案する。
データセットは、空間的理解と経路計画を含む12の異なるタスクタイプを含む。
この研究は、特定のタスクにおけるモデルパフォーマンスに対する迅速な戦略の影響を強調している。
論文 参考訳(メタデータ) (2024-08-26T17:25:16Z) - Networks of Networks: Complexity Class Principles Applied to Compound AI Systems Design [63.24275274981911]
多くの言語モデル推論コールからなる複合AIシステムは、ますます採用されている。
本研究では,提案した回答の生成と正当性検証の区別を中心に,ネットワークネットワーク(NoN)と呼ばれるシステムを構築した。
我々は,Kジェネレータを備えた検証器ベースの判定器NoNを導入し,"Best-of-K"あるいは"judge-based"複合AIシステムのインスタンス化を行う。
論文 参考訳(メタデータ) (2024-07-23T20:40:37Z) - Advancing LLM Reasoning Generalists with Preference Trees [119.57169648859707]
推論に最適化された大規模言語モデル(LLM)のスイートであるEulusを紹介する。
Eurusモデルは、様々なベンチマークでオープンソースのモデルの間で最先端の結果を得る。
論文 参考訳(メタデータ) (2024-04-02T16:25:30Z) - Fine-tuning ChatGPT for Automatic Scoring [1.4833692070415454]
本研究は,構築された応答を自動的に評価するための微調整ChatGPT (GPT3.5) の可能性を明らかにする。
細調整 GPT-3.5 と,Google が生成する言語モデル BERT を比較した。
論文 参考訳(メタデータ) (2023-10-16T05:09:16Z) - Prompt Engineering or Fine Tuning: An Empirical Assessment of Large
Language Models in Automated Software Engineering Tasks [8.223311621898983]
対話型プロンプトを持つ GPT-4 は, 自動プロンプト戦略を持つ GPT-4 に比べて劇的な改善を示した。
完全に自動化されたプロンプトエンジニアリング ループに人間はいない より多くの研究と改善が必要です
論文 参考訳(メタデータ) (2023-10-11T00:21:00Z) - Is GPT-4 a reliable rater? Evaluating Consistency in GPT-4 Text Ratings [63.35165397320137]
本研究では,OpenAI の GPT-4 によるフィードバック評価の整合性について検討した。
このモデルは、マクロ経済学の上級教育分野における課題に対する回答を、内容とスタイルの観点から評価した。
論文 参考訳(メタデータ) (2023-08-03T12:47:17Z) - ZeroSCROLLS: A Zero-Shot Benchmark for Long Text Understanding [86.08738156304224]
我々は、長いテキスト上での自然言語理解のためのゼロショットベンチマークであるZeroSCROLLSを紹介する。
SCROLLSベンチマークから6つのタスクを適応させ、新しい2つの情報拡散タスクを含む4つのデータセットを追加します。
クロードはChatGPTより優れており、GPT-4は最高スコアを得る。
論文 参考訳(メタデータ) (2023-05-23T16:15:31Z) - Hint of Thought prompting: an explainable and zero-shot approach to reasoning tasks with LLMs [5.996787847938559]
本稿では、説明可能性とゼロショットの一般化を促進させる新しい思考ヒント(HoT)を提案する。
説明可能なサブクエスト、論理的推論、答えの3つのステップに分けられる。
実験の結果、HoTプロンプトは既存のゼロショットCoTと比較してゼロショット推論タスクにおいて大きな利点があることがわかった。
論文 参考訳(メタデータ) (2023-05-19T06:30:17Z) - Progressive-Hint Prompting Improves Reasoning in Large Language Models [63.98629132836499]
本稿では,プログレッシブ・ヒント・プロンプト(PHP)と呼ばれる新しいプロンプト手法を提案する。
事前に生成された回答をヒントとして使用することで、ユーザとLLM(Large Language Models)間の自動多元的対話を可能にする。
我々は7つのベンチマークで広範囲かつ包括的な実験を行った。その結果、PHPは高い効率を保ちながら精度を大幅に向上することが示された。
論文 参考訳(メタデータ) (2023-04-19T16:29:48Z) - Faithful Chain-of-Thought Reasoning [51.21714389639417]
CoT(Chain-of-Thought)は言語モデル(LM)のパフォーマンスを様々な推論タスクで向上させる。
翻訳と問題解決という2つの段階を含む推論フレームワークであるFithful CoTを提案する。
このことは、推論連鎖が最終回答の忠実な説明を提供することを保証している。
論文 参考訳(メタデータ) (2023-01-31T03:04:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。