論文の概要: Applying Large Language Models and Chain-of-Thought for Automatic
Scoring
- arxiv url: http://arxiv.org/abs/2312.03748v1
- Date: Thu, 30 Nov 2023 21:22:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-11 02:57:10.115931
- Title: Applying Large Language Models and Chain-of-Thought for Automatic
Scoring
- Title(参考訳): 自動スコアリングのための大規模言語モデルとチェーン・オブ・マインドの適用
- Authors: Gyeong-Geon Lee, Ehsan Latif, Xuansheng Wu, Ninghao Liu, and Xiaoming
Zhai
- Abstract要約: 本研究では,大規模言語モデル(LLM)の学生による科学評価に対する応答の自動評価への適用について検討した。
我々は、アクセシビリティ、技術的な複雑さ、以前は自動アセスメントツールの使用を制限していた説明可能性の欠如といった課題を克服することに注力した。
- 参考スコア(独自算出の注目度): 23.076596289069506
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This study investigates the application of large language models (LLMs),
specifically GPT-3.5 and GPT-4, with Chain-of-Though (CoT)in the automatic
scoring of student-written responses to science assessments. We focused on
overcoming the challenges of accessibility, technical complexity, and lack of
explainability that have previously limited the use of automatic assessment
tools among researchers and educators. We used a testing dataset comprising six
assessment tasks (three binomial and three trinomial) with 1,650 student
responses. We employed six prompt engineering strategies, combining zero-shot
or few-shot learning with CoT, either alone or alongside item stem and scoring
rubrics. Results indicated that few-shot (acc = .67) outperformed zero-shot
learning (acc = .60), with 12.6\% increase. CoT, when used without item stem
and scoring rubrics, did not significantly affect scoring accuracy (acc = .60).
However, CoT prompting paired with contextual item stems and rubrics proved to
be a significant contributor to scoring accuracy (13.44\% increase for
zero-shot; 3.7\% increase for few-shot). Using a novel approach PPEAS, we found
a more balanced accuracy across different proficiency categories, highlighting
the importance of domain-specific reasoning in enhancing the effectiveness of
LLMs in scoring tasks. Additionally, we also found that GPT-4 demonstrated
superior performance over GPT-3.5 in various scoring tasks, showing 8.64\%
difference. The study revealed that the single-call strategy with GPT-4,
particularly using greedy sampling, outperformed other approaches, including
ensemble voting strategies. This study demonstrates the potential of LLMs in
facilitating automatic scoring, emphasizing that CoT enhances accuracy,
particularly when used with item stem and scoring rubrics.
- Abstract(参考訳): 本研究では,gpt-3.5とgpt-4を用いた大規模言語モデル(llms)の理科評価への学生書面応答の自動スコアリングにおける適用について検討した。
研究者や教育者の間では,これまで自動評価ツールの使用が制限されていたアクセシビリティ,技術的な複雑さ,説明可能性の欠如といった課題を克服することに注力した。
6つの評価タスク(二項と三項)と1,650人の学生の回答からなるテストデータセットを使用した。
ゼロショットや少数ショットの学習をCoTと組み合わせた6つの迅速なエンジニアリング戦略を採用しました。
その結果、少ショット(acc = .67)はゼロショット学習(acc = .60)を上回っ、12.6\%増加した。
CoTは、アイテムステムとスコアリングルーリックなしで使用される場合、スコアリング精度(acc = .60)に大きな影響を与えなかった。
しかし、コンテクストアイテムのstemとrubricsと組み合わせたcotプロンプトはスコアリングの精度に重要な貢献をした(ゼロショットでは13.44\%、少数ショットでは3.7\%)。
新しいアプローチppeasを用いて、異なる熟練度カテゴリ間でよりバランスの取れた精度を示し、スコアリングタスクにおけるllmの有効性を高めるためのドメイン固有の推論の重要性を強調した。
また, GPT-4 は GPT-3.5 よりも優れた性能を示し, 8.64 % の差を示した。
本研究は, GPT-4を用いた単一呼出方式, 特にグリーディサンプリングを用いた場合, アンサンブル投票方式を含む他の手法よりも優れていることを示した。
本研究は,自動スコアリングの容易化におけるllmの可能性を示し,特に点数や点数において,cotが精度を高めることを強調する。
関連論文リスト
- Advancing LLM Reasoning Generalists with Preference Trees [119.57169648859707]
推論に最適化された大規模言語モデル(LLM)のスイートであるEulusを紹介する。
Eurusモデルは、様々なベンチマークでオープンソースのモデルの間で最先端の結果を得る。
論文 参考訳(メタデータ) (2024-04-02T16:25:30Z) - The Benefits of a Concise Chain of Thought on Problem-Solving in Large
Language Models [0.0]
CCoTはGPT-3.5とGPT-4の両方で平均応答長を48.70%削減した。
全体として、CCoTはトーケン当たりの平均コストを22.67%削減する。
論文 参考訳(メタデータ) (2024-01-11T01:52:25Z) - Using GPT-4 to Augment Unbalanced Data for Automatic Scoring [0.6278186810520364]
生成型大規模言語モデルであるGPT-4を用いた新しいテキストデータ拡張フレームワークを提案する。
我々は,GPT-4が学生の回答に類似した応答を生成するためのプロンプトを作成し,特にマイノリティスコアリングクラスについて検討した。
拡張データセットとオリジナルデータセットに基づいて自動スコアリングのためにDistillBERTを微調整した。
論文 参考訳(メタデータ) (2023-10-25T01:07:50Z) - Fine-tuning ChatGPT for Automatic Scoring [1.4833692070415454]
本研究は,構築された応答を自動的に評価するための微調整ChatGPT (GPT3.5) の可能性を明らかにする。
細調整 GPT-3.5 と,Google が生成する言語モデル BERT を比較した。
論文 参考訳(メタデータ) (2023-10-16T05:09:16Z) - Prompt Engineering or Fine Tuning: An Empirical Assessment of Large
Language Models in Automated Software Engineering Tasks [8.223311621898983]
対話型プロンプトを持つ GPT-4 は, 自動プロンプト戦略を持つ GPT-4 に比べて劇的な改善を示した。
完全に自動化されたプロンプトエンジニアリング ループに人間はいない より多くの研究と改善が必要です
論文 参考訳(メタデータ) (2023-10-11T00:21:00Z) - Exploring Small Language Models with Prompt-Learning Paradigm for
Efficient Domain-Specific Text Classification [2.410463233396231]
小型言語モデル(SLM)は、ドメイン固有のタスクに対して、大幅なカスタマイズ性、適応性、コスト効率を提供する。
プロンプトベースのモデル微調整が可能となる場合、T5ベースは220Mパラメータを持つ典型的なSLMであり、ラベル付きデータで約75%の精度が得られる。
固定モデルを用いたゼロショット設定では、約154Bのパラメータを備えたGPT-3.5-turboが55.16%の精度を持つにもかかわらず、よく設計されたプロンプトのパワーが明らかになるという重要な観察結果が得られた。
論文 参考訳(メタデータ) (2023-09-26T09:24:46Z) - Is GPT-4 a reliable rater? Evaluating Consistency in GPT-4 Text Ratings [63.35165397320137]
本研究では,OpenAI の GPT-4 によるフィードバック評価の整合性について検討した。
このモデルは、マクロ経済学の上級教育分野における課題に対する回答を、内容とスタイルの観点から評価した。
論文 参考訳(メタデータ) (2023-08-03T12:47:17Z) - ZeroSCROLLS: A Zero-Shot Benchmark for Long Text Understanding [86.08738156304224]
我々は、長いテキスト上での自然言語理解のためのゼロショットベンチマークであるZeroSCROLLSを紹介する。
SCROLLSベンチマークから6つのタスクを適応させ、新しい2つの情報拡散タスクを含む4つのデータセットを追加します。
クロードはChatGPTより優れており、GPT-4は最高スコアを得る。
論文 参考訳(メタデータ) (2023-05-23T16:15:31Z) - Faithful Chain-of-Thought Reasoning [51.21714389639417]
CoT(Chain-of-Thought)は言語モデル(LM)のパフォーマンスを様々な推論タスクで向上させる。
翻訳と問題解決という2つの段階を含む推論フレームワークであるFithful CoTを提案する。
このことは、推論連鎖が最終回答の忠実な説明を提供することを保証している。
論文 参考訳(メタデータ) (2023-01-31T03:04:26Z) - News Summarization and Evaluation in the Era of GPT-3 [73.48220043216087]
GPT-3は,大規模な要約データセット上で訓練された微調整モデルと比較する。
我々は,GPT-3サマリーが圧倒的に好まれるだけでなく,タスク記述のみを用いることで,現実性に乏しいようなデータセット固有の問題に悩まされることも示している。
論文 参考訳(メタデータ) (2022-09-26T01:04:52Z) - What Makes Good In-Context Examples for GPT-$3$? [101.99751777056314]
GPT-$3$はNLPタスクの広い範囲でその優れた性能のために多くの注目を集めています。
その成功にもかかわらず、我々はGPT-$3$の実証結果が文脈内例の選択に大きく依存していることを発見した。
本研究では,文脈内事例を適切に選択するためのより効果的な戦略が存在するかを検討する。
論文 参考訳(メタデータ) (2021-01-17T23:38:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。