論文の概要: Applying Large Language Models and Chain-of-Thought for Automatic
Scoring
- arxiv url: http://arxiv.org/abs/2312.03748v2
- Date: Fri, 16 Feb 2024 19:47:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-21 04:23:19.874411
- Title: Applying Large Language Models and Chain-of-Thought for Automatic
Scoring
- Title(参考訳): 自動スコアリングのための大規模言語モデルとチェーン・オブ・マインドの適用
- Authors: Gyeong-Geon Lee, Ehsan Latif, Xuansheng Wu, Ninghao Liu, and Xiaoming
Zhai
- Abstract要約: 本研究では,大規模言語モデル(LLM)の学生による科学評価に対する応答の自動評価への適用について検討した。
我々は、これまで人工知能ベースの自動スコアリングツールの使用を制限していたアクセシビリティ、技術的複雑さ、説明可能性の欠如といった課題を克服することに注力した。
- 参考スコア(独自算出の注目度): 23.076596289069506
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This study investigates the application of large language models (LLMs),
specifically GPT-3.5 and GPT-4, with Chain-of-Though (CoT) in the automatic
scoring of student-written responses to science assessments. We focused on
overcoming the challenges of accessibility, technical complexity, and lack of
explainability that have previously limited the use of artificial
intelligence-based automatic scoring tools among researchers and educators.
With a testing dataset comprising six assessment tasks (three binomial and
three trinomial) with 1,650 student responses, we employed six prompt
engineering strategies to automatically score student responses. The six
strategies combined zero-shot or few-shot learning with CoT, either alone or
alongside item stem and scoring rubrics. Results indicated that few-shot (acc =
.67) outperformed zero-shot learning (acc = .60), with 12.6% increase. CoT,
when used without item stem and scoring rubrics, did not significantly affect
scoring accuracy (acc = .60). However, CoT prompting paired with contextual
item stems and rubrics proved to be a significant contributor to scoring
accuracy (13.44% increase for zero-shot; 3.7% increase for few-shot). We found
a more balanced accuracy across different proficiency categories when CoT was
used with a scoring rubric, highlighting the importance of domain-specific
reasoning in enhancing the effectiveness of LLMs in scoring tasks. We also
found that GPT-4 demonstrated superior performance over GPT -3.5 in various
scoring tasks when combined with the single-call greedy sampling or ensemble
voting nucleus sampling strategy, showing 8.64% difference. Particularly, the
single-call greedy sampling strategy with GPT-4 outperformed other approaches.
- Abstract(参考訳): 本研究では,gpt-3.5およびgpt-4を用いた大規模言語モデル(llms)の理科評価に対する学生書面応答の自動スコアリングにおける適用について検討した。
我々は、研究者や教育者の間で人工知能ベースの自動採点ツールの使用を制限したアクセシビリティ、技術的な複雑さ、説明可能性の欠如といった課題を克服することに焦点を当てた。
6つの評価タスク(二項と三項)と1,650人の学生の回答からなるテストデータセットを用いて,学生の回答を自動スコアリングするために6つのプロンプトエンジニアリング戦略を採用した。
6つの戦略は、単発またはアイテムのstemと並行して、ゼロショットまたは少数ショットの学習をcotと組み合わせた。
その結果、少ショット(acc = .67)はゼロショット学習(acc = .60)を上回っ、12.6%増加した。
CoTは、アイテムステムとスコアリングルーリックなしで使用される場合、スコアリング精度(acc = .60)に大きな影響を与えなかった。
しかし、コンテクストアイテムのstemとrubricsを組み合わせることでスコアリング精度が向上した(ゼロショットでは13.44%増、少数ショットでは3.7%増)。
cotをスコアリング用ルーブリックで使用した際,各カテゴリ間でよりバランスの取れた精度を示し,スコアリングタスクにおけるllmの有効性を高める上で,ドメイン固有の推論の重要性を強調した。
また, GPT-4は, 単発グリーディサンプリングやアンサンブル投票核サンプリングと組み合わせることで, GPT-3.5よりも優れた性能を示し, 8.64%の差を示した。
特に, GPT-4を用いた単発グリーディサンプリングは, 他の手法よりも優れていた。
関連論文リスト
- The Benefits of a Concise Chain of Thought on Problem-Solving in Large
Language Models [0.0]
CCoTはGPT-3.5とGPT-4の両方で平均応答長を48.70%削減した。
全体として、CCoTはトーケン当たりの平均コストを22.67%削減する。
論文 参考訳(メタデータ) (2024-01-11T01:52:25Z) - Using GPT-4 to Augment Unbalanced Data for Automatic Scoring [0.6278186810520364]
生成型大規模言語モデルであるGPT-4を用いた新しいテキストデータ拡張フレームワークを提案する。
我々は,GPT-4が学生の回答に類似した応答を生成するためのプロンプトを作成し,特にマイノリティスコアリングクラスについて検討した。
拡張データセットとオリジナルデータセットに基づいて自動スコアリングのためにDistillBERTを微調整した。
論文 参考訳(メタデータ) (2023-10-25T01:07:50Z) - Fine-tuning ChatGPT for Automatic Scoring [1.4833692070415454]
本研究は,構築された応答を自動的に評価するための微調整ChatGPT (GPT3.5) の可能性を明らかにする。
細調整 GPT-3.5 と,Google が生成する言語モデル BERT を比較した。
論文 参考訳(メタデータ) (2023-10-16T05:09:16Z) - Prompt Engineering or Fine Tuning: An Empirical Assessment of Large
Language Models in Automated Software Engineering Tasks [8.223311621898983]
対話型プロンプトを持つ GPT-4 は, 自動プロンプト戦略を持つ GPT-4 に比べて劇的な改善を示した。
完全に自動化されたプロンプトエンジニアリング ループに人間はいない より多くの研究と改善が必要です
論文 参考訳(メタデータ) (2023-10-11T00:21:00Z) - Exploring Small Language Models with Prompt-Learning Paradigm for
Efficient Domain-Specific Text Classification [2.410463233396231]
小型言語モデル(SLM)は、ドメイン固有のタスクに対して、大幅なカスタマイズ性、適応性、コスト効率を提供する。
プロンプトベースのモデル微調整が可能となる場合、T5ベースは220Mパラメータを持つ典型的なSLMであり、ラベル付きデータで約75%の精度が得られる。
固定モデルを用いたゼロショット設定では、約154Bのパラメータを備えたGPT-3.5-turboが55.16%の精度を持つにもかかわらず、よく設計されたプロンプトのパワーが明らかになるという重要な観察結果が得られた。
論文 参考訳(メタデータ) (2023-09-26T09:24:46Z) - Is GPT-4 a reliable rater? Evaluating Consistency in GPT-4 Text Ratings [63.35165397320137]
本研究では,OpenAI の GPT-4 によるフィードバック評価の整合性について検討した。
このモデルは、マクロ経済学の上級教育分野における課題に対する回答を、内容とスタイルの観点から評価した。
論文 参考訳(メタデータ) (2023-08-03T12:47:17Z) - ZeroSCROLLS: A Zero-Shot Benchmark for Long Text Understanding [86.08738156304224]
我々は、長いテキスト上での自然言語理解のためのゼロショットベンチマークであるZeroSCROLLSを紹介する。
SCROLLSベンチマークから6つのタスクを適応させ、新しい2つの情報拡散タスクを含む4つのデータセットを追加します。
クロードはChatGPTより優れており、GPT-4は最高スコアを得る。
論文 参考訳(メタデータ) (2023-05-23T16:15:31Z) - The CoT Collection: Improving Zero-shot and Few-shot Learning of
Language Models via Chain-of-Thought Fine-Tuning [50.75534397373867]
100B未満のパラメータを持つ言語モデル(LM)は、チェーン・オブ・ソート(CoT)の推論では不十分であることが知られている。
本研究は,CoTの有理量を用いた命令チューニングにより,段階的推論機能を備えた小型LMを実現することを目的とする。
論文 参考訳(メタデータ) (2023-05-23T13:14:59Z) - Faithful Chain-of-Thought Reasoning [51.21714389639417]
CoT(Chain-of-Thought)は言語モデル(LM)のパフォーマンスを様々な推論タスクで向上させる。
翻訳と問題解決という2つの段階を含む推論フレームワークであるFithful CoTを提案する。
このことは、推論連鎖が最終回答の忠実な説明を提供することを保証している。
論文 参考訳(メタデータ) (2023-01-31T03:04:26Z) - News Summarization and Evaluation in the Era of GPT-3 [73.48220043216087]
GPT-3は,大規模な要約データセット上で訓練された微調整モデルと比較する。
我々は,GPT-3サマリーが圧倒的に好まれるだけでなく,タスク記述のみを用いることで,現実性に乏しいようなデータセット固有の問題に悩まされることも示している。
論文 参考訳(メタデータ) (2022-09-26T01:04:52Z) - What Makes Good In-Context Examples for GPT-$3$? [101.99751777056314]
GPT-$3$はNLPタスクの広い範囲でその優れた性能のために多くの注目を集めています。
その成功にもかかわらず、我々はGPT-$3$の実証結果が文脈内例の選択に大きく依存していることを発見した。
本研究では,文脈内事例を適切に選択するためのより効果的な戦略が存在するかを検討する。
論文 参考訳(メタデータ) (2021-01-17T23:38:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。