Fugu-MT 論文翻訳(概要): Applying Large Language Models and Chain-of-Thought for Automatic Scoring

論文の概要: Applying Large Language Models and Chain-of-Thought for Automatic Scoring

arxiv url: http://arxiv.org/abs/2312.03748v2
Date: Fri, 16 Feb 2024 19:47:48 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-21 04:23:19.874411
Title: Applying Large Language Models and Chain-of-Thought for Automatic Scoring
Title（参考訳）: 自動スコアリングのための大規模言語モデルとチェーン・オブ・マインドの適用
Authors: Gyeong-Geon Lee, Ehsan Latif, Xuansheng Wu, Ninghao Liu, and Xiaoming Zhai
Abstract要約: 本研究では,大規模言語モデル(LLM)の学生による科学評価に対する応答の自動評価への適用について検討した。我々は、これまで人工知能ベースの自動スコアリングツールの使用を制限していたアクセシビリティ、技術的複雑さ、説明可能性の欠如といった課題を克服することに注力した。
参考スコア（独自算出の注目度）: 23.076596289069506
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: This study investigates the application of large language models (LLMs), specifically GPT-3.5 and GPT-4, with Chain-of-Though (CoT) in the automatic scoring of student-written responses to science assessments. We focused on overcoming the challenges of accessibility, technical complexity, and lack of explainability that have previously limited the use of artificial intelligence-based automatic scoring tools among researchers and educators. With a testing dataset comprising six assessment tasks (three binomial and three trinomial) with 1,650 student responses, we employed six prompt engineering strategies to automatically score student responses. The six strategies combined zero-shot or few-shot learning with CoT, either alone or alongside item stem and scoring rubrics. Results indicated that few-shot (acc = .67) outperformed zero-shot learning (acc = .60), with 12.6% increase. CoT, when used without item stem and scoring rubrics, did not significantly affect scoring accuracy (acc = .60). However, CoT prompting paired with contextual item stems and rubrics proved to be a significant contributor to scoring accuracy (13.44% increase for zero-shot; 3.7% increase for few-shot). We found a more balanced accuracy across different proficiency categories when CoT was used with a scoring rubric, highlighting the importance of domain-specific reasoning in enhancing the effectiveness of LLMs in scoring tasks. We also found that GPT-4 demonstrated superior performance over GPT -3.5 in various scoring tasks when combined with the single-call greedy sampling or ensemble voting nucleus sampling strategy, showing 8.64% difference. Particularly, the single-call greedy sampling strategy with GPT-4 outperformed other approaches.
Abstract（参考訳）: 本研究では,gpt-3.5およびgpt-4を用いた大規模言語モデル(llms)の理科評価に対する学生書面応答の自動スコアリングにおける適用について検討した。我々は、研究者や教育者の間で人工知能ベースの自動採点ツールの使用を制限したアクセシビリティ、技術的な複雑さ、説明可能性の欠如といった課題を克服することに焦点を当てた。 6つの評価タスク(二項と三項)と1,650人の学生の回答からなるテストデータセットを用いて,学生の回答を自動スコアリングするために6つのプロンプトエンジニアリング戦略を採用した。 6つの戦略は、単発またはアイテムのstemと並行して、ゼロショットまたは少数ショットの学習をcotと組み合わせた。その結果、少ショット(acc = .67)はゼロショット学習(acc = .60)を上回っ、12.6%増加した。 CoTは、アイテムステムとスコアリングルーリックなしで使用される場合、スコアリング精度(acc = .60)に大きな影響を与えなかった。しかし、コンテクストアイテムのstemとrubricsを組み合わせることでスコアリング精度が向上した(ゼロショットでは13.44%増、少数ショットでは3.7%増)。 cotをスコアリング用ルーブリックで使用した際,各カテゴリ間でよりバランスの取れた精度を示し,スコアリングタスクにおけるllmの有効性を高める上で,ドメイン固有の推論の重要性を強調した。また, GPT-4は, 単発グリーディサンプリングやアンサンブル投票核サンプリングと組み合わせることで, GPT-3.5よりも優れた性能を示し, 8.64%の差を示した。特に, GPT-4を用いた単発グリーディサンプリングは, 他の手法よりも優れていた。

関連論文リスト

Benchmarking Reasoning Robustness in Large Language Models [76.79744000300363]
新規データや不完全データでは,性能が著しく低下することがわかった。これらの結果は、厳密な論理的推論に対するリコールへの依存を浮き彫りにした。本稿では,情報不足によって引き起こされる幻覚を利用して推論ギャップを明らかにする,Math-RoBと呼ばれる新しいベンチマークを提案する。
論文参考訳（メタデータ） (2025-03-06T15:36:06Z)
Towards Scalable Automated Grading: Leveraging Large Language Models for Conceptual Question Evaluation in Engineering [5.160473221022088]
本研究では,大言語モデル(LLM)を用いた概念質問の自動評価の実現可能性について検討する。テキサスA&M大学における MEEN 361 コースの10クイズ問題に対して GPT-4o の成績を比較した。解析の結果, GPT-4o は評価基準が単純だが, ニュアンス解答に苦慮していることが明らかとなった。
論文参考訳（メタデータ） (2024-11-06T04:41:13Z)
How Effectively Do LLMs Extract Feature-Sentiment Pairs from App Reviews? [2.218667838700643]
本研究は,GPT-4,ChatGPT,およびLlama-2チャットの異なる変種を含む最先端LLMの性能を比較した。肯定的な感情と中立的な感情を予測するため、GPT-4は0ショット設定でf1スコアの76%と45%を達成している。
論文参考訳（メタデータ） (2024-09-11T10:21:13Z)
Evaluating Large Language Models on Spatial Tasks: A Multi-Task Benchmarking Study [4.80612909282198]
本研究では,新しいマルチタスク空間評価データセットを提案する。データセットは、空間的理解と経路計画を含む12の異なるタスクタイプを含む。この研究は、特定のタスクにおけるモデルパフォーマンスに対する迅速な戦略の影響を強調している。
論文参考訳（メタデータ） (2024-08-26T17:25:16Z)
Networks of Networks: Complexity Class Principles Applied to Compound AI Systems Design [63.24275274981911]
多くの言語モデル推論コールからなる複合AIシステムは、ますます採用されている。本研究では,提案した回答の生成と正当性検証の区別を中心に,ネットワークネットワーク(NoN)と呼ばれるシステムを構築した。我々は,Kジェネレータを備えた検証器ベースの判定器NoNを導入し,"Best-of-K"あるいは"judge-based"複合AIシステムのインスタンス化を行う。
論文参考訳（メタデータ） (2024-07-23T20:40:37Z)
Advancing LLM Reasoning Generalists with Preference Trees [119.57169648859707]
推論に最適化された大規模言語モデル(LLM)のスイートであるEulusを紹介する。 Eurusモデルは、様々なベンチマークでオープンソースのモデルの間で最先端の結果を得る。
論文参考訳（メタデータ） (2024-04-02T16:25:30Z)
Fine-tuning ChatGPT for Automatic Scoring [1.4833692070415454]
本研究は,構築された応答を自動的に評価するための微調整ChatGPT (GPT3.5) の可能性を明らかにする。細調整 GPT-3.5 と,Google が生成する言語モデル BERT を比較した。
論文参考訳（メタデータ） (2023-10-16T05:09:16Z)
Prompt Engineering or Fine Tuning: An Empirical Assessment of Large Language Models in Automated Software Engineering Tasks [8.223311621898983]
対話型プロンプトを持つ GPT-4 は, 自動プロンプト戦略を持つ GPT-4 に比べて劇的な改善を示した。完全に自動化されたプロンプトエンジニアリングループに人間はいないより多くの研究と改善が必要です
論文参考訳（メタデータ） (2023-10-11T00:21:00Z)
Is GPT-4 a reliable rater? Evaluating Consistency in GPT-4 Text Ratings [63.35165397320137]
本研究では,OpenAI の GPT-4 によるフィードバック評価の整合性について検討した。このモデルは、マクロ経済学の上級教育分野における課題に対する回答を、内容とスタイルの観点から評価した。
論文参考訳（メタデータ） (2023-08-03T12:47:17Z)
ZeroSCROLLS: A Zero-Shot Benchmark for Long Text Understanding [86.08738156304224]
我々は、長いテキスト上での自然言語理解のためのゼロショットベンチマークであるZeroSCROLLSを紹介する。 SCROLLSベンチマークから6つのタスクを適応させ、新しい2つの情報拡散タスクを含む4つのデータセットを追加します。クロードはChatGPTより優れており、GPT-4は最高スコアを得る。
論文参考訳（メタデータ） (2023-05-23T16:15:31Z)
Hint of Thought prompting: an explainable and zero-shot approach to reasoning tasks with LLMs [5.996787847938559]
本稿では、説明可能性とゼロショットの一般化を促進させる新しい思考ヒント(HoT)を提案する。説明可能なサブクエスト、論理的推論、答えの3つのステップに分けられる。実験の結果、HoTプロンプトは既存のゼロショットCoTと比較してゼロショット推論タスクにおいて大きな利点があることがわかった。
論文参考訳（メタデータ） (2023-05-19T06:30:17Z)
Progressive-Hint Prompting Improves Reasoning in Large Language Models [63.98629132836499]
本稿では,プログレッシブ・ヒント・プロンプト(PHP)と呼ばれる新しいプロンプト手法を提案する。事前に生成された回答をヒントとして使用することで、ユーザとLLM(Large Language Models)間の自動多元的対話を可能にする。我々は7つのベンチマークで広範囲かつ包括的な実験を行った。その結果、PHPは高い効率を保ちながら精度を大幅に向上することが示された。
論文参考訳（メタデータ） (2023-04-19T16:29:48Z)
Faithful Chain-of-Thought Reasoning [51.21714389639417]
CoT(Chain-of-Thought)は言語モデル(LM)のパフォーマンスを様々な推論タスクで向上させる。翻訳と問題解決という2つの段階を含む推論フレームワークであるFithful CoTを提案する。このことは、推論連鎖が最終回答の忠実な説明を提供することを保証している。
論文参考訳（メタデータ） (2023-01-31T03:04:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。