論文の概要: Better by you, better than me, chatgpt3 as writing assistance in
students essays
- arxiv url: http://arxiv.org/abs/2302.04536v2
- Date: Tue, 31 Oct 2023 10:16:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-02 04:10:07.429247
- Title: Better by you, better than me, chatgpt3 as writing assistance in
students essays
- Title(参考訳): 学生エッセイの執筆支援として、私よりも、あなたの方が良い。
- Authors: Zeljana Basic and Ana Banovac and Ivana Kruzic and Ivan Jerkovic
- Abstract要約: 本研究は,ChatGPT-3を筆記補助具として使用するか否かを,学生のエッセイの筆記成績と比較した。
影響を受けるエッセイの予測者はいずれも、グループ、執筆期間、モジュール、GPAである。
実験グループでは、AIはより潜在的なAI生成テキストを認識した。
- 参考スコア(独自算出の注目度): 13.518297878940665
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Aim: To compare students' essay writing performance with or without employing
ChatGPT-3 as a writing assistant tool. Materials and methods: Eighteen students
participated in the study (nine in control and nine in the experimental group
that used ChatGPT-3). We scored essay elements with grades (A-D) and
corresponding numerical values (4-1). We compared essay scores to students'
GPTs, writing time, authenticity, and content similarity. Results: Average
grade was C for both groups; for control (2.39, SD=0.71) and for experimental
(2.00, SD=0.73). None of the predictors affected essay scores: group (P=0.184),
writing duration (P=0.669), module (P=0.388), and GPA (P=0.532). The text
unauthenticity was slightly higher in the experimental group (11.87%, SD=13.45
to 9.96%, SD=9.81%), but the similarity among essays was generally low in the
overall sample (the Jaccard similarity index ranging from 0 to 0.054). In the
experimental group, AI classifier recognized more potential AI-generated texts.
Conclusions: This study found no evidence that using GPT as a writing tool
improves essay quality since the control group outperformed the experimental
group in most parameters.
- Abstract(参考訳): Aim: 学生のエッセイとChatGPT-3を筆記補助具として使用の有無を比較した。
資料と方法:18名の学生が本研究に参加した(チャットgpt-3を用いた実験群では9名,対照群では9名)。
次数 (a-d) と対応する数値 (4-1) でエッセイ要素を採点した。
我々は,エッセイスコアを学生のGPT,執筆時間,信頼性,内容類似度と比較した。
結果: 対照群 (2.39, SD=0.71) と実験群 (2.00, SD=0.73) の2群ともC群であった。
グループ (p=0.184), 筆記期間 (p=0.669), モジュール (p=0.388), gpa (p=0.532) などである。
テキストの精度は実験群でわずかに高かった(11.87%、SD=13.45から9.96%、SD=9.81%)が、エッセイの類似性は概して低い(ジャカード類似度指数は0から0.054)。
実験グループでは、AI分類器がより潜在的なAI生成テキストを認識した。
結論: 本研究は, gptを筆記ツールとして用いると, 操作群がほとんどのパラメータで実験群を上回っていたため, エッセイ品質が向上する証拠は見いだされなかった。
関連論文リスト
- Evaluating the Predictive Capacity of ChatGPT for Academic Peer Review Outcomes Across Multiple Platforms [3.3543455244780223]
本稿では2つの新しい文脈を導入し、より堅牢な方法である複数のChatGPTスコアを平均化する。
平均的な30のChatGPT予測は、レビュアーガイドラインに基づいて、提出されたタイトルと要約のみを用いて、F1000Researchのピアレビュー結果の予測に失敗した。
論文 参考訳(メタデータ) (2024-11-14T19:20:33Z) - Evaluating Research Quality with Large Language Models: An Analysis of ChatGPT's Effectiveness with Different Settings and Inputs [3.9627148816681284]
本稿では、どのChatGPT入力がより良い品質スコア推定をもたらすかを評価する。
最適な入力は記事のタイトルと抽象であり、平均的なChatGPTスコアは人間のスコアと0.67と相関している。
論文 参考訳(メタデータ) (2024-08-13T09:19:21Z) - A comparison of Human, GPT-3.5, and GPT-4 Performance in a University-Level Coding Course [0.0]
そこで本研究では,学習者のみに対するChatGPT変種であるGPT-3.5とGPT-4の性能評価を行った。
学生の平均は91.9%(SE:0.4)で、AI応募の最高水準、即興エンジニアリングのGPT-4を上回り、81.1%(SE:0.8)と統計的に有意な差(p = 2.482×10-10$)を示した。
盲目マーカーは、Definitely の 4-point Likert スケールで、提出書の著者を推測する作業であった。
論文 参考訳(メタデータ) (2024-03-25T17:41:02Z) - Can ChatGPT evaluate research quality? [3.9627148816681284]
ChatGPT-4 は、REF の基準に適合する文書要約と品質評価の根拠を生成することができる。
全体として、ChatGPTは正式な研究品質評価タスクや非公式な研究品質評価タスクを信頼できるほど正確ではないようである。
論文 参考訳(メタデータ) (2024-02-08T10:00:40Z) - Is GPT-4 a reliable rater? Evaluating Consistency in GPT-4 Text Ratings [63.35165397320137]
本研究では,OpenAI の GPT-4 によるフィードバック評価の整合性について検討した。
このモデルは、マクロ経済学の上級教育分野における課題に対する回答を、内容とスタイルの観点から評価した。
論文 参考訳(メタデータ) (2023-08-03T12:47:17Z) - AI, write an essay for me: A large-scale comparison of human-written
versus ChatGPT-generated essays [66.36541161082856]
ChatGPTや同様の生成AIモデルは、何億人ものユーザーを惹きつけている。
本研究は,ChatGPTが生成した議論的学生エッセイと比較した。
論文 参考訳(メタデータ) (2023-04-24T12:58:28Z) - Exploring the Use of Large Language Models for Reference-Free Text
Quality Evaluation: An Empirical Study [63.27346930921658]
ChatGPTは、参照なしで様々な視点からテキスト品質を効果的に評価することができる。
ChatGPTを用いてテキスト品質を測定するExplicit Scoreは、3つの手法の中で最も効果的で信頼性の高い方法である。
論文 参考訳(メタデータ) (2023-04-03T05:29:58Z) - Is ChatGPT a Good NLG Evaluator? A Preliminary Study [121.77986688862302]
NLG測定値として信頼性を示すため,ChatGPTのメタ評価を行った。
実験の結果,ChatGPTは従来の自動測定値と比較して,人間の判断と最先端あるいは競合的な相関を達成できた。
我々の予備研究は、汎用的な信頼性のあるNLGメトリックの出現を促すことを願っている。
論文 参考訳(メタデータ) (2023-03-07T16:57:20Z) - News Summarization and Evaluation in the Era of GPT-3 [73.48220043216087]
GPT-3は,大規模な要約データセット上で訓練された微調整モデルと比較する。
我々は,GPT-3サマリーが圧倒的に好まれるだけでなく,タスク記述のみを用いることで,現実性に乏しいようなデータセット固有の問題に悩まされることも示している。
論文 参考訳(メタデータ) (2022-09-26T01:04:52Z) - Journal Impact Factor and Peer Review Thoroughness and Helpfulness: A
Supervised Machine Learning Study [52.77024349608834]
ジャーナルインパクトファクタ(JIF)は、しばしばジャーナルの品質と、ジャーナルに提出された論文のピアレビューの品質と等価である。
医学・生命科学雑誌1,644誌に1万件の査読報告を提出し, 査読内容とJIFとの関連性を検討した。
論文 参考訳(メタデータ) (2022-07-20T11:14:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。