論文の概要: Generative AI Takes a Statistics Exam: A Comparison of Performance between ChatGPT3.5, ChatGPT4, and ChatGPT4o-mini
- arxiv url: http://arxiv.org/abs/2501.09171v1
- Date: Wed, 15 Jan 2025 21:46:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-17 15:09:10.878481
- Title: Generative AI Takes a Statistics Exam: A Comparison of Performance between ChatGPT3.5, ChatGPT4, and ChatGPT4o-mini
- Title(参考訳): ジェネレーティブAI:ChatGPT3.5、ChatGPT4、ChatGPT4o-miniのパフォーマンスの比較
- Authors: Monnie McGee, Bivin Sadler,
- Abstract要約: 小学校1年生を対象に, GPT バージョン3.5, 4.0, 4o-mini の16質問統計試験において, GPT バージョン3.5, 4.0, 4o-mini の成績を検討した。
その結果, GPT3.5と4o-miniはいずれもGPT4と類似していることがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Many believe that use of generative AI as a private tutor has the potential to shrink access and achievement gaps between students and schools with abundant resources versus those with fewer resources. Shrinking the gap is possible only if paid and free versions of the platforms perform with the same accuracy. In this experiment, we investigate the performance of GPT versions 3.5, 4.0, and 4o-mini on the same 16-question statistics exam given to a class of first-year graduate students. While we do not advocate using any generative AI platform to complete an exam, the use of exam questions allows us to explore aspects of ChatGPT's responses to typical questions that students might encounter in a statistics course. Results on accuracy indicate that GPT 3.5 would fail the exam, GPT4 would perform well, and GPT4o-mini would perform somewhere in between. While we acknowledge the existence of other Generative AI/LLMs, our discussion concerns only ChatGPT because it is the most widely used platform on college campuses at this time. We further investigate differences among the AI platforms in the answers for each problem using methods developed for text analytics, such as reading level evaluation and topic modeling. Results indicate that GPT3.5 and 4o-mini have characteristics that are more similar than either of them have with GPT4.
- Abstract(参考訳): 多くの人は、生成的AIを個人家庭教師として使うことは、豊富なリソースを持つ学生と少ないリソースを持つ学校のアクセスと達成のギャップを縮める可能性があると信じている。
ギャップを縮めることは、プラットフォームの有料バージョンと無料バージョンが同じ精度で実行する場合にのみ可能である。
本研究では,GPT バージョン3.5,4.0,4o-mini について,小学校1年生を対象にした16質問統計試験の結果について検討した。
我々は,任意の生成AIプラットフォームを用いて試験を完了することを推奨しないが,試験質問を使用することで,統計学コースで遭遇する可能性のある典型的な質問に対するChatGPTの応答の側面を探求することができる。
精度上の結果は、GPT3.5が試験に失敗し、GPT4が良好に動作し、GPT4o-miniが中間のどこかで機能することを示している。
我々は、他のジェネレーティブAI/LLMの存在を認めていますが、現時点で大学のキャンパスで最も広く使われているプラットフォームであるため、ChatGPTのみに関する議論を行います。
さらに、読解レベル評価やトピックモデリングなどのテキスト分析のために開発された手法を用いて、各問題に対する回答におけるAIプラットフォーム間の差異について検討する。
その結果, GPT3.5と4o-miniはいずれもGPT4と類似していることがわかった。
関連論文リスト
- Evaluating GPT-4 at Grading Handwritten Solutions in Math Exams [48.99818550820575]
我々は、最先端のマルチモーダルAIモデル、特にGPT-4oを利用して、大学レベルの数学試験に対する手書きの応答を自動的に評価する。
確率論試験における質問に対する実際の学生の反応を用いて, GPT-4oのスコアと, 様々なプロンプト技術を用いて, 人間の学級のスコアとの整合性を評価する。
論文 参考訳(メタデータ) (2024-11-07T22:51:47Z) - How Well Can LLMs Echo Us? Evaluating AI Chatbots' Role-Play Ability with ECHO [55.25989137825992]
チューリングテストに触発された評価フレームワークECHOを紹介する。
この枠組みは、人間と機械が生成した反応を区別するために、対象個人の知名度に係わる。
基礎モデルとして GPT-3.5 と GPT-4 の3つのロールプレイング LLM をECHO を用いて評価した。
論文 参考訳(メタデータ) (2024-04-22T08:00:51Z) - Constrained C-Test Generation via Mixed-Integer Programming [55.28927994487036]
本研究は,単語の最後の部分のみをギャップに変換する,クローズテスト(ギャップ充足運動)の形式であるC-テストを生成する新しい手法を提案する。
局所最適解を実現するために, ギャップサイズやギャップ配置の変化のみを考慮する従来の研究とは対照的に, 混合整数プログラミング(MIP)アプローチを提案する。
当社のコード、モデル、収集したデータは32の英語のC-Testで、それぞれ20のギャップ(3,200の個別のギャップ応答)をオープンソースライセンスで公開しています。
論文 参考訳(メタデータ) (2024-04-12T21:35:21Z) - Real Customization or Just Marketing: Are Customized Versions of Chat
GPT Useful? [0.0]
OpenAIは、自然言語のWebインターフェースでモデルを微調整する可能性をローンチした。
この研究は、OpenAIが最近立ち上げたカスタマイズされたGPTの可能性を評価することを目的としている。
論文 参考訳(メタデータ) (2023-11-27T15:46:15Z) - How is ChatGPT's behavior changing over time? [72.79311931941876]
2023年3月から6月にかけてのGPT-3.5およびGPT-4の評価を行った。
GPT-3.5とGPT-4の両方の性能と挙動は時間とともに大きく変化することがわかった。
論文 参考訳(メタデータ) (2023-07-18T06:56:08Z) - Perception, performance, and detectability of conversational artificial
intelligence across 32 university courses [15.642614735026106]
大学レベル32科目におけるChatGPTの成績を比較した。
また,ChatGPTの成績は,多くの科目における生徒の成績と同等であることがわかった。
このツールを使用する学生や、これを盗作として扱う教育者の間では、新たなコンセンサスが高まっている。
論文 参考訳(メタデータ) (2023-05-07T10:37:51Z) - ChatGPT-Crawler: Find out if ChatGPT really knows what it's talking
about [15.19126287569545]
本研究では,異なる対話型QAコーパスからChatGPTが生成する応答について検討する。
この研究はBERT類似度スコアを用いて、これらの回答を正しい回答と比較し、自然言語推論(NLI)ラベルを得る。
調査では、ChatGPTが質問に対する誤った回答を提供し、モデルがエラーを起こしやすい領域について洞察を与えている事例を特定した。
論文 参考訳(メタデータ) (2023-04-06T18:42:47Z) - Sparks of Artificial General Intelligence: Early experiments with GPT-4 [66.1188263570629]
OpenAIが開発したGPT-4は、前例のない規模の計算とデータを使って訓練された。
我々は, GPT-4が数学, コーディング, ビジョン, 医学, 法学, 心理学などにまたがる, 新規で困難な課題を解くことを実証した。
我々は、GPT-4を人工知能(AGI)システムの早期(まだ未完成)版と見なすことができると信じている。
論文 参考訳(メタデータ) (2023-03-22T16:51:28Z) - A Complete Survey on Generative AI (AIGC): Is ChatGPT from GPT-4 to
GPT-5 All You Need? [112.12974778019304]
生成AI(AIGC、つまりAI生成コンテンツ)は、テキスト、画像、その他を分析、作成する能力により、あらゆる場所で話題を呼んだ。
純粋な分析から創造へと移行するAIの時代において、ChatGPTは最新の言語モデルであるGPT-4とともに、多くのAIGCタスクからなるツールである。
本研究は,テキスト,画像,ビデオ,3Dコンテンツなど,出力タイプに基づいたAIGCタスクの技術的開発に焦点を当てている。
論文 参考訳(メタデータ) (2023-03-21T10:09:47Z) - ChatGPT: Jack of all trades, master of none [4.693597927153063]
OpenAIはChat Generative Pre-trained Transformer (ChatGPT)をリリースした。
25種類のNLPタスクにおけるChatGPTの機能について検討した。
われわれはChatGPTとGPT-4のプロンプト処理を自動化し,49k以上の応答を解析した。
論文 参考訳(メタデータ) (2023-02-21T15:20:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。