論文の概要: Learning gain differences between ChatGPT and human tutor generated
algebra hints
- arxiv url: http://arxiv.org/abs/2302.06871v1
- Date: Tue, 14 Feb 2023 07:20:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-15 16:11:59.808620
- Title: Learning gain differences between ChatGPT and human tutor generated
algebra hints
- Title(参考訳): chatgptと学習者生成代数学ヒントの学習利得差
- Authors: Zachary A. Pardos, Shreya Bhandari
- Abstract要約: 本研究は,ChatGPTの学習成績評価を行い,そのヒントの有効性と教師によるヒントとを比較した。
その結果,ChatGPTが生成したヒントの70%が手作業による品質チェックに合格し,人間とChatGPTの条件が正の学習効果をもたらすことがわかった。
- 参考スコア(独自算出の注目度): 4.438259529250529
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs), such as ChatGPT, are quickly advancing AI to
the frontiers of practical consumer use and leading industries to re-evaluate
how they allocate resources for content production. Authoring of open
educational resources and hint content within adaptive tutoring systems is
labor intensive. Should LLMs like ChatGPT produce educational content on par
with human-authored content, the implications would be significant for further
scaling of computer tutoring system approaches. In this paper, we conduct the
first learning gain evaluation of ChatGPT by comparing the efficacy of its
hints with hints authored by human tutors with 77 participants across two
algebra topic areas, Elementary Algebra and Intermediate Algebra. We find that
70% of hints produced by ChatGPT passed our manual quality checks and that both
human and ChatGPT conditions produced positive learning gains. However, gains
were only statistically significant for human tutor created hints. Learning
gains from human-created hints were substantially and statistically
significantly higher than ChatGPT hints in both topic areas, though ChatGPT
participants in the Intermediate Algebra experiment were near ceiling and not
even with the control at pre-test. We discuss the limitations of our study and
suggest several future directions for the field. Problem and hint content used
in the experiment is provided for replicability.
- Abstract(参考訳): ChatGPTのような大規模言語モデル(LLM)は、AIを実用的消費者利用のフロンティアへと急速に前進させ、業界をリードして、コンテンツ生産のためのリソースの割り当て方法を再評価している。
適応型学習システムにおいて、オープンな教育資源のオーサリングとヒントコンテンツは労働集約的である。
ChatGPTのようなLLMが、人間が書いたコンテンツと同等の教育コンテンツを制作すれば、コンピュータ・チュータリング・システム・アプローチのさらなる拡大に重要な意味を持つだろう。
本稿では,ChatGPTの学習ゲイン評価を行い,そのヒントの有効性を,2つの代数的話題領域(初等代数代数と中間代数)にまたがる77人の教師によるヒントと比較する。
その結果,ChatGPTが生成したヒントの70%が手作業による品質チェックに合格し,人間とChatGPTの条件が正の学習効果をもたらすことがわかった。
しかし、人間の教師がヒントを作成した場合、利得は統計的に有意であった。
中間代数学実験におけるchatgptの参加者は,事前テストで制御されてさえいなかったが,人間の作成したヒントから得られる学習成果は,どちらのトピック領域でもchatgptのヒントよりも大きく,統計的に有意に高かった。
本研究の限界を議論し,今後の方向性を示唆する。
実験で使用される問題とヒントは複製性のために提供される。
関連論文リスト
- Using ChatGPT for Science Learning: A Study on Pre-service Teachers'
Lesson Planning [0.7416846035207727]
本研究は,韓国の大学教員29名による授業計画について分析した。
授業計画では14種類の指導・学習方法・戦略が同定された。
本研究は,授業計画におけるChatGPTの適切な使用例と不適切な使用例の両方を同定した。
論文 参考訳(メタデータ) (2024-01-18T22:52:04Z) - Chatbots Are Not Reliable Text Annotators [0.0]
ChatGPTはクローズドソース製品で、透明性、コスト、データ保護に関して大きな欠点があります。
オープンソースの(OS)大規模言語モデル(LLM)の最近の進歩は、これらの課題を解決する代替手段を提供する。
論文 参考訳(メタデータ) (2023-11-09T22:28:14Z) - ChatGPT is not a pocket calculator -- Problems of AI-chatbots for
teaching Geography [0.11049608786515837]
ChatGPTは、評価の妥当性を脅かすため、不正である可能性がある。
地理とGIScienceの質問に回答する際のChatGPTの質に関する予備調査に基づいて,この仮定がかなり単純であることを実証した。
論文 参考訳(メタデータ) (2023-07-03T15:35:21Z) - Transformative Effects of ChatGPT on Modern Education: Emerging Era of
AI Chatbots [36.760677949631514]
ChatGPTは、大量のデータの分析に基づいて、一貫性と有用な応答を提供するためにリリースされた。
予備評価の結果,ChatGPTは財務,コーディング,数学など各分野において異なる性能を示した。
不正確なデータや偽データを生成する可能性など、その使用には明らかな欠点がある。
ChatGPTを教育のツールとして使用すれば、学術的規制と評価のプラクティスを更新する必要がある。
論文 参考訳(メタデータ) (2023-05-25T17:35:57Z) - ChatGPT Beyond English: Towards a Comprehensive Evaluation of Large
Language Models in Multilingual Learning [70.57126720079971]
大規模言語モデル(LLM)は、自然言語処理(NLP)において最も重要なブレークスルーとして登場した。
本稿では,高,中,低,低リソースの37言語を対象として,ChatGPTを7つのタスクで評価する。
従来のモデルと比較すると,様々なNLPタスクや言語に対するChatGPTの性能は低下していた。
論文 参考訳(メタデータ) (2023-04-12T05:08:52Z) - ChatGPT-Crawler: Find out if ChatGPT really knows what it's talking
about [15.19126287569545]
本研究では,異なる対話型QAコーパスからChatGPTが生成する応答について検討する。
この研究はBERT類似度スコアを用いて、これらの回答を正しい回答と比較し、自然言語推論(NLI)ラベルを得る。
調査では、ChatGPTが質問に対する誤った回答を提供し、モデルがエラーを起こしやすい領域について洞察を与えている事例を特定した。
論文 参考訳(メタデータ) (2023-04-06T18:42:47Z) - To ChatGPT, or not to ChatGPT: That is the question! [78.407861566006]
本研究は,ChatGPT検出における最新の手法を包括的かつ現代的に評価するものである。
我々は、ChatGPTと人間からのプロンプトからなるベンチマークデータセットをキュレートし、医療、オープンQ&A、ファイナンスドメインからの多様な質問を含む。
評価の結果,既存の手法ではChatGPT生成内容を効果的に検出できないことがわかった。
論文 参考訳(メタデータ) (2023-04-04T03:04:28Z) - Can ChatGPT Understand Too? A Comparative Study on ChatGPT and
Fine-tuned BERT [103.57103957631067]
チャットGPTは、人間の質問に対する流動的で高品質な応答を生成できるため、大きな注目を集めている。
そこで我々は,ChatGPTの理解能力を,最も人気のあるGLUEベンチマークで評価し,より詳細な4種類のBERTスタイルのモデルと比較した。
2)ChatGPTは,感情分析や質問応答タスクにおいて,BERTと同等のパフォーマンスを達成している。
論文 参考訳(メタデータ) (2023-02-19T12:29:33Z) - A Multitask, Multilingual, Multimodal Evaluation of ChatGPT on
Reasoning, Hallucination, and Interactivity [79.12003701981092]
8種類の共通NLPアプリケーションタスクをカバーする23のデータセットを用いてChatGPTの広範な技術的評価を行う。
これらのデータセットと、新たに設計されたマルチモーダルデータセットに基づいて、ChatGPTのマルチタスク、マルチリンガル、マルチモーダルの側面を評価する。
ChatGPTの精度は平均63.41%で、論理的推論、非テキスト的推論、コモンセンス推論の10の異なる推論カテゴリで正確である。
論文 参考訳(メタデータ) (2023-02-08T12:35:34Z) - Is ChatGPT a General-Purpose Natural Language Processing Task Solver? [113.22611481694825]
大規模言語モデル(LLM)は、さまざまな自然言語処理(NLP)タスクをゼロショットで実行できることを実証している。
近年、ChatGPTのデビューは自然言語処理(NLP)コミュニティから大きな注目を集めている。
ChatGPTが多くのNLPタスクをゼロショットで実行できるジェネラリストモデルとして機能するかどうかはまだ分かっていない。
論文 参考訳(メタデータ) (2023-02-08T09:44:51Z) - A Categorical Archive of ChatGPT Failures [47.64219291655723]
OpenAIが開発したChatGPTは、大量のデータを使って訓練され、人間の会話をシミュレートしている。
それは、広範囲の人間の問い合わせに効果的に答える能力のために、大きな注目を集めている。
しかし、ChatGPTの失敗の包括的分析は欠落しており、これが本研究の焦点となっている。
論文 参考訳(メタデータ) (2023-02-06T04:21:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。