論文の概要: Can generative AI and ChatGPT outperform humans on cognitive-demanding
problem-solving tasks in science?
- arxiv url: http://arxiv.org/abs/2401.15081v1
- Date: Sun, 7 Jan 2024 12:36:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-04 05:33:43.324027
- Title: Can generative AI and ChatGPT outperform humans on cognitive-demanding
problem-solving tasks in science?
- Title(参考訳): ジェネレーティブAIとChatGPTは、科学における認知要求問題解決タスクにおいて人間より優れているか?
- Authors: Xiaoming Zhai, Matthew Nyaaba, and Wenchao Ma
- Abstract要約: 本研究は,2019年のNAEP科学評価におけるChatGPTとGPT-4の性能を,各項目の認知的要求によって比較した。
その結果、ChatGPTとGPT-4は、NAEPの科学評価に回答したほとんどの生徒より一貫して優れていた。
- 参考スコア(独自算出の注目度): 1.1172147007388977
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This study aimed to examine an assumption that generative artificial
intelligence (GAI) tools can overcome the cognitive intensity that humans
suffer when solving problems. We compared the performance of ChatGPT and GPT-4
on 2019 NAEP science assessments with students by cognitive demands of the
items. Fifty-four tasks were coded by experts using a two-dimensional cognitive
load framework, including task cognitive complexity and dimensionality. ChatGPT
and GPT-4 responses were scored using the scoring keys of NAEP. The analysis of
the available data was based on the average student ability scores for students
who answered each item correctly and the percentage of students who responded
to individual items. Results showed that both ChatGPT and GPT-4 consistently
outperformed most students who answered the NAEP science assessments. As the
cognitive demand for NAEP tasks increases, statistically higher average student
ability scores are required to correctly address the questions. This pattern
was observed for students in grades 4, 8, and 12, respectively. However,
ChatGPT and GPT-4 were not statistically sensitive to the increase in cognitive
demands of the tasks, except for Grade 4. As the first study focusing on
comparing GAI and K-12 students in problem-solving in science, this finding
implies the need for changes to educational objectives to prepare students with
competence to work with GAI tools in the future. Education ought to emphasize
the cultivation of advanced cognitive skills rather than depending solely on
tasks that demand cognitive intensity. This approach would foster critical
thinking, analytical skills, and the application of knowledge in novel
contexts. Findings also suggest the need for innovative assessment practices by
moving away from cognitive intensity tasks toward creativity and analytical
skills to avoid the negative effects of GAI on testing more efficiently.
- Abstract(参考訳): 本研究の目的は、生成人工知能(GAI)ツールが、問題解決において人間が苦しむ認知的強度を克服できるという仮定を検討することである。
2019年のNAEPにおけるChatGPTとGPT-4のパフォーマンスを,各項目の認知的要求によって比較した。
タスク認知の複雑さと次元性を含む2次元認知負荷フレームワークを使用して、専門家が25のタスクをコーディングした。
NAEPのスコアキーを用いてChatGPTとGPT-4の応答を測定した。
利用可能なデータの解析は、各項目に正しく回答した学生の平均学生能力スコアと、個々の項目に回答した学生の割合に基づいて行われた。
その結果、ChatGPTとGPT-4は、NAEPの科学評価に回答したほとんどの生徒より一貫して優れていた。
naepタスクの認知的要求が増加するにつれて、統計的に平均的な学生能力スコアが要求される。
このパターンは4年生,8年生,12年生にそれぞれ観察された。
しかし、chatgpt と gpt-4 は、グレード4 を除いて、タスクの認知的要求の増加に対して統計的に敏感ではなかった。
科学における問題解決におけるGAIとK-12の学生の比較に焦点をあてた最初の研究として、この発見は、将来、GAIツールを扱う能力を持つ学生を準備するための教育目的の変更の必要性を示唆している。
教育は、認知の強度を必要とするタスクのみに依存するのではなく、高度な認知スキルの育成を強調すべきである。
このアプローチは批判的思考、分析的スキル、新しい文脈における知識の応用を促進する。
発見はまた、より効率的なテストにおけるGAIのネガティブな影響を避けるために、認知力タスクから創造性や分析スキルに移行することで、革新的な評価プラクティスの必要性も示唆している。
関連論文リスト
- ConSiDERS-The-Human Evaluation Framework: Rethinking Human Evaluation for Generative Large Language Models [53.00812898384698]
生成型大規模言語モデル(LLM)の人間による評価は多分野にわたる作業であるべきだと論じる。
認知バイアスが、流動的な情報や真理をいかに説明するか、そして、認識の不確実性が、Likertのような評価スコアの信頼性にどのように影響するかを強調します。
本稿では,ConSiDERS-The-Human評価フレームワークを提案する。一貫性, Scoring Critera, Differentiating, User Experience, Responsible, Scalabilityの6つの柱からなる。
論文 参考訳(メタデータ) (2024-05-28T22:45:28Z) - GPT as Psychologist? Preliminary Evaluations for GPT-4V on Visual Affective Computing [74.68232970965595]
MLLM(Multimodal large language model)は、テキスト、音声、画像、ビデオなどの複数のソースからの情報を処理し、統合するように設計されている。
本稿では、視覚的情緒的タスクと推論タスクにまたがる5つの重要な能力を持つMLLMの適用性を評価する。
論文 参考訳(メタデータ) (2024-03-09T13:56:25Z) - LLM Agents for Psychology: A Study on Gamified Assessments [71.08193163042107]
心理的な測定は、精神健康、自己理解、そして個人の発達に不可欠である。
心理学ゲームAgenT(サイコガト)は、信頼性、収束妥当性、差別的妥当性などの心理学的指標において統計的に有意な卓越性を達成している。
論文 参考訳(メタデータ) (2024-02-19T18:00:30Z) - Student Mastery or AI Deception? Analyzing ChatGPT's Assessment
Proficiency and Evaluating Detection Strategies [1.633179643849375]
ChatGPTのような生成AIシステムは、学習と評価に破壊的な影響を及ぼす。
本研究では,ChatGPTを3つのコースに分けて評価することで,ChatGPTの性能を評価する。
論文 参考訳(メタデータ) (2023-11-27T20:10:13Z) - Large Language Models Understand and Can be Enhanced by Emotional
Stimuli [53.53886609012119]
我々は、感情的な刺激を理解するために、大規模言語モデルの能力を探究する第一歩を踏み出す。
実験の結果,LLMは感情的知能を把握でき,その性能は感情的刺激によって改善できることがわかった。
EmotionPromptが生成タスクの性能を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2023-07-14T00:57:12Z) - Comparative Analysis of GPT-4 and Human Graders in Evaluating Praise
Given to Students in Synthetic Dialogues [2.3361634876233817]
AIチャットボットChatGPTのような大規模な言語モデルは、実践的な設定で家庭教師に建設的なフィードバックを提供する可能性を秘めている。
AIが生成したフィードバックの正確性はまだ不明であり、ChatGPTのようなモデルが効果的なフィードバックを提供する能力について研究している。
論文 参考訳(メタデータ) (2023-07-05T04:14:01Z) - Efficiently Measuring the Cognitive Ability of LLMs: An Adaptive Testing
Perspective [63.92197404447808]
大きな言語モデル(LLM)は、人間のような認知能力を示している。
LLM評価のための適応テストフレームワークを提案する。
このアプローチは、モデルの性能に基づいて、難易度などのテスト問題の特徴を動的に調整する。
論文 参考訳(メタデータ) (2023-06-18T09:54:33Z) - Game of Tones: Faculty detection of GPT-4 generated content in
university assessments [0.0]
本研究では,Open AIのGene-Trained Transformerの使用に対する大学評価の堅牢性について検討する。
人工知能(AI)検出ツールによって支援された場合、学術スタッフがその使用を検出する能力を評価する。
論文 参考訳(メタデータ) (2023-05-29T13:31:58Z) - Sparks of Artificial General Intelligence: Early experiments with GPT-4 [66.1188263570629]
OpenAIが開発したGPT-4は、前例のない規模の計算とデータを使って訓練された。
我々は, GPT-4が数学, コーディング, ビジョン, 医学, 法学, 心理学などにまたがる, 新規で困難な課題を解くことを実証した。
我々は、GPT-4を人工知能(AGI)システムの早期(まだ未完成)版と見なすことができると信じている。
論文 参考訳(メタデータ) (2023-03-22T16:51:28Z) - Mind meets machine: Unravelling GPT-4's cognitive psychology [0.7302002320865727]
大規模言語モデル(LLM)は、人間レベルのタスクを実行する能力がますます高まっている強力なツールとして出現している。
本研究は,CommonsenseQA, SuperGLUE, MATH, HANSなどのデータセットにおけるGPT-4の性能評価に焦点を当てた。
GPT-4は,従来の最先端モデルと比較して認知心理学的タスクにおいて高い精度を示すことを示す。
論文 参考訳(メタデータ) (2023-03-20T20:28:26Z) - ChatGPT: Jack of all trades, master of none [4.693597927153063]
OpenAIはChat Generative Pre-trained Transformer (ChatGPT)をリリースした。
25種類のNLPタスクにおけるChatGPTの機能について検討した。
われわれはChatGPTとGPT-4のプロンプト処理を自動化し,49k以上の応答を解析した。
論文 参考訳(メタデータ) (2023-02-21T15:20:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。