論文の概要: Mind meets machine: Unravelling GPT-4's cognitive psychology
- arxiv url: http://arxiv.org/abs/2303.11436v1
- Date: Mon, 20 Mar 2023 20:28:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-22 17:26:45.088547
- Title: Mind meets machine: Unravelling GPT-4's cognitive psychology
- Title(参考訳): mind meets machine: gpt-4の認知心理学を解き放つ
- Authors: Sifatkaur, Manmeet Singh, Vaisakh SB, Neetiraj Malviya
- Abstract要約: GPT-4は,常識的質問に対する回答において高い精度を示すことを示す。
本研究は,CommonSenseQAにおけるGPT-4の精度が83 %であり,同一データに対するヒトの精度が89 %であることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Commonsense reasoning is a basic ingredient of intelligence in humans,
empowering the ability to deduce conclusions based on the observations of
surroundings. Large language models (LLMs) are emerging as potent tools
increasingly capable of performing human-level tasks. The recent development in
the form of GPT-4 and its demonstrated success in tasks complex to humans such
as medical exam, bar exam and others has led to an increased confidence in the
LLMs to become perfect instruments of intelligence. Though, the GPT-4 paper has
shown performance on some common sense reasoning tasks, a comprehensive
assessment of GPT-4 on common sense reasoning tasks, particularly on the
existing well-established datasets is missing. In this study, we focus on the
evaluation of GPT-4's performance on a set of common sense reasoning questions
from the widely used CommonsenseQA dataset along with tools from cognitive
psychology. In doing so, we understand how GPT-4 processes and integrates
common sense knowledge with contextual information, providing insight into the
underlying cognitive processes that enable its ability to generate common sense
responses. We show that GPT-4 exhibits a high level of accuracy in answering
common sense questions, outperforming its predecessor, GPT-3 and GPT-3.5. We
show that the accuracy of GPT-4 on CommonSenseQA is 83 % and it has been shown
in the original study that human accuracy over the same data was 89 %.
Although, GPT-4 falls short of the human performance, it is a substantial
improvement from the original 56.5 % in the original language model used by the
CommonSenseQA study. Our results strengthen the already available assessments
and confidence on GPT-4's common sense reasoning abilities which have
significant potential to revolutionize the field of AI, by enabling machines to
bridge the gap between human and machine reasoning.
- Abstract(参考訳): 常識推論は人間の知性の基本的な要素であり、周囲の観察に基づいて結論を導出する能力を高める。
大規模言語モデル(llm)は、人間レベルのタスクを実行するための強力なツールとして登場している。
GPT-4の形での最近の発展と、医学試験、司法試験などの人間にとって複雑なタスクの成功により、LSMが完全な知能の道具になるという自信が高まりつつある。
GPT-4論文は、いくつかの常識推論タスクのパフォーマンスを示したが、一般的な感覚推論タスク、特に既存の確立されたデータセットに関する総合的な評価は欠落している。
本研究では,認知心理学のツールとともに,広く使用されているCommonsenseQAデータセットからの質問に対する共通感覚に基づくGPT-4の性能評価に焦点を当てた。
そこで我々は,GPT-4が共通感覚知識をどのように処理し,文脈情報と統合するかを理解し,共通感覚応答を生成できる認知過程の理解を提供する。
GPT-4 は,従来の GPT-3 や GPT-3.5 よりも高い精度で解答できることを示す。
本研究は,CommonSenseQAにおけるGPT-4の精度が83 %であり,同一データに対するヒトの精度が89 %であることを示す。
GPT-4は人間のパフォーマンスに劣っているが、CommonSenseQA研究で使われている元の言語モデルの56.5%から大幅に改善されている。
我々の結果は、機械が人間と機械の推論のギャップを埋めることによって、AIの分野に革命をもたらす大きな可能性を持つGPT-4の常識推論能力に対する、既に利用可能な評価と信頼性を強化する。
関連論文リスト
- Metacognitive Monitoring: A Human Ability Beyond Generative Artificial Intelligence [0.0]
大規模言語モデル(LLM)は、人間の認知過程と顕著に一致している。
本研究は,ChatGPTがヒトに類似したメタ認知モニタリング能力を持っているかを検討する。
論文 参考訳(メタデータ) (2024-10-17T09:42:30Z) - GPT as Psychologist? Preliminary Evaluations for GPT-4V on Visual Affective Computing [74.68232970965595]
MLLM(Multimodal large language model)は、テキスト、音声、画像、ビデオなどの複数のソースからの情報を処理し、統合するように設計されている。
本稿では、視覚的情緒的タスクと推論タスクにまたがる5つの重要な能力を持つMLLMの適用性を評価する。
論文 参考訳(メタデータ) (2024-03-09T13:56:25Z) - PsychoGAT: A Novel Psychological Measurement Paradigm through Interactive Fiction Games with LLM Agents [68.50571379012621]
心理的な測定は、精神健康、自己理解、そして個人の発達に不可欠である。
心理学ゲームAgenT(サイコガト)は、信頼性、収束妥当性、差別的妥当性などの心理学的指標において統計的に有意な卓越性を達成している。
論文 参考訳(メタデータ) (2024-02-19T18:00:30Z) - Can generative AI and ChatGPT outperform humans on cognitive-demanding
problem-solving tasks in science? [1.1172147007388977]
本研究は,2019年のNAEP科学評価におけるChatGPTとGPT-4の性能を,各項目の認知的要求によって比較した。
その結果、ChatGPTとGPT-4は、NAEPの科学評価に回答したほとんどの生徒より一貫して優れていた。
論文 参考訳(メタデータ) (2024-01-07T12:36:31Z) - Human-Like Intuitive Behavior and Reasoning Biases Emerged in Language
Models -- and Disappeared in GPT-4 [0.0]
大型言語モデル (LLM) は人間の直感に類似した行動を示す。
また、直感的な意思決定の傾向がいかに頑丈かも調べる。
論文 参考訳(メタデータ) (2023-06-13T08:43:13Z) - Machine Psychology [54.287802134327485]
我々は、心理学にインスパイアされた行動実験において、研究のための実りある方向が、大きな言語モデルに係わっていると論じる。
本稿では,本手法が表に示す理論的視点,実験パラダイム,計算解析技術について述べる。
これは、パフォーマンスベンチマークを超えた、生成人工知能(AI)のための「機械心理学」の道を開くものだ。
論文 参考訳(メタデータ) (2023-03-24T13:24:41Z) - Sparks of Artificial General Intelligence: Early experiments with GPT-4 [66.1188263570629]
OpenAIが開発したGPT-4は、前例のない規模の計算とデータを使って訓練された。
我々は, GPT-4が数学, コーディング, ビジョン, 医学, 法学, 心理学などにまたがる, 新規で困難な課題を解くことを実証した。
我々は、GPT-4を人工知能(AGI)システムの早期(まだ未完成)版と見なすことができると信じている。
論文 参考訳(メタデータ) (2023-03-22T16:51:28Z) - Neural Theory-of-Mind? On the Limits of Social Intelligence in Large LMs [77.88043871260466]
私たちは、今日の最大の言語モデルのひとつに、このようなソーシャルインテリジェンスを最初から欠いていることを示しています。
我々は、人中心のNLPアプローチは、マインドの神経理論に対してより効果的であるかもしれないと結論づける。
論文 参考訳(メタデータ) (2022-10-24T14:58:58Z) - Using cognitive psychology to understand GPT-3 [0.0]
我々は認知心理学のツールを用いて,近年の大規模言語モデルであるGPT-3を研究した。
我々は, GPT-3の意思決定, 情報探索, 検討, 因果推論能力を評価する。
論文 参考訳(メタデータ) (2022-06-21T20:06:03Z) - AGENT: A Benchmark for Core Psychological Reasoning [60.35621718321559]
直観心理学は、観察可能な行動を駆動する隠された精神変数を推論する能力です。
他のエージェントを推論する機械エージェントに対する近年の関心にもかかわらず、そのようなエージェントが人間の推論を駆動するコア心理学の原則を学ぶか保持するかは明らかではない。
本稿では,プロシージャが生成する3dアニメーション,エージェントを4つのシナリオで構成したベンチマークを提案する。
論文 参考訳(メタデータ) (2021-02-24T14:58:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。