論文の概要: A Neuropsychologically Grounded Evaluation of LLM Cognitive Abilities
- arxiv url: http://arxiv.org/abs/2603.02540v1
- Date: Tue, 03 Mar 2026 02:54:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-04 21:38:10.607061
- Title: A Neuropsychologically Grounded Evaluation of LLM Cognitive Abilities
- Title(参考訳): LLM認知能力の神経心理学的評価
- Authors: Faiz Ghifari Haznitrama, Faeyza Rishad Ardi, Alice Oh,
- Abstract要約: 大規模言語モデル(LLM)は10ベンチマークで統一された「一般的な要素」の能力を示す。
本稿では,3つの適応型神経心理学検査を基礎としたNeuroCognitionベンチマークを紹介する。
評価の結果,モデルがテキスト上で強く機能する一方で,画像のパフォーマンスが低下し,複雑さが増していることが明らかとなった。
- 参考スコア(独自算出の注目度): 23.297279975389188
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Large language models (LLMs) exhibit a unified "general factor" of capability across 10 benchmarks, a finding confirmed by our factor analysis of 156 models, yet they still struggle with simple, trivial tasks for humans. This is because current benchmarks focus on task completion, failing to probe the foundational cognitive abilities that highlight these behaviors. We address this by introducing the NeuroCognition benchmark, grounded in three adapted neuropsychological tests: Raven's Progressive Matrices (abstract relational reasoning), Spatial Working Memory (maintenance and systematic search), and the Wisconsin Card Sorting Test (cognitive flexibility). Our evaluation reveals that while models perform strongly on text, their performance degrades for images and with increased complexity. Furthermore, we observe that complex reasoning is not universally beneficial, whereas simple, human-like strategies yield partial gains. We also find that NeuroCognition correlates positively with standard general-capability benchmarks, while still measuring distinct cognitive abilities beyond them. Overall, NeuroCognition emphasizes where current LLMs align with human-like intelligence and where they lack core adaptive cognition, showing the potential to serve as a verifiable, scalable source for improving LLMs.
- Abstract(参考訳): 大規模言語モデル(LLM)は、10のベンチマークで統一された「一般因子」の能力を示し、156のモデルの因子分析によって確認された。
これは、現在のベンチマークがタスクの完了に焦点を当てているためであり、これらの振る舞いを強調する基本的な認知能力の調査に失敗しているからだ。
我々は、Raven's Progressive Matrices (abstract relational reasoning), Spatial Working Memory (maintenance and systematic search), Wisconsin Card Sorting Test (cognitive flexibility)の3つの適応された神経心理学的テストに基づいて、NeuroCognitionベンチマークを導入することでこの問題に対処する。
評価の結果,モデルがテキスト上で強く機能する一方で,画像のパフォーマンスが低下し,複雑さが増していることが明らかとなった。
さらに、複雑な推論は普遍的に有益ではないが、単純で人間的な戦略は部分的な利得をもたらす。
また、NeuroCognitionは標準の汎用能力ベンチマークと正の相関を保ちながら、それら以外の認知能力も測定している。
全体として、NeuroCognitionは、現在のLLMが人間のような知性と整合し、中核的な適応認識が欠如していることを強調し、LLMを改善するための検証可能なスケーラブルなソースとして機能する可能性を示している。
関連論文リスト
- Metacognitive Sensitivity for Test-Time Dynamic Model Selection [0.0]
我々は、AIメタ認知を評価し、活用するための新しいフレームワークを提案する。
メタ認知感度の心理学的評価尺度「メタd」を導入し,モデルの信頼度がモデルの精度を確実に予測できるかを特徴付ける。
次に、この動的感度スコアを、テスト時間モデル選択を行うバンドベースのアービタのコンテキストとして使用する。
論文 参考訳(メタデータ) (2025-12-11T09:15:05Z) - Cognitive Foundations for Reasoning and Their Manifestation in LLMs [63.12951576410617]
大規模言語モデル(LLM)は複雑な問題を解くが、単純な変種では失敗し、人間の推論と根本的に異なるメカニズムによって正しい出力を達成することを示唆している。
我々は認知科学研究を、推論不変量、メタ認知制御、推論と知識の組織化のための表現、変換操作にまたがる28の認知要素の分類学に合成する。
複雑な問題に対して66.7%の性能向上を図り、成功構造を自動的に把握するテストタイム推論ガイダンスを開発した。
論文 参考訳(メタデータ) (2025-11-20T18:59:00Z) - Think Socially via Cognitive Reasoning [94.60442643943696]
本稿では,人間の社会的認知をモデルとした認知推論について紹介する。
CogFlowは、この機能をLLMに組み込む完全なフレームワークである。
論文 参考訳(メタデータ) (2025-09-26T16:27:29Z) - 11Plus-Bench: Demystifying Multimodal LLM Spatial Reasoning with Cognitive-Inspired Analysis [54.24689751375923]
本研究では,最先端MLLMの空間的推論能力を評価するためのシステム評価フレームワークを提案する。
14個のMLLMの実験と人間の評価により、現在のMLLMは空間認知の早期の兆候を示すことが明らかとなった。
これらの知見は,現在のMLLMの空間的推論能力の出現能力と限界の両方を浮き彫りにしている。
論文 参考訳(メタデータ) (2025-08-27T17:22:34Z) - Visual Large Language Models Exhibit Human-Level Cognitive Flexibility in the Wisconsin Card Sorting Test [5.346677002840565]
本研究では、最先端の視覚大言語モデル(VLLM)の認知的柔軟性を評価する。
以上の結果から,VLLMはテキストベースの入力によって,チェーン・オブ・シークレットの下で人間レベルのセットシフト能力を達成したり,超えたりすることが判明した。
論文 参考訳(メタデータ) (2025-05-28T08:40:55Z) - Language Models Are Capable of Metacognitive Monitoring and Control of Their Internal Activations [2.759846687681801]
大規模言語モデル(LLM)は、タスクの解決に実際に使用している戦略を報告することができるが、その振る舞いを管理する戦略を認識できない場合もある。
これはメタ認知(メタ認知)の程度が限定されていることを示唆している。
我々は,LLMのメタ認知能力の定量化と,その活性化パターンの報告と制御に,文脈内学習を用いた神経科学に着想を得た神経フィードバックパラダイムを導入する。
論文 参考訳(メタデータ) (2025-05-19T22:32:25Z) - Human Cognitive Benchmarks Reveal Foundational Visual Gaps in MLLMs [65.93003087656754]
VisFactorは、よく確立された認知心理学評価から20の視覚中心のサブテストをデジタル化するベンチマークである。
GPT、Gemini、Claude、LLaMA、Qwen、SEEDファミリーから20のフロンティアマルチモーダル言語モデル(MLLM)を評価する。
最高のパフォーマンスモデルは100点中25.19点のスコアしか得られず、精神的な回転、空間的関係推論、図形の識別といったタスクに一貫して失敗する。
論文 参考訳(メタデータ) (2025-02-23T04:21:32Z) - Kolb-Based Experiential Learning for Generalist Agents with Human-Level Kaggle Data Science Performance [81.05882480184587]
本稿では,自律エージェントに対するVygotskyのZPDを用いて,Kolbの学習サイクルの計算フレームワークを提案する。
Agent Kは、KolbとVygotskyにインスパイアされた人間の認知学習をうまく統合する第1のAIシステムである。
金9個、銀8個、銅12個で、メダル獲得競争で金4個、銀4個を含む。エージェントKは、コルブとヴィーゴツキーにインスパイアされた人間の認知学習をうまく統合する第1のAIシステムである。
論文 参考訳(メタデータ) (2024-11-05T23:55:23Z) - A Novel Supervised Contrastive Regression Framework for Prediction of
Neurocognitive Measures Using Multi-Site Harmonized Diffusion MRI
Tractography [13.80649748804573]
Supervised Contrastive Regression (SCR)は、回帰タスクにおけるコントラスト学習の完全な監視を可能にする、シンプルで効果的な方法である。
SCRは、連続回帰ラベルの絶対差を用いて教師付きコントラスト表現学習を行う。
SCRは、他の最先端手法と比較して、神経認知的スコア予測の精度を向上する。
論文 参考訳(メタデータ) (2022-10-13T23:24:12Z) - Modeling cognitive load as a self-supervised brain rate with
electroencephalography and deep learning [2.741266294612776]
本研究では,脳波データからメンタルワークロードをモデリングするための,新たな自己教師型手法を提案する。
脳波データからスペクトル地形図を空間的に保存して脳速度変数に適合させることができる畳み込みリカレントニューラルネットワークである。
学習した認知活性化の準安定なブロックの存在は、それらは畳み込みによって誘導され、時間とともに互いに依存していないように見えるため、脳反応の非定常的性質と直感的に一致している。
論文 参考訳(メタデータ) (2022-09-21T07:44:21Z) - AGENT: A Benchmark for Core Psychological Reasoning [60.35621718321559]
直観心理学は、観察可能な行動を駆動する隠された精神変数を推論する能力です。
他のエージェントを推論する機械エージェントに対する近年の関心にもかかわらず、そのようなエージェントが人間の推論を駆動するコア心理学の原則を学ぶか保持するかは明らかではない。
本稿では,プロシージャが生成する3dアニメーション,エージェントを4つのシナリオで構成したベンチマークを提案する。
論文 参考訳(メタデータ) (2021-02-24T14:58:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。