論文の概要: Visual Large Language Models Exhibit Human-Level Cognitive Flexibility in the Wisconsin Card Sorting Test
- arxiv url: http://arxiv.org/abs/2505.22112v1
- Date: Wed, 28 May 2025 08:40:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 17:35:50.505068
- Title: Visual Large Language Models Exhibit Human-Level Cognitive Flexibility in the Wisconsin Card Sorting Test
- Title(参考訳): ウィスコンシン・カード・ソーティングテストにおける人間のレベル認知柔軟性の視覚的大言語モデル
- Authors: Guangfu Hao, Frederic Alexandre, Shan Yu,
- Abstract要約: 本研究では、最先端の視覚大言語モデル(VLLM)の認知的柔軟性を評価する。
以上の結果から,VLLMはテキストベースの入力によって,チェーン・オブ・シークレットの下で人間レベルのセットシフト能力を達成したり,超えたりすることが判明した。
- 参考スコア(独自算出の注目度): 5.346677002840565
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cognitive flexibility has been extensively studied in human cognition but remains relatively unexplored in the context of Visual Large Language Models (VLLMs). This study assesses the cognitive flexibility of state-of-the-art VLLMs (GPT-4o, Gemini-1.5 Pro, and Claude-3.5 Sonnet) using the Wisconsin Card Sorting Test (WCST), a classic measure of set-shifting ability. Our results reveal that VLLMs achieve or surpass human-level set-shifting capabilities under chain-of-thought prompting with text-based inputs. However, their abilities are highly influenced by both input modality and prompting strategy. In addition, we find that through role-playing, VLLMs can simulate various functional deficits aligned with patients having impairments in cognitive flexibility, suggesting that VLLMs may possess a cognitive architecture, at least regarding the ability of set-shifting, similar to the brain. This study reveals the fact that VLLMs have already approached the human level on a key component underlying our higher cognition, and highlights the potential to use them to emulate complex brain processes.
- Abstract(参考訳): 認知的柔軟性は人間の認知において広く研究されてきたが、視覚的大言語モデル(VLLM)の文脈では比較的研究されていない。
本研究は,ウィスコンシンカードソーティングテスト(WCST)を用いて,最先端VLLM(GPT-4o,Gemini-1.5 Pro,Claude-3.5 Sonnet)の認知的柔軟性を評価する。
以上の結果から,VLLMはテキストベースの入力によって,チェーン・オブ・シークレットの下で人間レベルのセットシフト能力を達成したり,超えたりすることが判明した。
しかし、それらの能力は入力モダリティと促進戦略の両方の影響を強く受けている。
さらに、VLLMは、ロールプレイングによって認知柔軟性に障害がある患者に合わせた様々な機能的障害をシミュレートし、少なくとも脳と同様のセットシフト能力に関して、認知的アーキテクチャを持つ可能性があることを示唆する。
この研究は、VLLMが私たちの高い認知の根底にある重要な要素で既に人間レベルに近づいたという事実を明らかにし、複雑な脳の過程をエミュレートするためにVLLMを使用することの可能性を強調した。
関連論文リスト
- VisFactor: Benchmarking Fundamental Visual Cognition in Multimodal Large Language Models [62.667142971664575]
因子関連認知テスト(FRCT)から得られた新しいベンチマークであるVisFactorを紹介する。
VisFactorは視覚関連FRCTサブテストのデジタル化を行い、基本的な視覚認知タスク間でMLLMを体系的に評価する。
GPT-4o, Gemini-Pro, Qwen-VLなどの最先端MLLMの総合評価を行った。
論文 参考訳(メタデータ) (2025-02-23T04:21:32Z) - Neuron-based Personality Trait Induction in Large Language Models [115.08894603023712]
大規模言語モデル (LLM) は、様々な性格特性をシミュレートする能力が増している。
LLMにおけるパーソナリティ特性誘導のためのニューロンに基づくアプローチを提案する。
論文 参考訳(メタデータ) (2024-10-16T07:47:45Z) - CogLM: Tracking Cognitive Development of Large Language Models [20.138831477848615]
我々は、Piaget's Theory of Cognitive Developmentに基づくベンチマークCogLMを構築した。
CogLMは、20人以上の専門家によって作られた10の認知能力にまたがる1220の質問で構成されている。
先進的なLSMは、20歳の人間に匹敵する、人間のような認知能力を示している。
論文 参考訳(メタデータ) (2024-08-17T09:49:40Z) - Exploring the LLM Journey from Cognition to Expression with Linear Representations [10.92882688742428]
本稿では,大規模言語モデル(LLM)における認知的・表現的能力の進化と相互作用について,詳細な検討を行う。
人間のフィードバックからの強化学習(Reinforcement Learning from Human Feedback, RLHF)の3つの重要なフェーズにまたがる線形表現を通して、モデルの認知的・表現的能力を定義し、探求する。
SFT, RLHFでは, 認知能力が発達する傾向がみられ, 認知能力が発達する傾向がみられた。
論文 参考訳(メタデータ) (2024-05-27T08:57:04Z) - Mind's Eye of LLMs: Visualization-of-Thought Elicits Spatial Reasoning in Large Language Models [71.93366651585275]
大規模言語モデル(LLM)は、言語理解と様々な推論タスクにおいて印象的な性能を示した。
本稿では,LLMの空間的推論を視覚的に行うために,VoT(Visual-of-Thought)を提案する。
VoTはLLMの空間的推論能力を著しく向上させる。
論文 参考訳(メタデータ) (2024-04-04T17:45:08Z) - Unleashing the Emergent Cognitive Synergy in Large Language Models: A Task-Solving Agent through Multi-Persona Self-Collaboration [116.09561564489799]
Solo Performance Promptingは、複数のペルソナと多ターンの自己コラボレーションをすることで、単一のLCMを認知的シナジストに変換する。
認知シナジスト(英: Cognitive Synergist)は、複雑なタスクにおける問題解決を強化するために、複数の心の強みと知識を協調的に結合するインテリジェントエージェントである。
より詳細な分析により,LLMに複数の微粒なペルソナを割り当てることによって,単一あるいは固定数のペルソナに比べて問題解決能力が向上することが示された。
論文 参考訳(メタデータ) (2023-07-11T14:45:19Z) - Revisiting the Reliability of Psychological Scales on Large Language Models [62.57981196992073]
本研究の目的は,大規模言語モデルにパーソナリティアセスメントを適用することの信頼性を明らかにすることである。
GPT-3.5、GPT-4、Gemini-Pro、LLaMA-3.1などのモデル毎の2,500設定の分析により、様々なLCMがビッグファイブインベントリに応答して一貫性を示すことが明らかになった。
論文 参考訳(メタデータ) (2023-05-31T15:03:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。