Fugu-MT 論文翻訳(概要): CogLM: Tracking Cognitive Development of Large Language Models

論文の概要: CogLM: Tracking Cognitive Development of Large Language Models

arxiv url: http://arxiv.org/abs/2408.09150v1
Date: Sat, 17 Aug 2024 09:49:40 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-20 22:25:12.421165
Title: CogLM: Tracking Cognitive Development of Large Language Models
Title（参考訳）: CogLM:大規模言語モデルの認知的発達の追跡
Authors: Xinglin Wang, Peiwen Yuan, Shaoxiong Feng, Yiwei Li, Boyuan Pan, Heda Wang, Yao Hu, Kan Li,
Abstract要約: 我々は、Piaget's Theory of Cognitive Developmentに基づくベンチマークCogLMを構築した。 CogLMは、20人以上の専門家によって作られた10の認知能力にまたがる1220の質問で構成されている。 20歳児に匹敵する高度なLPM(GPT-4)にヒトのような認知能力が出現していることが判明した。
参考スコア（独自算出の注目度）: 20.138831477848615
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Piaget's Theory of Cognitive Development (PTC) posits that the development of cognitive levels forms the foundation for human learning across various abilities. As Large Language Models (LLMs) have recently shown remarkable abilities across a wide variety of tasks, we are curious about the cognitive levels of current LLMs: to what extent they have developed and how this development has been achieved. To this end, we construct a benchmark CogLM (Cognitive Ability Evaluation for Language Model) based on PTC to assess the cognitive levels of LLMs. CogLM comprises 1,220 questions spanning 10 cognitive abilities crafted by more than 20 human experts, providing a comprehensive testbed for the cognitive levels of LLMs. Through extensive experiments across multiple mainstream LLMs with CogLM, we find that: (1) Human-like cognitive abilities have emerged in advanced LLMs (GPT-4), comparable to those of a 20-year-old human. (2) The parameter size and optimization objective are two key factors affecting the cognitive levels of LLMs. (3) The performance on downstream tasks is positively correlated with the level of cognitive abilities. These findings fill the gap in research on the cognitive abilities of LLMs, tracing the development of LLMs from a cognitive perspective and guiding the future direction of their evolution.
Abstract（参考訳）: Piaget's Theory of Cognitive Development (PTC) は、認知レベルの発達が、様々な能力にわたる人間の学習の基礎となることを示唆している。最近、LLM(Large Language Models)は、様々なタスクにおいて顕著な能力を示しています。この目的のために,PTCに基づく言語モデルの認知能力評価(CogLM)のベンチマークを構築し,LLMの認知レベルを評価する。 CogLMは、20人以上の専門家によって作られた10の認知能力にまたがる1,220の質問で構成され、LLMの認知レベルに関する包括的なテストベッドを提供する。 CogLMによる複数の主要なLSMに対する広範な実験により、(1)20歳以上の人間に匹敵する高度なLSM(GPT-4)に人間のような認知能力が出現した。 2) LLMの認知レベルに影響を与える2つの要因は, パラメータサイズと最適化目標である。 3) 下流課題におけるパフォーマンスは認知能力のレベルと正の相関が認められた。これらの知見は、LLMの認知能力の研究のギャップを埋め、認知的視点からLLMの発達を辿り、その進化の今後の方向性を導く。

関連論文リスト

Unveiling the Learning Mind of Language Models: A Cognitive Framework and Empirical Study [50.065744358362345]
大規模言語モデル(LLM)は、数学、コーディング、推論といったタスクにまたがる印象的な機能を示している。しかし、彼らの学習能力は、動的環境に適応し、新しい知識を得るのに不可欠であり、まだ過小評価されていない。
論文参考訳（メタデータ） (2025-06-16T13:24:50Z)
Evaluating LLMs Across Multi-Cognitive Levels: From Medical Knowledge Mastery to Scenario-Based Problem Solving [18.815592287807394]
大規模言語モデル (LLM) は様々な医学ベンチマークで顕著な性能を示した。しかし、その能力は様々な認知レベルにわたって過小評価されている。医療領域におけるLCMの評価のための多認知レベル評価フレームワークを提案する。
論文参考訳（メタデータ） (2025-06-10T02:07:33Z)
Truly Assessing Fluid Intelligence of Large Language Models through Dynamic Reasoning Evaluation [75.26829371493189]
大きな言語モデル(LLM)は、人間のような思考を反映する印象的な推論能力を示している。既存の推論ベンチマークでは、ドメイン固有の知識(結晶化インテリジェンス)に焦点を当てるか、解釈可能性に欠ける。階層的認知フレームワークを基盤とした動的推論評価ベンチマークであるDRE-Benchを提案する。
論文参考訳（メタデータ） (2025-06-03T09:01:08Z)
Visual Large Language Models Exhibit Human-Level Cognitive Flexibility in the Wisconsin Card Sorting Test [5.346677002840565]
本研究では、最先端の視覚大言語モデル(VLLM)の認知的柔軟性を評価する。以上の結果から,VLLMはテキストベースの入力によって,チェーン・オブ・シークレットの下で人間レベルのセットシフト能力を達成したり,超えたりすることが判明した。
論文参考訳（メタデータ） (2025-05-28T08:40:55Z)
A Framework for Robust Cognitive Evaluation of LLMs [13.822169295436177]
大規模言語モデル(LLM)の創発的認知能力は広く観察されているが、その性質と基盤メカニズムはいまだによく分かっていない。我々は,LLMの認知能力を体系的に評価するフレームワークであるCognitivEvalを開発した。
論文参考訳（メタデータ） (2025-04-03T17:35:54Z)
How Deep is Love in LLMs' Hearts? Exploring Semantic Size in Human-like Cognition [75.11808682808065]
本研究では,大言語モデル (LLM) が意味的サイズを理解する上で類似した傾向を示すかどうかを検討する。以上の結果から,マルチモーダルトレーニングはLLMにとって人間的な理解を深める上で不可欠であることが示唆された。最後に,LLMが実世界のWebショッピングシナリオにおいて,より大きなセマンティックサイズを持つ注目の見出しに影響されているかを検討する。
論文参考訳（メタデータ） (2025-03-01T03:35:56Z)
A Survey on Human-Centric LLMs [11.49752599240738]
大型言語モデル(LLM)は人間の認知と行動をシミュレートすることができる。この調査は個々のタスクと集合タスクの両方のパフォーマンスに焦点を当てている。
論文参考訳（メタデータ） (2024-11-20T12:34:44Z)
CogniDual Framework: Self-Training Large Language Models within a Dual-System Theoretical Framework for Improving Cognitive Tasks [39.43278448546028]
カーネマンの二重系理論は人間の意思決定過程を解明し、素早い直感的なシステム1と合理的なシステム2を区別する。近年の大きな言語モデル (LLMs) は、認知タスクにおける人間レベルの習熟度に近づきやすいツールとして位置づけられている。本研究では、自己学習を通じて、意図的な推論から直感的な応答へと進化するLLM(textbfCognidual Framework for LLMs, CFLLMs)について述べる。
論文参考訳（メタデータ） (2024-09-05T09:33:24Z)
Large Language Models and Cognitive Science: A Comprehensive Review of Similarities, Differences, and Challenges [12.390859712280324]
本稿では,Large Language Models(LLM)と認知科学の交わりについて概観する。我々は,LLMの認知能力を評価する手法を分析し,認知モデルとしての可能性について議論する。我々はLLMの認知バイアスと限界を評価し,その性能向上手法を提案する。
論文参考訳（メタデータ） (2024-09-04T02:30:12Z)
Cognitive LLMs: Towards Integrating Cognitive Architectures and Large Language Models for Manufacturing Decision-making [51.737762570776006]
LLM-ACTRは、ヒトに適応し、多目的な意思決定を提供する新しいニューロシンボリックアーキテクチャである。我々のフレームワークは、ACT-Rの内部決定過程の知識を潜在神経表現として抽出し、組み込む。デザイン・フォー・マニュファクチャリング・タスクに関する我々の実験は、タスク性能の向上と基礎的意思決定能力の向上を両立させたものである。
論文参考訳（メタデータ） (2024-08-17T11:49:53Z)
Generative AI as a metacognitive agent: A comparative mixed-method study with human participants on ICF-mimicking exam performance [0.0]
本研究は,国際コーチング連盟 ICF 試験の文脈において,人間のメタ認知に対する大規模言語モデルのメタ認知能力について検討した。混合手法を用いて,ヒトと5種類の高度なLDMのメタ認知能力を評価した。以上の結果から,LLMはすべてのメタ認知的指標,特に過信率の低下において,人間よりも優れていたことが示唆された。
論文参考訳（メタデータ） (2024-05-07T22:15:12Z)
A Survey on Self-Evolution of Large Language Models [116.54238664264928]
大規模言語モデル(LLM)は、様々な分野やインテリジェントエージェントアプリケーションにおいて大きく進歩している。この問題に対処するために、LLMが自律的に獲得し、洗練し、モデル自身によって生成された経験から学ぶことができる自己進化的アプローチが急速に成長している。
論文参考訳（メタデータ） (2024-04-22T17:43:23Z)
FAC$^2$E: Better Understanding Large Language Model Capabilities by Dissociating Language and Cognition [56.76951887823882]
大規模言語モデル(LLM)は、主に様々なテキスト理解および生成タスクにおける全体的なパフォーマンスによって評価される。 FAC$2$E, FAC$2$Eについて述べる。
論文参考訳（メタデータ） (2024-02-29T21:05:37Z)
Exploring the Cognitive Knowledge Structure of Large Language Models: An Educational Diagnostic Assessment Approach [50.125704610228254]
大規模言語モデル(LLM)は、様々なタスクにまたがる例外的なパフォーマンスを示すだけでなく、知性の火花も示している。近年の研究では、人間の試験における能力の評価に焦点が当てられ、異なる領域における彼らの印象的な能力を明らかにしている。ブルーム分類に基づく人体検査データセットであるMoocRadarを用いて評価を行った。
論文参考訳（メタデータ） (2023-10-12T09:55:45Z)
Revisiting the Reliability of Psychological Scales on Large Language Models [62.57981196992073]
本研究の目的は,大規模言語モデルにパーソナリティアセスメントを適用することの信頼性を明らかにすることである。 GPT-3.5、GPT-4、Gemini-Pro、LLaMA-3.1などのモデル毎の2,500設定の分析により、様々なLCMがビッグファイブインベントリに応答して一貫性を示すことが明らかになった。
論文参考訳（メタデータ） (2023-05-31T15:03:28Z)
Do Large Language Models Know What They Don't Know? [74.65014158544011]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクに優れた知識を持つ。膨大な知識にもかかわらず、LLMはそれらが適合し理解できる情報の量によって制限されている。本研究の目的は,LLMの自己理解能力を評価することである。
論文参考訳（メタデータ） (2023-05-29T15:30:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。