論文の概要: Development of Cognitive Intelligence in Pre-trained Language Models
- arxiv url: http://arxiv.org/abs/2407.01047v2
- Date: Sun, 7 Jul 2024 07:54:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-10 00:40:30.977527
- Title: Development of Cognitive Intelligence in Pre-trained Language Models
- Title(参考訳): 事前学習型言語モデルにおける認知知の発達
- Authors: Raj Sanjay Shah, Khushi Bhardwaj, Sashank Varma,
- Abstract要約: 近年の研究では、大規模事前学習言語モデルにおける創発的認知能力の証拠が示されている。
PLMの発達軌跡は、人間の認知発達に対する最大限の調整の窓を一貫して示している。
この窓のあと、トレーニングは損失を減らすという工学的な目標に役立っているように見えるが、人間の認知との整合性を高めるという科学的目標ではない。
- 参考スコア(独自算出の注目度): 3.1815791977708834
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent studies show evidence for emergent cognitive abilities in Large Pre-trained Language Models (PLMs). The increasing cognitive alignment of these models has made them candidates for cognitive science theories. Prior research into the emergent cognitive abilities of PLMs has largely been path-independent to model training, i.e., has focused on the final model weights and not the intermediate steps. However, building plausible models of human cognition using PLMs would benefit from considering the developmental alignment of their performance during training to the trajectories of children's thinking. Guided by psychometric tests of human intelligence, we choose four sets of tasks to investigate the alignment of ten popular families of PLMs and evaluate their available intermediate and final training steps. These tasks are Numerical ability, Linguistic abilities, Conceptual understanding, and Fluid reasoning. We find a striking regularity: regardless of model size, the developmental trajectories of PLMs consistently exhibit a window of maximal alignment to human cognitive development. Before that window, training appears to endow "blank slate" models with the requisite structure to be poised to rapidly learn from experience. After that window, training appears to serve the engineering goal of reducing loss but not the scientific goal of increasing alignment with human cognition.
- Abstract(参考訳): 近年の研究では、PLM(Large Pre-trained Language Models)における創発的認知能力の証拠が示されている。
これらのモデルの認知的アライメントの増大は、認知科学理論の候補となっている。
PLMの創発的認知能力に関する以前の研究は、主にパス非依存のモデルトレーニング、すなわち、中間段階ではなく最終的なモデルウェイトに焦点を当ててきた。
しかし, PLMを用いた人間認知モデルの構築は, 子どもの思考の軌跡に対する学習時の行動の発達的アライメントを考慮すれば有益である。
人間の知能の心理測定テストにより、PLMの10家族のアライメントを調査する4つのタスクを選択し、その中間および最終訓練手順を評価する。
これらのタスクは、数値能力、言語能力、概念理解、および流体推論である。
モデルのサイズに関わらず、PLMの発達軌跡は、人間の認知発達に対する最大限の調整の窓を一貫して示している。
そのウィンドウの前には、トレーニングによって"ブランクスレート"モデルと、経験から素早く学ぶために必要な構造が提供されるように思われる。
この窓のあと、トレーニングは損失を減らすという工学的な目標に役立っているように見えるが、人間の認知との整合性を高めるという科学的目標ではない。
関連論文リスト
- Can Language Models Learn to Skip Steps? [59.84848399905409]
我々は推論においてステップをスキップする能力について研究する。
効率を高めたり認知負荷を減らすためのステップをスキップする人間とは異なり、モデルはそのようなモチベーションを持っていない。
私たちの研究は、人間のようなステップスキッピング能力に関する最初の調査である。
論文 参考訳(メタデータ) (2024-11-04T07:10:24Z) - BIG5-CHAT: Shaping LLM Personalities Through Training on Human-Grounded Data [28.900987544062257]
BIG5-CHATは、人間がいかに人格をテキストで表現するかのモデルを構築するために設計された10万の対話を含む大規模なデータセットである。
提案手法は,BFIやIPIP-NEOなどの人格評価に優れ,特徴相関は人的データとより密に一致している。
実験の結果,高良性,高良性,低外転,低神経障害を訓練したモデルでは,推論タスクの性能が向上することが判明した。
論文 参考訳(メタデータ) (2024-10-21T20:32:27Z) - CogniDual Framework: Self-Training Large Language Models within a Dual-System Theoretical Framework for Improving Cognitive Tasks [39.43278448546028]
カーネマンの二重系理論は人間の意思決定過程を解明し、素早い直感的なシステム1と合理的なシステム2を区別する。
近年の大きな言語モデル (LLMs) は、認知タスクにおける人間レベルの習熟度に近づきやすいツールとして位置づけられている。
本研究では、自己学習を通じて、意図的な推論から直感的な応答へと進化するLLM(textbfCognidual Framework for LLMs, CFLLMs)について述べる。
論文 参考訳(メタデータ) (2024-09-05T09:33:24Z) - PersLLM: A Personified Training Approach for Large Language Models [66.16513246245401]
社会実践, 一貫性, 動的発達という, 心理学に根ざした個性の原則を統合したPersLLMを提案する。
モデルパラメータに直接パーソナリティ特性を組み込み、誘導に対するモデルの抵抗性を高め、一貫性を高め、パーソナリティの動的進化を支援する。
論文 参考訳(メタデータ) (2024-07-17T08:13:22Z) - Interpreting Pretrained Language Models via Concept Bottlenecks [55.47515772358389]
事前訓練された言語モデル(PLM)は、様々な自然言語処理タスクにおいて大きな進歩を遂げてきた。
ブラックボックスの性質による解釈可能性の欠如は、責任ある実装に課題をもたらす。
本研究では,人間にとって理解しやすい高レベルで有意義な概念を用いて,PLMを解釈する新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-08T20:41:18Z) - On the Unexpected Abilities of Large Language Models [0.0]
大規模言語モデル(LLM)は、訓練対象のタスクに直接関連しない幅広い能力を示すことができる。
本稿では,これらの認知能力獲得につながる間接的プロセスの性質,他の間接的プロセスとの関係,統合的能力獲得の意義について論じる。
論文 参考訳(メタデータ) (2023-08-09T09:15:07Z) - Artificial Neuropsychology: Are Large Language Models Developing
Executive Functions? [0.0]
ハノイ・タワーズ・オブ・ハノイ法によるGPTの計画機能と作業記憶の評価を行った。
予備的な結果は、LLMがハノイの塔でほぼ最適解を生成することを示している。
これらの能力は、タスクが分かっていないときに、よく訓練された人間よりも非常に制限され、悪い。
論文 参考訳(メタデータ) (2023-05-06T20:53:22Z) - Machine Psychology [54.287802134327485]
我々は、心理学にインスパイアされた行動実験において、研究のための実りある方向が、大きな言語モデルに係わっていると論じる。
本稿では,本手法が表に示す理論的視点,実験パラダイム,計算解析技術について述べる。
これは、パフォーマンスベンチマークを超えた、生成人工知能(AI)のための「機械心理学」の道を開くものだ。
論文 参考訳(メタデータ) (2023-03-24T13:24:41Z) - Learning Theory of Mind via Dynamic Traits Attribution [59.9781556714202]
本稿では,過去のトラジェクトリからアクターの潜在特性ベクトルを生成するニューラルToMアーキテクチャを提案する。
この特性ベクトルは、予測ニューラルネットワークの高速重み付けスキームを介して予測機構を乗法的に変調する。
実験により,高速重量はエージェントの特性をモデル化し,マインドリーディング能力を向上させるために優れた誘導バイアスを与えることが示された。
論文 参考訳(メタデータ) (2022-04-17T11:21:18Z) - AGENT: A Benchmark for Core Psychological Reasoning [60.35621718321559]
直観心理学は、観察可能な行動を駆動する隠された精神変数を推論する能力です。
他のエージェントを推論する機械エージェントに対する近年の関心にもかかわらず、そのようなエージェントが人間の推論を駆動するコア心理学の原則を学ぶか保持するかは明らかではない。
本稿では,プロシージャが生成する3dアニメーション,エージェントを4つのシナリオで構成したベンチマークを提案する。
論文 参考訳(メタデータ) (2021-02-24T14:58:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。