Fugu-MT 論文翻訳(概要): Development of Cognitive Intelligence in Pre-trained Language Models

論文の概要: Development of Cognitive Intelligence in Pre-trained Language Models

arxiv url: http://arxiv.org/abs/2407.01047v1
Date: Mon, 1 Jul 2024 07:56:36 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-03 22:29:17.302640
Title: Development of Cognitive Intelligence in Pre-trained Language Models
Title（参考訳）: 事前学習型言語モデルにおける認知知の発達
Authors: Raj Sanjay Shah, Khushi Bhardwaj, Sashank Varma,
Abstract要約: 近年の研究では、大規模事前学習言語モデルにおける創発的認知能力の証拠が示されている。 PLMの発達軌跡は、人間の認知発達に対する最大限の調整の窓を一貫して示している。この窓のあと、トレーニングは損失を減らすという工学的な目標に役立っているように見えるが、人間の認知との整合性を高めるという科学的目標ではない。
参考スコア（独自算出の注目度）: 3.1815791977708834
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Recent studies show evidence for emergent cognitive abilities in Large Pre-trained Language Models (PLMs). The increasing cognitive alignment of these models has made them candidates for cognitive science theories. Prior research into the emergent cognitive abilities of PLMs has largely been path-independent to model training, i.e., has focused on the final model weights and not the intermediate steps. However, building plausible models of human cognition using PLMs would benefit from considering the developmental alignment of their performance during training to the trajectories of children's thinking. Guided by psychometric tests of human intelligence, we choose four sets of tasks to investigate the alignment of ten popular families of PLMs and evaluate their available intermediate and final training steps. These tasks are Numerical ability, Linguistic abilities, Conceptual understanding, and Fluid reasoning. We find a striking regularity: regardless of model size, the developmental trajectories of PLMs consistently exhibit a window of maximal alignment to human cognitive development. Before that window, training appears to endow "blank slate" models with the requisite structure to be poised to rapidly learn from experience. After that window, training appears to serve the engineering goal of reducing loss but not the scientific goal of increasing alignment with human cognition.
Abstract（参考訳）: 近年の研究では、PLM(Large Pre-trained Language Models)における創発的認知能力の証拠が示されている。これらのモデルの認知的アライメントの増大は、認知科学理論の候補となっている。 PLMの創発的認知能力に関する以前の研究は、主にパス非依存のモデルトレーニング、すなわち、中間段階ではなく最終的なモデルウェイトに焦点を当ててきた。しかし, PLMを用いた人間認知モデルの構築は, 子どもの思考の軌跡に対する学習時の行動の発達的アライメントを考慮すれば有益である。人間の知能の心理測定テストにより、PLMの10家族のアライメントを調査する4つのタスクを選択し、その中間および最終訓練手順を評価する。これらのタスクは、数値能力、言語能力、概念理解、および流体推論である。モデルのサイズに関わらず、PLMの発達軌跡は、人間の認知発達に対する最大限の調整の窓を一貫して示している。そのウィンドウの前には、トレーニングによって"ブランクスレート"モデルと、経験から素早く学ぶために必要な構造が提供されるように思われる。この窓のあと、トレーニングは損失を減らすという工学的な目標に役立っているように見えるが、人間の認知との整合性を高めるという科学的目標ではない。

関連論文リスト

Cognitive Foundations for Reasoning and Their Manifestation in LLMs [63.12951576410617]
大規模言語モデル(LLM)は複雑な問題を解くが、単純な変種では失敗し、人間の推論と根本的に異なるメカニズムによって正しい出力を達成することを示唆している。我々は認知科学研究を、推論不変量、メタ認知制御、推論と知識の組織化のための表現、変換操作にまたがる28の認知要素の分類学に合成する。複雑な問題に対して66.7%の性能向上を図り、成功構造を自動的に把握するテストタイム推論ガイダンスを開発した。
論文参考訳（メタデータ） (2025-11-20T18:59:00Z)
Using Reinforcement Learning to Train Large Language Models to Explain Human Decisions [11.40240971657506]
本研究では,多目的認知モデルとして,事前訓練された大規模言語モデルの可能性について検討する。結果に基づく報酬を用いた強化学習を用いて、人間のリスク選択を説明するための明確な推論トレースを生成するためのLSMを誘導する。
論文参考訳（メタデータ） (2025-05-16T18:22:05Z)
Embodied-R: Collaborative Framework for Activating Embodied Spatial Reasoning in Foundation Models via Reinforcement Learning [58.86928947970342]
Embodied-Rは、知覚のための大規模視覚言語モデルと推論のための小規模言語モデルを組み合わせたフレームワークである。わずか5kのエボダイドビデオサンプルのトレーニングの後、Embodied-Rと3B LMは最先端のマルチモーダル推論モデルと一致した。 Embodied-Rは、体系的分析や文脈統合のような創発的な思考パターンも示している。
論文参考訳（メタデータ） (2025-04-17T06:16:11Z)
The potential -- and the pitfalls -- of using pre-trained language models as cognitive science theories [2.6549754445378344]
PLMを認知科学理論として活用する上での課題について論じる。我々は,PLM性能の指標を人的性能の尺度にマッピングするために研究者が用いた仮定をレビューする。 PLMを認知・認知発達の信頼できる指標として用いるための基準を列挙する。
論文参考訳（メタデータ） (2025-01-22T05:24:23Z)
Kolb-Based Experiential Learning for Generalist Agents with Human-Level Kaggle Data Science Performance [81.05882480184587]
本稿では,自律エージェントに対するVygotskyのZPDを用いて,Kolbの学習サイクルの計算フレームワークを提案する。 Agent Kは、KolbとVygotskyにインスパイアされた人間の認知学習をうまく統合する第1のAIシステムである。金9個、銀8個、銅12個で、メダル獲得競争で金4個、銀4個を含む。エージェントKは、コルブとヴィーゴツキーにインスパイアされた人間の認知学習をうまく統合する第1のAIシステムである。
論文参考訳（メタデータ） (2024-11-05T23:55:23Z)
Can Language Models Learn to Skip Steps? [59.84848399905409]
我々は推論においてステップをスキップする能力について研究する。効率を高めたり認知負荷を減らすためのステップをスキップする人間とは異なり、モデルはそのようなモチベーションを持っていない。私たちの研究は、人間のようなステップスキッピング能力に関する最初の調査である。
論文参考訳（メタデータ） (2024-11-04T07:10:24Z)
BIG5-CHAT: Shaping LLM Personalities Through Training on Human-Grounded Data [28.900987544062257]
BIG5-CHATは、人間がいかに人格をテキストで表現するかのモデルを構築するために設計された10万の対話を含む大規模なデータセットである。提案手法は,BFIやIPIP-NEOなどの人格評価に優れ,特徴相関は人的データとより密に一致している。実験の結果,高良性,高良性,低外転,低神経障害を訓練したモデルでは,推論タスクの性能が向上することが判明した。
論文参考訳（メタデータ） (2024-10-21T20:32:27Z)
Judgment of Learning: A Human Ability Beyond Generative Artificial Intelligence [0.0]
大規模言語モデル(LLM)は、様々な言語に基づくタスクにおいて、人間の認知を模倣する傾向にある。我々は、ChatGPTに基づくLLMが人間の学習判断(JOL)と一致しているかどうかを評価するために、クロスエージェント予測モデルを導入する。実験の結果,人間のJOLは実際のメモリ性能を確実に予測するが,いずれのLLMも同等の予測精度は示さなかった。
論文参考訳（メタデータ） (2024-10-17T09:42:30Z)
CogniDual Framework: Self-Training Large Language Models within a Dual-System Theoretical Framework for Improving Cognitive Tasks [39.43278448546028]
カーネマンの二重系理論は人間の意思決定過程を解明し、素早い直感的なシステム1と合理的なシステム2を区別する。近年の大きな言語モデル (LLMs) は、認知タスクにおける人間レベルの習熟度に近づきやすいツールとして位置づけられている。本研究では、自己学習を通じて、意図的な推論から直感的な応答へと進化するLLM(textbfCognidual Framework for LLMs, CFLLMs)について述べる。
論文参考訳（メタデータ） (2024-09-05T09:33:24Z)
PersLLM: A Personified Training Approach for Large Language Models [66.16513246245401]
社会実践, 一貫性, 動的発達という, 心理学に根ざした個性の原則を統合したPersLLMを提案する。モデルパラメータに直接パーソナリティ特性を組み込み、誘導に対するモデルの抵抗性を高め、一貫性を高め、パーソナリティの動的進化を支援する。
論文参考訳（メタデータ） (2024-07-17T08:13:22Z)
Interpreting Pretrained Language Models via Concept Bottlenecks [55.47515772358389]
事前訓練された言語モデル(PLM)は、様々な自然言語処理タスクにおいて大きな進歩を遂げてきた。ブラックボックスの性質による解釈可能性の欠如は、責任ある実装に課題をもたらす。本研究では,人間にとって理解しやすい高レベルで有意義な概念を用いて,PLMを解釈する新しい手法を提案する。
論文参考訳（メタデータ） (2023-11-08T20:41:18Z)
On the Unexpected Abilities of Large Language Models [0.0]
大規模言語モデル(LLM)は、訓練対象のタスクに直接関連しない幅広い能力を示すことができる。本稿では,これらの認知能力獲得につながる間接的プロセスの性質,他の間接的プロセスとの関係,統合的能力獲得の意義について論じる。
論文参考訳（メタデータ） (2023-08-09T09:15:07Z)
Artificial Neuropsychology: Are Large Language Models Developing Executive Functions? [0.0]
ハノイ・タワーズ・オブ・ハノイ法によるGPTの計画機能と作業記憶の評価を行った。予備的な結果は、LLMがハノイの塔でほぼ最適解を生成することを示している。これらの能力は、タスクが分かっていないときに、よく訓練された人間よりも非常に制限され、悪い。
論文参考訳（メタデータ） (2023-05-06T20:53:22Z)
Machine Psychology [54.287802134327485]
我々は、心理学にインスパイアされた行動実験において、研究のための実りある方向が、大きな言語モデルに係わっていると論じる。本稿では,本手法が表に示す理論的視点,実験パラダイム,計算解析技術について述べる。これは、パフォーマンスベンチマークを超えた、生成人工知能(AI)のための「機械心理学」の道を開くものだ。
論文参考訳（メタデータ） (2023-03-24T13:24:41Z)
Learning Theory of Mind via Dynamic Traits Attribution [59.9781556714202]
本稿では,過去のトラジェクトリからアクターの潜在特性ベクトルを生成するニューラルToMアーキテクチャを提案する。この特性ベクトルは、予測ニューラルネットワークの高速重み付けスキームを介して予測機構を乗法的に変調する。実験により,高速重量はエージェントの特性をモデル化し,マインドリーディング能力を向上させるために優れた誘導バイアスを与えることが示された。
論文参考訳（メタデータ） (2022-04-17T11:21:18Z)
AGENT: A Benchmark for Core Psychological Reasoning [60.35621718321559]
直観心理学は、観察可能な行動を駆動する隠された精神変数を推論する能力です。他のエージェントを推論する機械エージェントに対する近年の関心にもかかわらず、そのようなエージェントが人間の推論を駆動するコア心理学の原則を学ぶか保持するかは明らかではない。本稿では,プロシージャが生成する3dアニメーション,エージェントを4つのシナリオで構成したベンチマークを提案する。
論文参考訳（メタデータ） (2021-02-24T14:58:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。