論文の概要: Triple Phase Transitions: Understanding the Learning Dynamics of Large Language Models from a Neuroscience Perspective
- arxiv url: http://arxiv.org/abs/2502.20779v1
- Date: Fri, 28 Feb 2025 06:59:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-03 13:44:20.000176
- Title: Triple Phase Transitions: Understanding the Learning Dynamics of Large Language Models from a Neuroscience Perspective
- Title(参考訳): 3つの相転移:神経科学の観点からの大規模言語モデルの学習ダイナミクスの理解
- Authors: Yuko Nakagi, Keigo Tada, Sota Yoshino, Shinji Nishimoto, Yu Takagi,
- Abstract要約: 大規模言語モデル(LLM)は、訓練中に特定の時点で新たな能力が出現する突発的な行動を示すことが多い。
この現象は一般に「相転移」と呼ばれ、よく理解されていない。
本稿では、学習データとアーキテクチャの両方で異なるLLMの学習力学に対する新しい解釈を提案する。
- 参考スコア(独自算出の注目度): 1.8874331450711404
- License:
- Abstract: Large language models (LLMs) often exhibit abrupt emergent behavior, whereby new abilities arise at certain points during their training. This phenomenon, commonly referred to as a ''phase transition'', remains poorly understood. In this study, we conduct an integrative analysis of such phase transitions by examining three interconnected perspectives: the similarity between LLMs and the human brain, the internal states of LLMs, and downstream task performance. We propose a novel interpretation for the learning dynamics of LLMs that vary in both training data and architecture, revealing that three phase transitions commonly emerge across these models during training: (1) alignment with the entire brain surges as LLMs begin adhering to task instructions Brain Alignment and Instruction Following, (2) unexpectedly, LLMs diverge from the brain during a period in which downstream task accuracy temporarily stagnates Brain Detachment and Stagnation, and (3) alignment with the brain reoccurs as LLMs become capable of solving the downstream tasks Brain Realignment and Consolidation. These findings illuminate the underlying mechanisms of phase transitions in LLMs, while opening new avenues for interdisciplinary research bridging AI and neuroscience.
- Abstract(参考訳): 大規模言語モデル(LLM)は、訓練中に特定の時点で新たな能力が出現する突然の行動を示すことが多い。
この現象は一般に「相転移」と呼ばれ、よく理解されていない。
本研究では, LLMとヒト脳の類似性, LLMの内部状態, 下流タスクパフォーマンスの3つの相互接続の観点から, それらの相転移の積分解析を行った。
トレーニングデータとアーキテクチャの双方で異なるLLMの学習力学について,(1)LLMがタスク指示に固執し始めるにつれて,脳の3つの相転移が一般的に現れること,(2)脳の調整と指導の順応,(2)予期せず,下流のタスク精度が一時的に停滞する期間にLLMが脳から分岐すること,(3)LLMが下流のタスクを解くことができるようになると脳の再帰とが一致すること,の3つの相転移が,トレーニング中に一般的に現れること,の新たな解釈を提案する。
これらの知見は、AIと神経科学を橋渡しする学際的な研究のための新たな道を開きながら、LSMの相転移の基盤となるメカニズムを解明する。
関連論文リスト
- Satori: Reinforcement Learning with Chain-of-Action-Thought Enhances LLM Reasoning via Autoregressive Search [57.28671084993782]
大規模言語モデル(LLM)は、様々な領域にまたがる顕著な推論能力を示している。
近年の研究では、テスト時間計算の増加はLLMの推論能力を高めることが示されている。
そこで我々は,1)COAT推論形式を内部化するための小規模な形式調整段階,2)強化学習を活用した大規模自己改善段階を提案する。
論文 参考訳(メタデータ) (2025-02-04T17:26:58Z) - Large Language Models Are Human-Like Internally [44.996518290660816]
近年の認知モデル研究は、より大きな言語モデル(LM)が人間の読書行動に適合していないことを報告している。
従来の結論は、LMの最終層に排他的に焦点を絞ったものであったと論じる。
解析の結果,より大きなLMの内部層から派生した次の単語確率は,人間の文処理データと一致していることがわかった。
論文 参考訳(メタデータ) (2025-02-03T18:48:32Z) - Brain-like Functional Organization within Large Language Models [58.93629121400745]
人間の脳は長い間人工知能(AI)の追求にインスピレーションを与えてきた
最近のニューロイメージング研究は、人工ニューラルネットワーク(ANN)の計算的表現と、人間の脳の刺激に対する神経反応との整合性の説得力のある証拠を提供する。
本研究では、人工ニューロンのサブグループと機能的脳ネットワーク(FBN)を直接結合することで、このギャップを埋める。
このフレームワークはANサブグループをFBNにリンクし、大きな言語モデル(LLM)内で脳に似た機能的組織を記述できる。
論文 参考訳(メタデータ) (2024-10-25T13:15:17Z) - Mind Scramble: Unveiling Large Language Model Psychology Via Typoglycemia [27.650551131885152]
大規模言語モデル(LLM)の研究は、物理世界の複雑なタスクに対処する上で有望であることを示している。
GPT-4のような強力なLDMは、人間のような認知能力を示し始めていることが研究で示唆されている。
論文 参考訳(メタデータ) (2024-10-02T15:47:25Z) - Cognitive LLMs: Towards Integrating Cognitive Architectures and Large Language Models for Manufacturing Decision-making [51.737762570776006]
LLM-ACTRは、ヒトに適応し、多目的な意思決定を提供する新しいニューロシンボリックアーキテクチャである。
我々のフレームワークは、ACT-Rの内部決定過程の知識を潜在神経表現として抽出し、組み込む。
デザイン・フォー・マニュファクチャリング・タスクに関する我々の実験は、タスク性能の向上と基礎的意思決定能力の向上を両立させたものである。
論文 参考訳(メタデータ) (2024-08-17T11:49:53Z) - Lost in Translation: The Algorithmic Gap Between LMs and the Brain [8.799971499357499]
言語モデル(LM)は、様々な言語課題において印象的な性能を達成しているが、脳内の人間の言語処理との関係は未だ不明である。
本稿では、異なるレベルの分析において、LMと脳のギャップと重複について検討する。
神経科学からの洞察(空間性、モジュール性、内部状態、インタラクティブ学習など)が、より生物学的に妥当な言語モデルの開発にどのように役立つかについて議論する。
論文 参考訳(メタデータ) (2024-07-05T17:43:16Z) - MARS: Benchmarking the Metaphysical Reasoning Abilities of Language Models with a Multi-task Evaluation Dataset [50.36095192314595]
大きな言語モデル(LLM)は、一般化可能な推論能力を持つ意識的なエージェントとして機能する。
この能力は、イベントにおける無限の可能な変更をモデル化する複雑さのために、まだ探索されていない。
我々は,各ステップに対応する3つのタスクからなる最初のベンチマークMARSを紹介する。
論文 参考訳(メタデータ) (2024-06-04T08:35:04Z) - Contextual Feature Extraction Hierarchies Converge in Large Language
Models and the Brain [12.92793034617015]
大規模言語モデル(LLM)がベンチマークタスクで高いパフォーマンスを達成するにつれ、より脳に近いものになることを示す。
また、モデルの性能と脳の類似性を改善する上で、文脈情報の重要性を示す。
論文 参考訳(メタデータ) (2024-01-31T08:48:35Z) - Siren's Song in the AI Ocean: A Survey on Hallucination in Large
Language Models [116.01843550398183]
大規模言語モデル(LLM)は、様々な下流タスクで顕著な機能を示している。
LLMは時折、ユーザ入力から分岐するコンテンツを生成し、以前生成されたコンテキストと矛盾する。
論文 参考訳(メタデータ) (2023-09-03T16:56:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。