論文の概要: Why are LLMs' abilities emergent?
- arxiv url: http://arxiv.org/abs/2508.04401v1
- Date: Wed, 06 Aug 2025 12:43:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-07 20:09:22.717695
- Title: Why are LLMs' abilities emergent?
- Title(参考訳): LLMの能力はなぜ出現するのか?
- Authors: Vladimír Havlík,
- Abstract要約: 系は他の複雑な自然現象に類似した真の創発性を示すと私は主張する。
この視点は、これらのシステムが個々の定義を超越する能力を得ることを可能にする内部の動的変換を理解することに焦点を移す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The remarkable success of Large Language Models (LLMs) in generative tasks has raised fundamental questions about the nature of their acquired capabilities, which often appear to emerge unexpectedly without explicit training. This paper examines the emergent properties of Deep Neural Networks (DNNs) through both theoretical analysis and empirical observation, addressing the epistemological challenge of "creation without understanding" that characterises contemporary AI development. We explore how the neural approach's reliance on nonlinear, stochastic processes fundamentally differs from symbolic computational paradigms, creating systems whose macro-level behaviours cannot be analytically derived from micro-level neuron activities. Through analysis of scaling laws, grokking phenomena, and phase transitions in model capabilities, I demonstrate that emergent abilities arise from the complex dynamics of highly sensitive nonlinear systems rather than simply from parameter scaling alone. My investigation reveals that current debates over metrics, pre-training loss thresholds, and in-context learning miss the fundamental ontological nature of emergence in DNNs. I argue that these systems exhibit genuine emergent properties analogous to those found in other complex natural phenomena, where systemic capabilities emerge from cooperative interactions among simple components without being reducible to their individual behaviours. The paper concludes that understanding LLM capabilities requires recognising DNNs as a new domain of complex dynamical systems governed by universal principles of emergence, similar to those operating in physics, chemistry, and biology. This perspective shifts the focus from purely phenomenological definitions of emergence to understanding the internal dynamic transformations that enable these systems to acquire capabilities that transcend their individual components.
- Abstract(参考訳): 生成タスクにおける大規模言語モデル(LLM)の顕著な成功は、獲得した能力の性質に関する根本的な疑問を提起している。
本稿では,AI開発を特徴付ける「理解せずに創造する」という認識論的課題に対処するため,理論的解析と経験的観察の両方を通して,ディープニューラルネットワーク(DNN)の創発的特性を考察する。
本稿では, 非線形確率過程へのニューラルアプローチの依存が, 数値計算のパラダイムと根本的に異なり, マクロレベルの挙動をマイクロレベルのニューロン活動から解析的に導き出すことができないシステムの構築について考察する。
モデル機能におけるスケーリング法則,グルーキング現象,位相遷移の解析を通じて,パラメータスケーリングのみからではなく,高感度非線形系の複雑な力学から創発的能力が生じることを実証する。
私の調査では、メトリクス、事前学習された損失閾値、コンテキスト内学習に関する現在の議論が、DNNの出現の基本的なオンロジカルな性質を見逃していることが明らかになっています。
これらのシステムは、他の複雑な自然現象に類似した真の創発性を示しており、そこでは、単純なコンポーネント間の協調的な相互作用から、個々の振る舞いを再現することなく、体系的な能力が出現する。
この論文は、LLM能力を理解するには、物理、化学、生物学で機能するのと同様に、出現の普遍原理によって支配される複雑な力学系の新しい領域としてDNNを認識する必要があると結論付けている。
この観点は、純粋な現象論的定義から、個々のコンポーネントを超越する能力を得ることを可能にする内部の動的変換の理解へと焦点を移す。
関連論文リスト
- State Space Models Naturally Produce Traveling Waves, Time Cells, and Scale to Abstract Cognitive Functions [7.097247619177705]
ディープラーニングアーキテクチャの新しいクラスであるステートスペースモデル(SSM)に基づくフレームワークを提案する。
我々は、このモデルが生物学的な「時間細胞」を著しく模倣する神経表現を自然に発達させることを実証した。
本研究は,SSMを単一ニューロンのダイナミクスと認知現象を結びつける魅力的な枠組みとして位置づけた。
論文 参考訳(メタデータ) (2025-07-18T03:53:16Z) - Continuum-Interaction-Driven Intelligence: Human-Aligned Neural Architecture via Crystallized Reasoning and Fluid Generation [1.5800607910450124]
現在のAIシステムは、幻覚、予測不能、そして人間の意思決定と不一致といった課題に直面している。
本研究では、確率的生成(LLM)とホワイトボックスの手続き的推論(チェーン・オブ・シント)を統合し、解釈可能で、継続的な学習可能で、人間に準拠したAIシステムを構築する二チャンネルインテリジェントアーキテクチャを提案する。
論文 参考訳(メタデータ) (2025-04-12T18:15:49Z) - Transformer Dynamics: A neuroscientific approach to interpretability of large language models [0.0]
我々はトランスモデルにおける残留ストリーム(RS)に注目し、層をまたいで進化する動的システムとして概念化する。
個々のRSユニットの活性化は、RSが非特権ベースであるにもかかわらず、層間において強い連続性を示す。
縮小次元空間において、RS は下層に誘引子のようなダイナミクスを持つ曲線軌道に従う。
論文 参考訳(メタデータ) (2025-02-17T18:49:40Z) - Parameter Symmetry Potentially Unifies Deep Learning Theory [2.0383173745487198]
我々は,AI理論の統一におけるパラメータ対称性の研究方向の役割を提唱する。
この研究の方向性は、ニューラルネットワークにおける3つの異なる階層の統一的な理解につながる可能性がある、と私たちは主張する。
論文 参考訳(メタデータ) (2025-02-07T20:10:05Z) - Discovering Chunks in Neural Embeddings for Interpretability [53.80157905839065]
本稿では, チャンキングの原理を応用して, 人工神経集団活動の解釈を提案する。
まず、この概念を正則性を持つ人工シーケンスを訓練したリカレントニューラルネットワーク(RNN)で実証する。
我々は、これらの状態に対する摂動が関連する概念を活性化または阻害すると共に、入力における概念に対応する同様の繰り返し埋め込み状態を特定する。
論文 参考訳(メタデータ) (2025-02-03T20:30:46Z) - Evolving Neural Networks Reveal Emergent Collective Behavior from Minimal Agent Interactions [0.0]
ニューラルネットワークが動的環境におけるエージェントの行動を制御するためにどのように進化するかを検討する。
レーン形成や層流のような単純な挙動は、より線形なネットワーク操作によって特徴づけられる。
中程度のノイズ、広い視野、低いエージェント密度といった特定の環境パラメータは、非線形ネットワークの進化を促進する。
論文 参考訳(メタデータ) (2024-10-25T17:43:00Z) - Artificial Kuramoto Oscillatory Neurons [65.16453738828672]
神経科学とAIの両方では、ニューロン間の'バインディング'が、ネットワークの深い層においてより抽象的な概念を表現するために表現を圧縮する、競争的な学習の形式につながることが知られている。
完全に接続された畳み込みや注意機構などの任意の接続設計とともに人工的再考を導入する。
このアイデアは、教師なしオブジェクト発見、敵対的ロバスト性、不確実性、定量化、推論など、幅広いタスクにわたるパフォーマンス改善を提供する。
論文 参考訳(メタデータ) (2024-10-17T17:47:54Z) - Contrastive Learning in Memristor-based Neuromorphic Systems [55.11642177631929]
スパイクニューラルネットワークは、現代のバックプロパゲーションによって訓練されたディープネットワークに直面する重要な制約の多くを横取りする、ニューロンベースのモデルの重要なファミリーとなっている。
本研究では,前向き・後向き学習のニューロモルフィック形式であるコントラッシブ・シグナル依存型塑性(CSDP)の概念実証を設計し,検討する。
論文 参考訳(メタデータ) (2024-09-17T04:48:45Z) - Non-linear classification capability of quantum neural networks due to emergent quantum metastability [0.0]
量子ニューラルネットワークで有効な非線形性を実現することができることを示す。
分散多体量子スピンモデルにインスパイアされたアーキテクチャを持つ量子ニューラルネットワークを用いることで、このメカニズムが実際に非線形データ分類を実現することができることを示す。
論文 参考訳(メタデータ) (2024-08-20T12:01:07Z) - Brain-Inspired Machine Intelligence: A Survey of
Neurobiologically-Plausible Credit Assignment [65.268245109828]
本稿では,神経生物学にインスパイアされた,あるいは動機付けられた人工ニューラルネットワークにおける信用割当を行うアルゴリズムについて検討する。
我々は、脳にインスパイアされた学習スキームを6つの一般的なファミリーにまとめ、これらを誤りのバックプロパゲーションの文脈で検討する。
本研究の成果は,神経ミメティックシステムとその構成的学習プロセスの今後の発展を促進することを目的としている。
論文 参考訳(メタデータ) (2023-12-01T05:20:57Z) - A Neuro-mimetic Realization of the Common Model of Cognition via Hebbian
Learning and Free Energy Minimization [55.11642177631929]
大規模なニューラル生成モデルは、意味的に豊富なテキストのパスを合成したり、複雑な画像を生成することができる。
我々はコモン・モデル・オブ・コグニティブ・ニューラル・ジェネレーティブ・システムについて論じる。
論文 参考訳(メタデータ) (2023-10-14T23:28:48Z) - Discrete, compositional, and symbolic representations through attractor dynamics [51.20712945239422]
我々は,思考の確率的言語(PLoT)に似た認知過程をモデル化するために,アトラクタダイナミクスを記号表現と統合した新しいニューラルシステムモデルを導入する。
我々のモデルは、連続表現空間を、事前定義されたプリミティブに頼るのではなく、教師なし学習を通じて、記号系の意味性と構成性の特徴を反映する、記号列に対応する引き付け状態を持つ離散盆地に分割する。
このアプローチは、認知操作の複雑な双対性を反映したより包括的なモデルを提供する、AIにおける表現力の証明された神経弁別可能な基質であるニューラルダイナミクスを通じて、シンボル処理とサブシンボル処理の両方を統合する統一的なフレームワークを確立する。
論文 参考訳(メタデータ) (2023-10-03T05:40:56Z) - Gradient Starvation: A Learning Proclivity in Neural Networks [97.02382916372594]
グラディエント・スターベーションは、タスクに関連する機能のサブセットのみをキャプチャすることで、クロスエントロピー損失を最小化するときに発生する。
この研究は、ニューラルネットワークにおけるそのような特徴不均衡の出現に関する理論的説明を提供する。
論文 参考訳(メタデータ) (2020-11-18T18:52:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。