論文の概要: Neural Thermodynamics I: Entropic Forces in Deep and Universal Representation Learning
- arxiv url: http://arxiv.org/abs/2505.12387v1
- Date: Sun, 18 May 2025 12:25:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.204438
- Title: Neural Thermodynamics I: Entropic Forces in Deep and Universal Representation Learning
- Title(参考訳): ニューラル熱力学I:深部・普遍的表現学習におけるエントロピー力
- Authors: Liu Ziyin, Yizhou Xu, Isaac Chuang,
- Abstract要約: 本稿では、勾配降下学習ニューラルネットワークの学習力学を理解するための厳密なエントロピー力理論を提案する。
表現学習は、対称性と離散時間更新から生じる創発的エントロピー力によって決定的に制御されていることを示す。
- 参考スコア(独自算出の注目度): 0.30723404270319693
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the rapid discovery of emergent phenomena in deep learning and large language models, explaining and understanding their cause has become an urgent need. Here, we propose a rigorous entropic-force theory for understanding the learning dynamics of neural networks trained with stochastic gradient descent (SGD) and its variants. Building on the theory of parameter symmetries and an entropic loss landscape, we show that representation learning is crucially governed by emergent entropic forces arising from stochasticity and discrete-time updates. These forces systematically break continuous parameter symmetries and preserve discrete ones, leading to a series of gradient balance phenomena that resemble the equipartition property of thermal systems. These phenomena, in turn, (a) explain the universal alignment of neural representations between AI models and lead to a proof of the Platonic Representation Hypothesis, and (b) reconcile the seemingly contradictory observations of sharpness- and flatness-seeking behavior of deep learning optimization. Our theory and experiments demonstrate that a combination of entropic forces and symmetry breaking is key to understanding emergent phenomena in deep learning.
- Abstract(参考訳): 深層学習と大規模言語モデルにおける創発的な現象の発見が急速に進み、それらの原因の説明と理解が緊急の必要性となっている。
本稿では,確率勾配降下法(SGD)とその変種を訓練したニューラルネットワークの学習力学を理解するために,厳密なエントロピー力理論を提案する。
パラメータ対称性の理論とエントロピー的損失景観に基づいて,確率性や離散時間更新による創発的エントロピー力によって表現学習が決定的に制御されることを示す。
これらの力は、連続したパラメータ対称性を体系的に破り、離散的なパラメータを保存し、熱系の均質性に類似した一連の勾配バランス現象をもたらす。
これらの現象は、順番に、
(a)AIモデル間の神経表現の普遍的アライメントを説明し、プラトン表現仮説の証明につながること、
(b)深層学習最適化のシャープネスと平坦ネス探索の一見矛盾した観察を考察する。
我々の理論と実験は、エントロピー力と対称性の破れの組み合わせが、深層学習における創発的な現象を理解する鍵であることを実証している。
関連論文リスト
- Observable-manifested correlations in many-body quantum chaotic systems [5.009081786741903]
現実的な系では、可観測物の外対角要素の包絡関数は大きなデルタE$で指数関数的に崩壊するが、ランダム化されたモデルでは平坦となる傾向がある。
我々は、ハミルトンの繊細な構造に由来するカオス固有状態の相関が、エンベロープ関数の非自明な構造において重要な役割を果たすことを示した。
論文 参考訳(メタデータ) (2025-02-24T06:33:22Z) - Parameter Symmetry Breaking and Restoration Determines the Hierarchical Learning in AI Systems [2.0383173745487198]
現代の大規模AIシステムにおける学習のダイナミクスは階層的であり、しばしば突然の質的なシフトによって特徴づけられる。
パラメータ対称性の破れと復元は,これらの挙動の基盤となる統一メカニズムとして機能することを示す。
これらの階層を接続することで、現代AIの潜在的な基本原理として対称性を強調します。
論文 参考訳(メタデータ) (2025-02-07T20:10:05Z) - Pioneer: Physics-informed Riemannian Graph ODE for Entropy-increasing Dynamics [61.70424540412608]
幅広いエントロピー増加動的システムに対する物理インフォームドグラフODEを提案する。
我々は、物理法則に従って、証明可能なエントロピーの非減少を報告する。
実証的な結果は、実際のデータセット上でのPioneerの優位性を示している。
論文 参考訳(メタデータ) (2025-02-05T14:54:30Z) - Artificial Kuramoto Oscillatory Neurons [65.16453738828672]
神経科学とAIの両方では、ニューロン間の'バインディング'が、ネットワークの深い層においてより抽象的な概念を表現するために表現を圧縮する、競争的な学習の形式につながることが知られている。
完全に接続された畳み込みや注意機構などの任意の接続設計とともに人工的再考を導入する。
このアイデアは、教師なしオブジェクト発見、敵対的ロバスト性、不確実性、定量化、推論など、幅広いタスクにわたるパフォーマンス改善を提供する。
論文 参考訳(メタデータ) (2024-10-17T17:47:54Z) - Learning Discrete Concepts in Latent Hierarchical Models [73.01229236386148]
自然の高次元データから学習する概念は、ヒューマンアライメントと解釈可能な機械学習モデルの構築の可能性を秘めている。
我々は概念を階層的因果モデルを通して関連付けられた離散潜在因果変数として定式化する。
我々は、理論的な主張を合成データ実験で裏付ける。
論文 参考訳(メタデータ) (2024-06-01T18:01:03Z) - Parameter Symmetry and Noise Equilibrium of Stochastic Gradient Descent [8.347295051171525]
勾配ノイズは、退化方向に沿ってパラメータ$theta$の体系的な相互作用を、一意に依存しない固定点$theta*$へと生成することを示す。
これらの点をノイズ平衡(it noise equilibria)と呼ぶのは、これらの点において、異なる方向からのノイズ寄与がバランスと整合性を持つためである。
勾配雑音のバランスとアライメントは、ニューラルネットワーク内でのプログレッシブ・シャープニング/フラット化や表現形成といった重要な現象を説明するための新しいメカニズムとして機能することを示す。
論文 参考訳(メタデータ) (2024-02-11T13:00:04Z) - TANGO: Time-Reversal Latent GraphODE for Multi-Agent Dynamical Systems [43.39754726042369]
連続グラフニューラルネットワークに基づく常微分方程式(GraphODE)により予測される前後の軌跡を整列するソフト制約として,単純かつ効果的な自己監督型正規化項を提案する。
時間反転対称性を効果的に課し、古典力学の下でより広い範囲の力学系にわたってより正確なモデル予測を可能にする。
様々な物理システムに対する実験結果から,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2023-10-10T08:52:16Z) - A duality connecting neural network and cosmological dynamics [0.0]
本研究では、勾配降下によるニューラルネットワークの力学と、平らで真空エネルギーが支配する宇宙におけるスカラー場の力学が構造的に関連していることを示す。
この双対性は、ニューラルネットワークのダイナミクスを理解し説明するための、これらのシステム間のシナジーのためのフレームワークを提供する。
論文 参考訳(メタデータ) (2022-02-22T19:00:01Z) - Gradient Starvation: A Learning Proclivity in Neural Networks [97.02382916372594]
グラディエント・スターベーションは、タスクに関連する機能のサブセットのみをキャプチャすることで、クロスエントロピー損失を最小化するときに発生する。
この研究は、ニューラルネットワークにおけるそのような特徴不均衡の出現に関する理論的説明を提供する。
論文 参考訳(メタデータ) (2020-11-18T18:52:08Z) - Why Adversarial Interaction Creates Non-Homogeneous Patterns: A
Pseudo-Reaction-Diffusion Model for Turing Instability [10.933825676518195]
交叉相互作用を持つニューロン系のチューリング様パターンを観察する。
本稿では,これらの現象を過小評価するメカニズムを説明するための擬似反応拡散モデルを提案する。
論文 参考訳(メタデータ) (2020-10-01T16:09:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。