論文の概要: Parameter Symmetry Potentially Unifies Deep Learning Theory
- arxiv url: http://arxiv.org/abs/2502.05300v2
- Date: Fri, 23 May 2025 17:22:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 15:51:02.778678
- Title: Parameter Symmetry Potentially Unifies Deep Learning Theory
- Title(参考訳): パラメータ対称性が深層学習理論を潜在的に統一する
- Authors: Liu Ziyin, Yizhou Xu, Tomaso Poggio, Isaac Chuang,
- Abstract要約: 我々は,AI理論の統一におけるパラメータ対称性の研究方向の役割を提唱する。
この研究の方向性は、ニューラルネットワークにおける3つの異なる階層の統一的な理解につながる可能性がある、と私たちは主張する。
- 参考スコア(独自算出の注目度): 2.0383173745487198
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The dynamics of learning in modern large AI systems is hierarchical, often characterized by abrupt, qualitative shifts akin to phase transitions observed in physical systems. While these phenomena hold promise for uncovering the mechanisms behind neural networks and language models, existing theories remain fragmented, addressing specific cases. In this position paper, we advocate for the crucial role of the research direction of parameter symmetries in unifying these fragmented theories. This position is founded on a centralizing hypothesis for this direction: parameter symmetry breaking and restoration are the unifying mechanisms underlying the hierarchical learning behavior of AI models. We synthesize prior observations and theories to argue that this direction of research could lead to a unified understanding of three distinct hierarchies in neural networks: learning dynamics, model complexity, and representation formation. By connecting these hierarchies, our position paper elevates symmetry -- a cornerstone of theoretical physics -- to become a potential fundamental principle in modern AI.
- Abstract(参考訳): 現代の大規模AIシステムにおける学習のダイナミクスは階層的であり、しばしば物理的システムで観察される位相遷移に似た急激で質的なシフトによって特徴づけられる。
これらの現象は、ニューラルネットワークや言語モデルの背後にあるメカニズムを明らかにすることを約束するが、既存の理論は断片化され、特定のケースに対処する。
本稿では,これらの断片化理論を統一する上で,パラメータ対称性の研究の方向性の重要な役割を提唱する。
パラメータ対称性の破れと復元は、AIモデルの階層的学習行動の基礎となる統一メカニズムである。
我々は、事前の観測と理論を合成し、この研究の方向性がニューラルネットワークの3つの異なる階層(学習力学、モデル複雑性、表現形成)を統一的に理解することにつながると論じる。
これらの階層を接続することで、私たちのポジションペーパーは、理論物理学の基礎となる対称性を高め、現代のAIの潜在的な基本原理となる。
関連論文リスト
- Dynamical symmetries in the fluctuation-driven regime: an application of Noether's theorem to noisy dynamical systems [0.0]
非平衡物理学は、2つの状態の間で遷移する可能性が最も高いような、比較的一般的な雑音の力学系を記述する変分原理を提供する。
エネルギー,運動量,角運動量の保存の類似点を同定し,意思決定,リカレントニューラルネットワーク,拡散生成モデルといったモデルを用いて,それぞれの例について概説する。
論文 参考訳(メタデータ) (2025-04-13T23:56:31Z) - Transformer Dynamics: A neuroscientific approach to interpretability of large language models [0.0]
我々はトランスモデルにおける残留ストリーム(RS)に注目し、層をまたいで進化する動的システムとして概念化する。
個々のRSユニットの活性化は、RSが非特権ベースであるにもかかわらず、層間において強い連続性を示す。
縮小次元空間において、RS は下層に誘引子のようなダイナミクスを持つ曲線軌道に従う。
論文 参考訳(メタデータ) (2025-02-17T18:49:40Z) - Artificial Kuramoto Oscillatory Neurons [65.16453738828672]
しきい値単位の動的代替として人工内蔵ニューロン(AKOrN)を導入する。
このアイデアは、幅広いタスクにまたがってパフォーマンス改善をもたらすことを示しています。
これらの経験的結果は、神経表現の最も基本的なレベルにおいて、私たちの仮定の重要性を示していると信じている。
論文 参考訳(メタデータ) (2024-10-17T17:47:54Z) - A spring-block theory of feature learning in deep neural networks [11.396919965037636]
特徴学習深層ネットは、定期的に低次元の幾何学にデータを徐々に崩壊させる。
この現象は, 非線形性, ノイズ, 学習率, および力学を形作る他の選択の集合的作用から生じることを示す。
ダイアグラムを再現するマクロメカニカル理論を提案し、DNNのいくつかが遅延でアクティブな理由を説明し、層をまたいだ特徴学習と一般化をリンクする。
論文 参考訳(メタデータ) (2024-07-28T00:07:20Z) - Learning Discrete Concepts in Latent Hierarchical Models [73.01229236386148]
自然の高次元データから学習する概念は、ヒューマンアライメントと解釈可能な機械学習モデルの構築の可能性を秘めている。
我々は概念を階層的因果モデルを通して関連付けられた離散潜在因果変数として定式化する。
我々は、理論的な主張を合成データ実験で裏付ける。
論文 参考訳(メタデータ) (2024-06-01T18:01:03Z) - The Impact of Geometric Complexity on Neural Collapse in Transfer Learning [6.554326244334867]
損失面の平坦さと神経崩壊は、最近、有用な事前学習指標として現れている。
実験と理論を通じて、事前学習されたネットワークの幾何学的複雑さに影響を与えるメカニズムが神経崩壊に影響を及ぼすことを示す。
論文 参考訳(メタデータ) (2024-05-24T16:52:09Z) - Disentangling the Causes of Plasticity Loss in Neural Networks [55.23250269007988]
可塑性の喪失は複数の独立したメカニズムに分解できることを示す。
種々の非定常学習タスクにおいて, 層正規化と重み劣化の組み合わせは, 可塑性維持に極めて有効であることを示す。
論文 参考訳(メタデータ) (2024-02-29T00:02:33Z) - Binding Dynamics in Rotating Features [72.80071820194273]
本稿では,特徴間のアライメントを明示的に計算し,それに応じて重みを調整する「コサイン結合」機構を提案する。
これにより、自己注意と生物学的神経プロセスに直接接続し、回転する特徴に現れるオブジェクト中心の表現の基本的なダイナミクスに光を当てることができます。
論文 参考訳(メタデータ) (2024-02-08T12:31:08Z) - Brain-Inspired Machine Intelligence: A Survey of
Neurobiologically-Plausible Credit Assignment [65.268245109828]
本稿では,神経生物学にインスパイアされた,あるいは動機付けられた人工ニューラルネットワークにおける信用割当を行うアルゴリズムについて検討する。
我々は、脳にインスパイアされた学習スキームを6つの一般的なファミリーにまとめ、これらを誤りのバックプロパゲーションの文脈で検討する。
本研究の成果は,神経ミメティックシステムとその構成的学習プロセスの今後の発展を促進することを目的としている。
論文 参考訳(メタデータ) (2023-12-01T05:20:57Z) - Learning reversible symplectic dynamics [0.0]
本稿では,データから時間可逆な力学系を学習するためのニューラルネットワークアーキテクチャを提案する。
我々は、物理インフォームドラーニングの重要性から、シンプレクティックシステムへの適応に焦点を当てている。
論文 参考訳(メタデータ) (2022-04-26T14:07:40Z) - Gradient Starvation: A Learning Proclivity in Neural Networks [97.02382916372594]
グラディエント・スターベーションは、タスクに関連する機能のサブセットのみをキャプチャすることで、クロスエントロピー損失を最小化するときに発生する。
この研究は、ニューラルネットワークにおけるそのような特徴不均衡の出現に関する理論的説明を提供する。
論文 参考訳(メタデータ) (2020-11-18T18:52:08Z) - Developing Constrained Neural Units Over Time [81.19349325749037]
本稿では,既存のアプローチと異なるニューラルネットワークの定義方法に焦点をあてる。
ニューラルネットワークの構造は、データとの相互作用にも拡張される制約の特別なクラスによって定義される。
提案した理論は時間領域にキャストされ, データを順序づけられた方法でネットワークに提示する。
論文 参考訳(メタデータ) (2020-09-01T09:07:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。