論文の概要: Parameter Symmetry Potentially Unifies Deep Learning Theory
- arxiv url: http://arxiv.org/abs/2502.05300v2
- Date: Fri, 23 May 2025 17:22:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 15:51:02.778678
- Title: Parameter Symmetry Potentially Unifies Deep Learning Theory
- Title(参考訳): パラメータ対称性が深層学習理論を潜在的に統一する
- Authors: Liu Ziyin, Yizhou Xu, Tomaso Poggio, Isaac Chuang,
- Abstract要約: 我々は,AI理論の統一におけるパラメータ対称性の研究方向の役割を提唱する。
この研究の方向性は、ニューラルネットワークにおける3つの異なる階層の統一的な理解につながる可能性がある、と私たちは主張する。
- 参考スコア(独自算出の注目度): 2.0383173745487198
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The dynamics of learning in modern large AI systems is hierarchical, often characterized by abrupt, qualitative shifts akin to phase transitions observed in physical systems. While these phenomena hold promise for uncovering the mechanisms behind neural networks and language models, existing theories remain fragmented, addressing specific cases. In this position paper, we advocate for the crucial role of the research direction of parameter symmetries in unifying these fragmented theories. This position is founded on a centralizing hypothesis for this direction: parameter symmetry breaking and restoration are the unifying mechanisms underlying the hierarchical learning behavior of AI models. We synthesize prior observations and theories to argue that this direction of research could lead to a unified understanding of three distinct hierarchies in neural networks: learning dynamics, model complexity, and representation formation. By connecting these hierarchies, our position paper elevates symmetry -- a cornerstone of theoretical physics -- to become a potential fundamental principle in modern AI.
- Abstract(参考訳): 現代の大規模AIシステムにおける学習のダイナミクスは階層的であり、しばしば物理的システムで観察される位相遷移に似た急激で質的なシフトによって特徴づけられる。
これらの現象は、ニューラルネットワークや言語モデルの背後にあるメカニズムを明らかにすることを約束するが、既存の理論は断片化され、特定のケースに対処する。
本稿では,これらの断片化理論を統一する上で,パラメータ対称性の研究の方向性の重要な役割を提唱する。
パラメータ対称性の破れと復元は、AIモデルの階層的学習行動の基礎となる統一メカニズムである。
我々は、事前の観測と理論を合成し、この研究の方向性がニューラルネットワークの3つの異なる階層(学習力学、モデル複雑性、表現形成)を統一的に理解することにつながると論じる。
これらの階層を接続することで、私たちのポジションペーパーは、理論物理学の基礎となる対称性を高め、現代のAIの潜在的な基本原理となる。
関連論文リスト
- Evolutionary Developmental Biology Can Serve as the Conceptual Foundation for a New Design Paradigm in Artificial Intelligence [15.376349115976534]
人工知能(AI)は複雑なタスクの解決に大きく貢献している。
現在のニューラルネットワークベースのパラダイムは、有効ではあるが、固有の制限によって厳しく制約されている。
進化的理解の最近のパラダイムシフトは、AI文学でほとんど見過ごされてきた。
論文 参考訳(メタデータ) (2025-06-15T15:41:44Z) - Neural Thermodynamics I: Entropic Forces in Deep and Universal Representation Learning [0.30723404270319693]
本稿では、勾配降下学習ニューラルネットワークの学習力学を理解するための厳密なエントロピー力理論を提案する。
表現学習は、対称性と離散時間更新から生じる創発的エントロピー力によって決定的に制御されていることを示す。
論文 参考訳(メタデータ) (2025-05-18T12:25:42Z) - Dynamical symmetries in the fluctuation-driven regime: an application of Noether's theorem to noisy dynamical systems [0.0]
非平衡物理学は、2つの状態の間で遷移する可能性が最も高いような、比較的一般的な雑音の力学系を記述する変分原理を提供する。
エネルギー,運動量,角運動量の保存の類似点を同定し,意思決定,リカレントニューラルネットワーク,拡散生成モデルといったモデルを用いて,それぞれの例について概説する。
論文 参考訳(メタデータ) (2025-04-13T23:56:31Z) - Transformer Dynamics: A neuroscientific approach to interpretability of large language models [0.0]
我々はトランスモデルにおける残留ストリーム(RS)に注目し、層をまたいで進化する動的システムとして概念化する。
個々のRSユニットの活性化は、RSが非特権ベースであるにもかかわらず、層間において強い連続性を示す。
縮小次元空間において、RS は下層に誘引子のようなダイナミクスを持つ曲線軌道に従う。
論文 参考訳(メタデータ) (2025-02-17T18:49:40Z) - Network Dynamics-Based Framework for Understanding Deep Neural Networks [11.44947569206928]
本稿では,動的システム理論のレンズを通して学習力学を解析するための理論的枠組みを提案する。
ニューラルネットワークの線形性と非線形性の概念をニューロンレベルで2つの基本変換単位を導入することにより再定義する。
異なる変換モードは、重みベクトルの組織、異なる情報抽出のモード、質的に異なる学習フェーズの出現において、異なる集団的挙動をもたらす。
論文 参考訳(メタデータ) (2025-01-05T04:23:21Z) - Artificial Kuramoto Oscillatory Neurons [65.16453738828672]
しきい値単位の動的代替として人工内蔵ニューロン(AKOrN)を導入する。
このアイデアは、幅広いタスクにまたがってパフォーマンス改善をもたらすことを示しています。
これらの経験的結果は、神経表現の最も基本的なレベルにおいて、私たちの仮定の重要性を示していると信じている。
論文 参考訳(メタデータ) (2024-10-17T17:47:54Z) - A spring-block theory of feature learning in deep neural networks [11.396919965037636]
特徴学習深層ネットは、定期的に低次元の幾何学にデータを徐々に崩壊させる。
この現象は, 非線形性, ノイズ, 学習率, および力学を形作る他の選択の集合的作用から生じることを示す。
ダイアグラムを再現するマクロメカニカル理論を提案し、DNNのいくつかが遅延でアクティブな理由を説明し、層をまたいだ特徴学習と一般化をリンクする。
論文 参考訳(メタデータ) (2024-07-28T00:07:20Z) - Towards a theory of learning dynamics in deep state space models [12.262490032020832]
状態空間モデル(SSM)は多くの長いシーケンスモデリングタスクにおいて顕著な経験的性能を示した。
この研究は、ディープステート空間モデルにおける動的学習の理論への一歩である。
論文 参考訳(メタデータ) (2024-07-10T00:01:56Z) - Learning Discrete Concepts in Latent Hierarchical Models [73.01229236386148]
自然の高次元データから学習する概念は、ヒューマンアライメントと解釈可能な機械学習モデルの構築の可能性を秘めている。
我々は概念を階層的因果モデルを通して関連付けられた離散潜在因果変数として定式化する。
我々は、理論的な主張を合成データ実験で裏付ける。
論文 参考訳(メタデータ) (2024-06-01T18:01:03Z) - The Impact of Geometric Complexity on Neural Collapse in Transfer Learning [6.554326244334867]
損失面の平坦さと神経崩壊は、最近、有用な事前学習指標として現れている。
実験と理論を通じて、事前学習されたネットワークの幾何学的複雑さに影響を与えるメカニズムが神経崩壊に影響を及ぼすことを示す。
論文 参考訳(メタデータ) (2024-05-24T16:52:09Z) - Disentangling the Causes of Plasticity Loss in Neural Networks [55.23250269007988]
可塑性の喪失は複数の独立したメカニズムに分解できることを示す。
種々の非定常学習タスクにおいて, 層正規化と重み劣化の組み合わせは, 可塑性維持に極めて有効であることを示す。
論文 参考訳(メタデータ) (2024-02-29T00:02:33Z) - Binding Dynamics in Rotating Features [72.80071820194273]
本稿では,特徴間のアライメントを明示的に計算し,それに応じて重みを調整する「コサイン結合」機構を提案する。
これにより、自己注意と生物学的神経プロセスに直接接続し、回転する特徴に現れるオブジェクト中心の表現の基本的なダイナミクスに光を当てることができます。
論文 参考訳(メタデータ) (2024-02-08T12:31:08Z) - Brain-Inspired Machine Intelligence: A Survey of
Neurobiologically-Plausible Credit Assignment [65.268245109828]
本稿では,神経生物学にインスパイアされた,あるいは動機付けられた人工ニューラルネットワークにおける信用割当を行うアルゴリズムについて検討する。
我々は、脳にインスパイアされた学習スキームを6つの一般的なファミリーにまとめ、これらを誤りのバックプロパゲーションの文脈で検討する。
本研究の成果は,神経ミメティックシステムとその構成的学習プロセスの今後の発展を促進することを目的としている。
論文 参考訳(メタデータ) (2023-12-01T05:20:57Z) - Learning reversible symplectic dynamics [0.0]
本稿では,データから時間可逆な力学系を学習するためのニューラルネットワークアーキテクチャを提案する。
我々は、物理インフォームドラーニングの重要性から、シンプレクティックシステムへの適応に焦点を当てている。
論文 参考訳(メタデータ) (2022-04-26T14:07:40Z) - Recent advances in deep learning theory [104.01582662336256]
本稿では,近年のディープラーニング理論の進歩をレビューし,整理する。
文献は,(1)深層学習の一般化可能性を分析する複雑性とキャパシティに基づくアプローチ,(2)勾配降下とその変種をモデル化するための微分方程式とその力学系,(3)動的システムの軌道を駆動する損失景観の幾何学的構造,(5)ネットワークアーキテクチャにおけるいくつかの特別な構造の理論的基礎,の6つのグループに分類される。
論文 参考訳(メタデータ) (2020-12-20T14:16:41Z) - Gradient Starvation: A Learning Proclivity in Neural Networks [97.02382916372594]
グラディエント・スターベーションは、タスクに関連する機能のサブセットのみをキャプチャすることで、クロスエントロピー損失を最小化するときに発生する。
この研究は、ニューラルネットワークにおけるそのような特徴不均衡の出現に関する理論的説明を提供する。
論文 参考訳(メタデータ) (2020-11-18T18:52:08Z) - Developing Constrained Neural Units Over Time [81.19349325749037]
本稿では,既存のアプローチと異なるニューラルネットワークの定義方法に焦点をあてる。
ニューラルネットワークの構造は、データとの相互作用にも拡張される制約の特別なクラスによって定義される。
提案した理論は時間領域にキャストされ, データを順序づけられた方法でネットワークに提示する。
論文 参考訳(メタデータ) (2020-09-01T09:07:25Z) - An Ode to an ODE [78.97367880223254]
我々は、O(d) 群上の行列フローに応じて主フローの時間依存パラメータが進化する ODEtoODE と呼ばれるニューラルODE アルゴリズムの新しいパラダイムを提案する。
この2つの流れのネストされたシステムは、訓練の安定性と有効性を提供し、勾配の消滅・爆発問題を確実に解決する。
論文 参考訳(メタデータ) (2020-06-19T22:05:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。