論文の概要: Symmetry and Generalisation in Neural Approximations of Renormalisation Transformations
- arxiv url: http://arxiv.org/abs/2510.16591v1
- Date: Sat, 18 Oct 2025 17:29:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:39.053589
- Title: Symmetry and Generalisation in Neural Approximations of Renormalisation Transformations
- Title(参考訳): 再正規化変換の神経近似における対称性と一般化
- Authors: Cassidy Ashworth, Pietro Liò, Francesco Caso,
- Abstract要約: ニューラルネットワークの一般化行動における対称性とネットワーク表現性の役割を評価する。
単純な多層パーセプトロン(MLP)とグラフニューラルネットワーク(GNN)について考察する。
以上の結果から, 対称性の制約と表現率の競合が明らかとなり, 過度に複雑なモデルが一般化されていないことが判明した。
- 参考スコア(独自算出の注目度): 11.337632710839166
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep learning models have proven enormously successful at using multiple layers of representation to learn relevant features of structured data. Encoding physical symmetries into these models can improve performance on difficult tasks, and recent work has motivated the principle of parameter symmetry breaking and restoration as a unifying mechanism underlying their hierarchical learning dynamics. We evaluate the role of parameter symmetry and network expressivity in the generalisation behaviour of neural networks when learning a real-space renormalisation group (RG) transformation, using the central limit theorem (CLT) as a test case map. We consider simple multilayer perceptrons (MLPs) and graph neural networks (GNNs), and vary weight symmetries and activation functions across architectures. Our results reveal a competition between symmetry constraints and expressivity, with overly complex or overconstrained models generalising poorly. We analytically demonstrate this poor generalisation behaviour for certain constrained MLP architectures by recasting the CLT as a cumulant recursion relation and making use of an established framework to propagate cumulants through MLPs. We also empirically validate an extension of this framework from MLPs to GNNs, elucidating the internal information processing performed by these more complex models. These findings offer new insight into the learning dynamics of symmetric networks and their limitations in modelling structured physical transformations.
- Abstract(参考訳): ディープラーニングモデルは、構造化データの関連する特徴を学習するために、複数のレイヤの表現を使用することで、非常に成功した。
これらのモデルに物理対称性を符号化することで、困難なタスクのパフォーマンスを向上させることができ、最近の研究は、パラメータ対称性の破れと復元の原則を、階層的な学習力学の基礎となる統一メカニズムとして動機づけている。
実空間再正規化群(RG)変換を学習する際のニューラルネットワークの一般化行動におけるパラメータ対称性とネットワーク表現性の役割を,テストケースマップとして中央極限定理(CLT)を用いて評価した。
我々は、シンプルな多層パーセプトロン(MLP)とグラフニューラルネットワーク(GNN)を検討し、アーキテクチャ全体にわたって重み対称性とアクティベーション関数を変化させる。
以上の結果から,対称性の制約と表現率の競合が明らかとなり,過度に複雑なモデルや過度に制約されたモデルが一般化できないことが示唆された。
我々は, CLT を累積再帰関係として再キャストし, MLP を通じて累積を伝播する確立された枠組みを用いることにより, 一定の制約付き MLP アーキテクチャに対するこの不適切な一般化挙動を解析的に実証する。
MLPからGNNへの拡張を実証的に検証し、これらの複雑なモデルによって実行される内部情報処理を解明する。
これらの知見は、対称ネットワークの学習力学と、構造化された物理変換のモデル化におけるそれらの制限に関する新たな洞察を与える。
関連論文リスト
- Rethinking the Role of Dynamic Sparse Training for Scalable Deep Reinforcement Learning [58.533203990515034]
ニューラルネットワークのスケーリングは機械学習における画期的な進歩をもたらしたが、このパラダイムは深層強化学習(DRL)では失敗している。
我々は、動的スパーストレーニング戦略が、アーキテクチャの改善によって確立された主要なスケーラビリティ基盤を補完するモジュール固有の利点を提供することを示す。
アーキテクチャ改善の利点を生かした実践的なフレームワークであるModule-Specific Training (MST) にこれらの知見を精査し、アルゴリズムの修正なしに様々なRLアルゴリズムをまたいだ大幅なスケーラビリティ向上を示す。
論文 参考訳(メタデータ) (2025-10-14T03:03:08Z) - On Linear Mode Connectivity of Mixture-of-Experts Architectures [1.6747713135100666]
ニューラルネットワークにおける線形モード接続(LMC)現象について検討する。
LMCは、ニューラルネットワークのロスランドスケープにおいて顕著な現象であり、独立に訓練されたモデルが、アルゴリズムの様々な対称性まで接続されることになっている。
論文 参考訳(メタデータ) (2025-09-14T16:51:41Z) - Model Hemorrhage and the Robustness Limits of Large Language Models [119.46442117681147]
大規模言語モデル(LLM)は、自然言語処理タスク全体で強力なパフォーマンスを示すが、デプロイメント用に修正された場合、大幅なパフォーマンス低下を経験する。
この現象をモデル出血(パラメータ変更とアーキテクチャ変更によるパフォーマンス低下)と定義する。
論文 参考訳(メタデータ) (2025-03-31T10:16:03Z) - Generalized Factor Neural Network Model for High-dimensional Regression [50.554377879576066]
複素・非線形・雑音に隠れた潜在低次元構造を持つ高次元データセットをモデル化する課題に取り組む。
我々のアプローチは、非パラメトリック回帰、因子モデル、高次元回帰のためのニューラルネットワークの概念のシームレスな統合を可能にする。
論文 参考訳(メタデータ) (2025-02-16T23:13:55Z) - Enhancing lattice kinetic schemes for fluid dynamics with Lattice-Equivariant Neural Networks [79.16635054977068]
我々はLattice-Equivariant Neural Networks (LENNs)と呼ばれる新しい同変ニューラルネットワークのクラスを提案する。
我々の手法は、ニューラルネットワークに基づく代理モデルLattice Boltzmann衝突作用素の学習を目的とした、最近導入されたフレームワーク内で開発されている。
本研究は,実世界のシミュレーションにおける機械学習強化Lattice Boltzmann CFDの実用化に向けて展開する。
論文 参考訳(メタデータ) (2024-05-22T17:23:15Z) - Symmetry-enforcing neural networks with applications to constitutive modeling [0.0]
本研究では,非線形および履歴依存行動を示す複雑なミクロ構造を均質化するために,最先端のマイクロメカニカルモデリングと高度な機械学習技術を組み合わせる方法について述べる。
結果として得られるホモジェナイズドモデルであるスマート法則(SCL)は、従来の並列マルチスケールアプローチで必要とされる計算コストのごく一部で、マイクロインフォメーション法を有限要素ソルバに適用することができる。
本研究では、ニューロンレベルで物質対称性を強制する新しい方法論を導入することにより、SCLの機能を拡張する。
論文 参考訳(メタデータ) (2023-12-21T01:12:44Z) - Provably Efficient Neural Estimation of Structural Equation Model: An
Adversarial Approach [144.21892195917758]
一般化構造方程式モデル(SEM)のクラスにおける推定について検討する。
線形作用素方程式をmin-maxゲームとして定式化し、ニューラルネットワーク(NN)でパラメータ化し、勾配勾配を用いてニューラルネットワークのパラメータを学習する。
提案手法は,サンプル分割を必要とせず,確固とした収束性を持つNNをベースとしたSEMの抽出可能な推定手順を初めて提供する。
論文 参考訳(メタデータ) (2020-07-02T17:55:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。