論文の概要: Controlling Grokking with Nonlinearity and Data Symmetry
- arxiv url: http://arxiv.org/abs/2411.05353v1
- Date: Fri, 08 Nov 2024 06:19:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-11 14:55:31.289545
- Title: Controlling Grokking with Nonlinearity and Data Symmetry
- Title(参考訳): 非線形性とデータ対称性によるグラッキング制御
- Authors: Ahmed Salah, David Yevick,
- Abstract要約: 最後の NN 層の重みの偶数PCA プロジェクションを奇数プロジェクションと比較すると、非線形性が増大すると、より均一になるパターンが得られる。
ネットワークの一般化能力の計量は、層重みのエントロピーから推定され、非線形性の度合いは、最終層のニューロンの重みの局所エントロピーの相関関係に関係している。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: This paper demonstrates that grokking behavior in modular arithmetic with a modulus P in a neural network can be controlled by modifying the profile of the activation function as well as the depth and width of the model. Plotting the even PCA projections of the weights of the last NN layer against their odd projections further yields patterns which become significantly more uniform when the nonlinearity is increased by incrementing the number of layers. These patterns can be employed to factor P when P is nonprime. Finally, a metric for the generalization ability of the network is inferred from the entropy of the layer weights while the degree of nonlinearity is related to correlations between the local entropy of the weights of the neurons in the final layer.
- Abstract(参考訳): 本稿では、ニューラルネットワークにおけるモジュラー演算におけるグルーキング動作を、モデルの深さと幅だけでなく、活性化関数のプロファイルを変更することで制御できることを実証する。
さらに、最後のNN層の重みの偶数PCAプロジェクションを奇数プロジェクションと比較すると、層数の増加によって非線形性が増加すると、より均一になるパターンが得られる。
これらのパターンは、P が非素数であるときに P を分解するために用いられる。
最後に、ネットワークの一般化能力の計量は、層重みのエントロピーから推定され、非線形性の度合いは、最終層のニューロンの重みの局所エントロピーの相関関係に関係している。
関連論文リスト
- TGPT-PINN: Nonlinear model reduction with transformed GPT-PINNs [1.6093211760643649]
我々はTGPT-PINN(Transformed Generative Pre-Trained Physics-Informed Neural Networks)を紹介する。
TGPT-PINNは、スナップショットベースのモデル縮小を実現するネットワーク・オブ・ネットワークの設計である。
いくつかの非自明な偏微分方程式により, PINN フレームワークの非線形モデル削減機能を示す。
論文 参考訳(メタデータ) (2024-03-06T04:49:18Z) - Bayesian Interpolation with Deep Linear Networks [92.1721532941863]
ニューラルネットワークの深さ、幅、データセットサイズがモデル品質にどう影響するかを特徴付けることは、ディープラーニング理論における中心的な問題である。
線形ネットワークが無限深度で証明可能な最適予測を行うことを示す。
また、データに依存しない先行法により、広い線形ネットワークにおけるベイズ模型の証拠は無限の深さで最大化されることを示す。
論文 参考訳(メタデータ) (2022-12-29T20:57:46Z) - Nonlinear proper orthogonal decomposition for convection-dominated flows [0.0]
そこで本稿では,自動エンコーダと長期記憶ネットワークを組み合わせたエンドツーエンドのガレルキンフリーモデルを提案する。
我々の手法は精度を向上するだけでなく、トレーニングやテストの計算コストを大幅に削減する。
論文 参考訳(メタデータ) (2021-10-15T18:05:34Z) - Learning Nonlinear Waves in Plasmon-induced Transparency [0.0]
プラズモン誘起透過性メタマテリアルシステムにおける非線形ソリトンの複雑な伝播を予測するためのリカレントニューラルネットワーク(RNN)アプローチを検討する。
我々は,長期記憶(LSTM)人工ニューラルネットワークによるシミュレーションと予測において,結果の顕著な一致を証明した。
論文 参考訳(メタデータ) (2021-07-31T21:21:44Z) - Lower Bounds on the Generalization Error of Nonlinear Learning Models [2.1030878979833467]
本稿では,多層ニューラルネットワークから導出したモデルの一般化誤差に対する下限について,学習データ中のサンプル数と層の大きさが一致した状況下で検討する。
偏りのない推定器は,このような非線形ネットワークでは受け入れられない性能を示す。
線形回帰や2層ネットワークの場合、一般偏差推定器の明示的な一般化の下界を導出する。
論文 参考訳(メタデータ) (2021-03-26T20:37:54Z) - Going beyond p-convolutions to learn grayscale morphological operators [64.38361575778237]
p-畳み込み層と同じ原理に基づく2つの新しい形態層を提示する。
本研究では, p-畳み込み層と同じ原理に基づく2つの新しい形態層を示す。
論文 参考訳(メタデータ) (2021-02-19T17:22:16Z) - Non-intrusive reduced order modeling of poroelasticity of heterogeneous
media based on a discontinuous Galerkin approximation [0.0]
異種多孔質媒体における線形多弾性問題に対する非侵入的モデル還元フレームワークを提案する。
内部ペナルティ不連続ガレルキン法(DG法)を全順序解法として利用し,不連続性を扱う。
我々のフレームワークは、DGソリューションの妥当な近似を提供するが、かなり高速である。
論文 参考訳(メタデータ) (2021-01-28T04:21:06Z) - From deep to Shallow: Equivalent Forms of Deep Networks in Reproducing
Kernel Krein Space and Indefinite Support Vector Machines [63.011641517977644]
ディープネットワークを等価な(不確定な)カーネルマシンに変換します。
次に、この変換がキャパシティ制御および一様収束に与える影響について検討する。
最後に、平坦表現の空間性について解析し、平坦な重みが(効果的に) 0p1 で正規化された Lp-"ノルム" であることが示される。
論文 参考訳(メタデータ) (2020-07-15T03:21:35Z) - Exponentially Weighted l_2 Regularization Strategy in Constructing
Reinforced Second-order Fuzzy Rule-based Model [72.57056258027336]
従来の高木スゲノカン(TSK)型ファジィモデルでは、定数あるいは線形関数がファジィ規則の連続部分として使用されるのが普通である。
調和解析で遭遇する重み関数理論にインスパイアされた指数重みアプローチを導入する。
論文 参考訳(メタデータ) (2020-07-02T15:42:15Z) - Multipole Graph Neural Operator for Parametric Partial Differential
Equations [57.90284928158383]
物理系をシミュレーションするためのディープラーニングベースの手法を使用する際の大きな課題の1つは、物理ベースのデータの定式化である。
線形複雑度のみを用いて、あらゆる範囲の相互作用をキャプチャする、新しいマルチレベルグラフニューラルネットワークフレームワークを提案する。
実験により, 離散化不変解演算子をPDEに学習し, 線形時間で評価できることを確認した。
論文 参考訳(メタデータ) (2020-06-16T21:56:22Z) - Supervised Learning for Non-Sequential Data: A Canonical Polyadic
Decomposition Approach [85.12934750565971]
特徴相互作用の効率的なモデリングは、非順序的タスクに対する教師あり学習の基盤となる。
この問題を緩和するため、モデルパラメータをテンソルとして暗黙的に表現することが提案されている。
表現性を向上するため,任意の高次元特徴ベクトルに特徴写像を適用できるようにフレームワークを一般化する。
論文 参考訳(メタデータ) (2020-01-27T22:38:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。