論文の概要: Solution space and storage capacity of fully connected two-layer neural networks with generic activation functions
- arxiv url: http://arxiv.org/abs/2404.13404v1
- Date: Sat, 20 Apr 2024 15:12:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-23 19:10:11.624776
- Title: Solution space and storage capacity of fully connected two-layer neural networks with generic activation functions
- Title(参考訳): 一般活性化機能を有する完全連結二層ニューラルネットワークの解空間と記憶容量
- Authors: Sota Nishiyama, Masayuki Ohzeki,
- Abstract要約: 二項分類モデルの記憶容量は、モデルが学習できるパラメータ毎のランダムな入出力ペアの最大数である。
一般活性化機能を持つ完全連結二層ニューラルネットワークの解空間の構造と記憶容量を解析する。
- 参考スコア(独自算出の注目度): 0.552480439325792
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The storage capacity of a binary classification model is the maximum number of random input-output pairs per parameter that the model can learn. It is one of the indicators of the expressive power of machine learning models and is important for comparing the performance of various models. In this study, we analyze the structure of the solution space and the storage capacity of fully connected two-layer neural networks with general activation functions using the replica method from statistical physics. Our results demonstrate that the storage capacity per parameter remains finite even with infinite width and that the weights of the network exhibit negative correlations, leading to a 'division of labor'. In addition, we find that increasing the dataset size triggers a phase transition at a certain transition point where the permutation symmetry of weights is broken, resulting in the solution space splitting into disjoint regions. We identify the dependence of this transition point and the storage capacity on the choice of activation function. These findings contribute to understanding the influence of activation functions and the number of parameters on the structure of the solution space, potentially offering insights for selecting appropriate architectures based on specific objectives.
- Abstract(参考訳): 二項分類モデルの記憶能力は、モデルが学習できるパラメータ毎のランダムな入出力ペアの最大数である。
機械学習モデルの表現力の指標の一つであり,様々なモデルの性能を比較する上で重要である。
本研究では, 統計物理学のレプリカ法を用いて, 一般活性化関数を持つ完全連結二層ニューラルネットワークの解空間の構造と記憶容量を解析した。
その結果, パラメータあたりの記憶容量は無限幅でも有限であり, ネットワークの重みは負の相関を示し, 結果として「労働の分断」が生じることがわかった。
さらに, データセットサイズの増加は, 重みの置換対称性が損なわれ, 解空間が非結合領域に分裂する特定の遷移点において, 相転移を引き起こすことが判明した。
この遷移点と記憶容量のアクティベーション関数の選択に対する依存性を同定する。
これらの知見は, アクティベーション関数の影響と, パラメータ数が解空間の構造に与える影響の理解に寄与し, 特定の目的に基づいて適切なアーキテクチャを選択するための洞察を提供する可能性がある。
関連論文リスト
- Heterogeneous quantization regularizes spiking neural network activity [0.0]
本稿では、アナログデータを正規化し、スパイク位相表現に量子化する、データブラインドニューロモルフィック信号条件付け戦略を提案する。
我々は、量子化重みの範囲と密度が蓄積された入力統計に適応するデータ認識キャリブレーションステップを追加することで、このメカニズムを拡張した。
論文 参考訳(メタデータ) (2024-09-27T02:25:44Z) - Multilayer Multiset Neuronal Networks -- MMNNs [55.2480439325792]
本研究は,2層以上の類似性ニューロンを組み込んだ多層神経回路網について述べる。
また,回避すべき画像領域に割り当てられる反プロトタイプ点の利用についても検討した。
論文 参考訳(メタデータ) (2023-08-28T12:55:13Z) - ENN: A Neural Network with DCT Adaptive Activation Functions [2.2713084727838115]
離散コサイン変換(DCT)を用いて非線形活性化関数をモデル化する新しいモデルであるExpressive Neural Network(ENN)を提案する。
このパラメータ化は、トレーニング可能なパラメータの数を低く保ち、勾配ベースのスキームに適合し、異なる学習タスクに適応する。
ENNのパフォーマンスは、いくつかのシナリオにおいて40%以上の精度のギャップを提供する、アートベンチマークの状態を上回ります。
論文 参考訳(メタデータ) (2023-07-02T21:46:30Z) - Expand-and-Cluster: Parameter Recovery of Neural Networks [9.497862562614666]
それぞれのニューロンの重みベクトルは,活性化関数に応じて,サインやスケーリングが可能であることを示す。
提案手法は, 一般的に使用されるすべてのアクティベーション関数に対して, 対象ネットワークの重みを同定する。
論文 参考訳(メタデータ) (2023-04-25T13:14:20Z) - Capacity Studies for a Differential Growing Neural Gas [0.0]
本研究では,Fashion-MNISTデータセット上での2層DGNGグリッドセルモデルのキャパシティを評価する。
DGNGモデルは入力空間の有意義かつ妥当な表現を得ることができると結論付けている。
論文 参考訳(メタデータ) (2022-12-23T13:19:48Z) - A Solvable Model of Neural Scaling Laws [72.8349503901712]
大量のパラメータを持つ大規模な言語モデルは、インターネットに近い数のトークンで訓練されると、ニューラルネットワークのスケーリング法則に従うことが実証的に示されている。
我々は,このニューラルスケーリング現象を捉える統計モデル(共同生成データモデルとランダム特徴モデル)を提案する。
主な発見は、自然データセットの統計に現れる電力法則が非線形ランダムな特徴写像によって拡張される方法である。
論文 参考訳(メタデータ) (2022-10-30T15:13:18Z) - CSformer: Bridging Convolution and Transformer for Compressive Sensing [65.22377493627687]
本稿では,CNNからの詳細な空間情報を活用するためのハイブリッドフレームワークと,表現学習の強化を目的としたトランスフォーマーが提供するグローバルコンテキストを統合することを提案する。
提案手法は、適応的なサンプリングとリカバリからなるエンドツーエンドの圧縮画像センシング手法である。
実験により, 圧縮センシングにおける専用トランスアーキテクチャの有効性が示された。
論文 参考訳(メタデータ) (2021-12-31T04:37:11Z) - Deep recurrent networks predicting the gap evolution in adiabatic
quantum computing [0.0]
ハミルトン問題を完全に同定するパラメータからギャップのパラメトリック依存への写像を発見するためのディープラーニングの可能性を探る。
本稿では,パラメータ空間がシステムサイズと線形にスケールする場合に,長期記憶ネットワークがギャップを予測することに成功していることを示す。
注目すべきは、このアーキテクチャがモデルの空間構造を扱うために畳み込みニューラルネットワークと組み合わされると、トレーニング中にニューラルネットワークで見られるものよりも大きなシステムサイズに対してギャップ進化を予測できることである。
論文 参考訳(メタデータ) (2021-09-17T12:08:57Z) - A Trainable Optimal Transport Embedding for Feature Aggregation and its
Relationship to Attention [96.77554122595578]
固定サイズのパラメータ化表現を導入し、与えられた入力セットから、そのセットとトレーニング可能な参照の間の最適な輸送計画に従って要素を埋め込み、集約する。
我々のアプローチは大規模なデータセットにスケールし、参照のエンドツーエンドのトレーニングを可能にすると同時に、計算コストの少ない単純な教師なし学習メカニズムも提供する。
論文 参考訳(メタデータ) (2020-06-22T08:35:58Z) - Spatially Adaptive Inference with Stochastic Feature Sampling and
Interpolation [72.40827239394565]
スパースサンプリングされた場所のみの機能を計算することを提案する。
次に、効率的な手順で特徴写像を密に再構築する。
提案したネットワークは、様々なコンピュータビジョンタスクの精度を維持しながら、かなりの計算を省くために実験的に示されている。
論文 参考訳(メタデータ) (2020-03-19T15:36:31Z) - Supervised Learning for Non-Sequential Data: A Canonical Polyadic
Decomposition Approach [85.12934750565971]
特徴相互作用の効率的なモデリングは、非順序的タスクに対する教師あり学習の基盤となる。
この問題を緩和するため、モデルパラメータをテンソルとして暗黙的に表現することが提案されている。
表現性を向上するため,任意の高次元特徴ベクトルに特徴写像を適用できるようにフレームワークを一般化する。
論文 参考訳(メタデータ) (2020-01-27T22:38:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。