論文の概要: Measuring Model Complexity of Neural Networks with Curve Activation
Functions
- arxiv url: http://arxiv.org/abs/2006.08962v1
- Date: Tue, 16 Jun 2020 07:38:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-20 19:19:55.223324
- Title: Measuring Model Complexity of Neural Networks with Curve Activation
Functions
- Title(参考訳): 曲線活性化関数を持つニューラルネットワークのモデル複雑性の測定
- Authors: Xia Hu, Weiqing Liu, Jiang Bian, Jian Pei
- Abstract要約: 本稿では,線形近似ニューラルネットワーク(LANN)を提案する。
ニューラルネットワークのトレーニングプロセスを実験的に検討し、オーバーフィッティングを検出する。
我々は、$L1$と$L2$正規化がモデルの複雑さの増加を抑制することを発見した。
- 参考スコア(独自算出の注目度): 100.98319505253797
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: It is fundamental to measure model complexity of deep neural networks. The
existing literature on model complexity mainly focuses on neural networks with
piecewise linear activation functions. Model complexity of neural networks with
general curve activation functions remains an open problem. To tackle the
challenge, in this paper, we first propose the linear approximation neural
network (LANN for short), a piecewise linear framework to approximate a given
deep model with curve activation function. LANN constructs individual piecewise
linear approximation for the activation function of each neuron, and minimizes
the number of linear regions to satisfy a required approximation degree. Then,
we analyze the upper bound of the number of linear regions formed by LANNs, and
derive the complexity measure based on the upper bound. To examine the
usefulness of the complexity measure, we experimentally explore the training
process of neural networks and detect overfitting. Our results demonstrate that
the occurrence of overfitting is positively correlated with the increase of
model complexity during training. We find that the $L^1$ and $L^2$
regularizations suppress the increase of model complexity. Finally, we propose
two approaches to prevent overfitting by directly constraining model
complexity, namely neuron pruning and customized $L^1$ regularization.
- Abstract(参考訳): ディープニューラルネットワークのモデル複雑さを測定するのが基本である。
モデル複雑性に関する既存の文献は、主に線形活性化関数を持つニューラルネットワークに焦点を当てている。
一般曲線活性化関数を持つニューラルネットワークのモデル複雑性は、まだ未解決の問題である。
そこで,本稿ではまず,曲線活性化関数を持つ深部モデルに近似する線形近似ニューラルネットワーク(LANN,Lyly Approximation Neural Network)を提案する。
LANNは各ニューロンの活性化機能に対して個別に線形近似を構築し、必要な近似度を満たすために線形領域の数を最小化する。
次に, LANNsによって形成される線形領域数の上界を解析し, 上界に基づく複雑性尺度を導出する。
複雑度測定の有用性を検討するため,ニューラルネットワークのトレーニング過程を実験的に検討し,オーバーフィッティングを検出する。
以上の結果から,オーバーフィッティングの発生はトレーニング中のモデルの複雑さの増加と正の相関を示した。
L^1$ と $L^2$ の正規化はモデル複雑性の増加を抑制する。
最後に,モデル複雑性を直接制約することにより,過剰フィッティングを防止するための2つのアプローチを提案する。
関連論文リスト
- On the Trade-off Between Efficiency and Precision of Neural Abstraction [62.046646433536104]
ニューラル抽象化は、最近、複雑な非線形力学モデルの形式近似として導入されている。
我々は形式的帰納的合成法を用いて、これらのセマンティクスを用いた動的モデルをもたらすニューラル抽象化を生成する。
論文 参考訳(メタデータ) (2023-07-28T13:22:32Z) - Efficient SGD Neural Network Training via Sublinear Activated Neuron
Identification [22.361338848134025]
本稿では,ReLUの活性化をシフトする2層ニューラルネットワークについて,幾何学的探索によるサブ線形時間における活性化ニューロンの同定を可能にする。
また、我々のアルゴリズムは、係数ノルム上界$M$とエラー項$epsilon$の2次ネットワークサイズで$O(M2/epsilon2)$時間に収束できることを示す。
論文 参考訳(メタデータ) (2023-07-13T05:33:44Z) - Provable Identifiability of Two-Layer ReLU Neural Networks via LASSO
Regularization [15.517787031620864]
LASSOの領域は、ファッショナブルで強力な非線形回帰モデルである2層ReLUニューラルネットワークに拡張される。
LASSO推定器はニューラルネットワークを安定的に再構築し,サンプル数が対数的にスケールする場合に$mathcalSstar$を識別可能であることを示す。
我々の理論は、2層ReLUニューラルネットワークのための拡張Restricted Isometry Property (RIP)ベースの分析フレームワークにある。
論文 参考訳(メタデータ) (2023-05-07T13:05:09Z) - Simultaneous approximation of a smooth function and its derivatives by
deep neural networks with piecewise-polynomial activations [2.15145758970292]
我々は、H'olderノルムの所定の近似誤差まで、任意のH'older滑らかな関数を近似するために、ディープニューラルネットワークに必要な深さ、幅、間隔を導出する。
後者の機能は、多くの統計および機械学習アプリケーションにおける一般化エラーを制御するために不可欠である。
論文 参考訳(メタデータ) (2022-06-20T01:18:29Z) - Going Beyond Linear RL: Sample Efficient Neural Function Approximation [76.57464214864756]
2層ニューラルネットワークによる関数近似について検討する。
この結果は線形(あるいは可溶性次元)法で達成できることを大幅に改善する。
論文 参考訳(メタデータ) (2021-07-14T03:03:56Z) - Provable Model-based Nonlinear Bandit and Reinforcement Learning: Shelve
Optimism, Embrace Virtual Curvature [61.22680308681648]
決定論的報酬を有する1層ニューラルネットバンディットにおいても,グローバル収束は統計的に難解であることを示す。
非線形バンディットとRLの両方に対して,オンラインモデル学習者による仮想アセンジ(Virtual Ascent with Online Model Learner)というモデルベースアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-08T12:41:56Z) - Provably Efficient Neural Estimation of Structural Equation Model: An
Adversarial Approach [144.21892195917758]
一般化構造方程式モデル(SEM)のクラスにおける推定について検討する。
線形作用素方程式をmin-maxゲームとして定式化し、ニューラルネットワーク(NN)でパラメータ化し、勾配勾配を用いてニューラルネットワークのパラメータを学習する。
提案手法は,サンプル分割を必要とせず,確固とした収束性を持つNNをベースとしたSEMの抽出可能な推定手順を初めて提供する。
論文 参考訳(メタデータ) (2020-07-02T17:55:47Z) - Multipole Graph Neural Operator for Parametric Partial Differential
Equations [57.90284928158383]
物理系をシミュレーションするためのディープラーニングベースの手法を使用する際の大きな課題の1つは、物理ベースのデータの定式化である。
線形複雑度のみを用いて、あらゆる範囲の相互作用をキャプチャする、新しいマルチレベルグラフニューラルネットワークフレームワークを提案する。
実験により, 離散化不変解演算子をPDEに学習し, 線形時間で評価できることを確認した。
論文 参考訳(メタデータ) (2020-06-16T21:56:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。