論文の概要: Globally Optimal Training of Neural Networks with Threshold Activation
Functions
- arxiv url: http://arxiv.org/abs/2303.03382v1
- Date: Mon, 6 Mar 2023 18:59:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-07 14:44:00.208269
- Title: Globally Optimal Training of Neural Networks with Threshold Activation
Functions
- Title(参考訳): 閾値活性化機能を有するニューラルネットワークのグローバル最適学習
- Authors: Tolga Ergen, Halil Ibrahim Gulluk, Jonathan Lacotte, Mert Pilanci
- Abstract要約: しきい値アクティベートを伴うディープニューラルネットワークの重み劣化正規化学習問題について検討した。
ネットワークの特定の層でデータセットを破砕できる場合に、簡易な凸最適化の定式化を導出する。
- 参考スコア(独自算出の注目度): 63.03759813952481
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Threshold activation functions are highly preferable in neural networks due
to their efficiency in hardware implementations. Moreover, their mode of
operation is more interpretable and resembles that of biological neurons.
However, traditional gradient based algorithms such as Gradient Descent cannot
be used to train the parameters of neural networks with threshold activations
since the activation function has zero gradient except at a single
non-differentiable point. To this end, we study weight decay regularized
training problems of deep neural networks with threshold activations. We first
show that regularized deep threshold network training problems can be
equivalently formulated as a standard convex optimization problem, which
parallels the LASSO method, provided that the last hidden layer width exceeds a
certain threshold. We also derive a simplified convex optimization formulation
when the dataset can be shattered at a certain layer of the network. We
corroborate our theoretical results with various numerical experiments.
- Abstract(参考訳): 閾値アクティベーション関数は、ハードウェア実装の効率性から、ニューラルネットワークにおいて非常に好ましい。
さらに、その操作様式はより解釈可能であり、生物学的ニューロンに類似している。
しかし、グラディエントDescentのような従来の勾配に基づくアルゴリズムは、アクティベーション関数が1つの非微分可能点を除いて勾配がゼロであるため、しきい値のアクティベーションを持つニューラルネットワークのパラメータのトレーニングには使用できない。
そこで本研究では,しきい値アクティベーションを有するディープニューラルネットワークの重み劣化正規化トレーニング問題について検討する。
まず,ラッソ法に準ずる標準凸最適化問題として正規化ディープ閾値ネットワークトレーニング問題を等価に定式化できることを示す。
また、ネットワークの特定の層でデータセットを破砕できる場合に、簡易な凸最適化定式化を導出する。
我々は様々な数値実験で理論結果を裏付ける。
関連論文リスト
- Concurrent Training and Layer Pruning of Deep Neural Networks [0.0]
トレーニングの初期段階において、ニューラルネットワークの無関係な層を特定し、排除できるアルゴリズムを提案する。
本研究では,非線形区間を切断した後にネットワークを流れる情報の流れを,非線形ネットワーク区間の周囲の残差接続を用いた構造を用いる。
論文 参考訳(メタデータ) (2024-06-06T23:19:57Z) - Improving Generalization of Deep Neural Networks by Optimum Shifting [33.092571599896814]
本稿では,ニューラルネットワークのパラメータを最小値からフラット値に変化させる,近位シフトと呼ばれる新しい手法を提案する。
本手法は,ニューラルネットワークの入力と出力が固定された場合,ネットワーク内の行列乗算を,未決定線形方程式系として扱うことができることを示す。
論文 参考訳(メタデータ) (2024-05-23T02:31:55Z) - Convergence Analysis for Learning Orthonormal Deep Linear Neural
Networks [27.29463801531576]
本稿では,正規直交深部線形ニューラルネットワークの学習のための収束解析について述べる。
その結果、隠れた層の増加が収束速度にどのように影響するかが明らかになった。
論文 参考訳(メタデータ) (2023-11-24T18:46:54Z) - Simple initialization and parametrization of sinusoidal networks via
their kernel bandwidth [92.25666446274188]
従来の活性化機能を持つネットワークの代替として、活性化を伴う正弦波ニューラルネットワークが提案されている。
まず,このような正弦波ニューラルネットワークの簡易版を提案する。
次に、ニューラルタンジェントカーネルの観点からこれらのネットワークの挙動を分析し、そのカーネルが調整可能な帯域幅を持つ低域フィルタを近似することを実証する。
論文 参考訳(メタデータ) (2022-11-26T07:41:48Z) - A Dynamical View on Optimization Algorithms of Overparameterized Neural
Networks [23.038631072178735]
我々は、一般的に使用される最適化アルゴリズムの幅広いクラスについて考察する。
その結果、ニューラルネットワークの収束挙動を利用することができる。
このアプローチは他の最適化アルゴリズムやネットワーク理論にも拡張できると考えています。
論文 参考訳(メタデータ) (2020-10-25T17:10:22Z) - Optimization Theory for ReLU Neural Networks Trained with Normalization
Layers [82.61117235807606]
ディープニューラルネットワークの成功は、部分的には正規化レイヤの使用によるものだ。
我々の分析は、正規化の導入がランドスケープをどのように変化させ、より高速なアクティベーションを実現するかを示している。
論文 参考訳(メタデータ) (2020-06-11T23:55:54Z) - Revisiting Initialization of Neural Networks [72.24615341588846]
ヘッセン行列のノルムを近似し, 制御することにより, 層間における重みのグローバルな曲率を厳密に推定する。
Word2Vec と MNIST/CIFAR 画像分類タスクの実験により,Hessian ノルムの追跡が診断ツールとして有用であることが確認された。
論文 参考訳(メタデータ) (2020-04-20T18:12:56Z) - Beyond Dropout: Feature Map Distortion to Regularize Deep Neural
Networks [107.77595511218429]
本稿では,ディープニューラルネットワークの中間層に関連する実験的なRademacher複雑性について検討する。
上記の問題に対処するための特徴歪み法(Disout)を提案する。
より高い試験性能を有するディープニューラルネットワークを作製するための特徴写像歪みの優位性を解析し、実証した。
論文 参考訳(メタデータ) (2020-02-23T13:59:13Z) - A Deep Conditioning Treatment of Neural Networks [37.192369308257504]
本研究では,入力データの特定のカーネル行列の条件付けを改善することにより,ニューラルネットワークのトレーニング性を向上させることを示す。
ニューラルネットワークの上位層のみのトレーニングと、ニューラルネットワークのタンジェントカーネルを通じてすべてのレイヤをトレーニングするための学習を行うためのバージョンを提供しています。
論文 参考訳(メタデータ) (2020-02-04T20:21:36Z) - MSE-Optimal Neural Network Initialization via Layer Fusion [68.72356718879428]
ディープニューラルネットワークは、さまざまな分類と推論タスクに対して最先端のパフォーマンスを達成する。
グラデーションと非進化性の組み合わせは、学習を新しい問題の影響を受けやすいものにする。
確率変数を用いて学習した深層ネットワークの近傍層を融合する手法を提案する。
論文 参考訳(メタデータ) (2020-01-28T18:25:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。