論文の概要: A Lightweight and Gradient-Stable Nerual Layer
- arxiv url: http://arxiv.org/abs/2106.04088v2
- Date: Fri, 19 May 2023 12:33:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-22 20:21:38.625217
- Title: A Lightweight and Gradient-Stable Nerual Layer
- Title(参考訳): 軽量で勾配安定な神経層
- Authors: Yueyao Yu and Yin Zhang
- Abstract要約: 本研究では,世帯重み付けと絶対値活性化に基づくニューラルネットワークアーキテクチャを提案する。
$d$-neuronsと$d$の出力を持つ完全接続層と比較して、Han層はパラメータの数とそれに対応する複雑さを$O(d2)$から$O(d)$に減らす。
- 参考スコア(独自算出の注目度): 4.6108086988674835
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a neural-layer architecture based on Householder weighting and
absolute-value activating, hence called Householder-absolute neural layer or
simply Han-layer. Compared to a fully-connected layer with $d$-neurons and $d$
outputs, a Han-layer reduces the number of parameters and the corresponding
complexity from $O(d^2)$ to $O(d)$. The Han-layer structure guarantees two
desirable properties: (1) gradient stability (free of vanishing or exploding
gradient), and (2) 1-Lipschitz continuity. Extensive numerical experiments show
that one can strategically use Han-layers to replace fully-connected (FC)
layers, reducing the number of model parameters while maintaining or even
improving the generalization performance. We will showcase the capabilities of
the Han-layer architecture on a few small stylized models, and also discuss its
current limitations.
- Abstract(参考訳): そこで本研究では,家計の重み付けと絶対値活性化に基づく神経層アーキテクチャを提案する。
d$-neurons と $d$ output の完全接続層と比較して、han-layer はパラメータの数と対応する複雑性を $o(d^2)$ から $o(d)$ に削減する。
ハン層構造は、2つの望ましい性質を保証する:(1)勾配安定性(消失または爆発勾配がない)、(2)1-リプシッツ連続性。
広範な数値実験により、完全連結(fc)層を置き換えるために戦略的にハン層を用いることができ、一般化性能を維持しつつモデルパラメータの数を減らすことができる。
いくつかの小さなスタイリングモデルでHan層アーキテクチャの機能を紹介し、その現在の限界についても論じる。
関連論文リスト
- Kronecker-Factored Approximate Curvature for Modern Neural Network
Architectures [85.76673783330334]
線形重み付け層の2つの異なる設定がクロネッカー型近似曲率(K-FAC)の2つの風味を動機付けている
重み付けをそれぞれ設定したディープ・リニア・ネットワークに対して正確であることを示す。
グラフニューラルネットワークと視覚変換器の両方をトレーニングするために、これらの2つのK-FACの違いをほとんど観測しない。
論文 参考訳(メタデータ) (2023-11-01T16:37:00Z) - MuseGNN: Interpretable and Convergent Graph Neural Network Layers at
Scale [15.93424606182961]
本稿では, ある設定における収束保証によって導かれる, サンプリングベースエネルギー関数と拡張性のあるGNN層を反復的に削減する手法を提案する。
また、これらの設計に基づいて完全なGNNアーキテクチャをインスタンス化し、1TBを超える最大公用ノード分類ベンチマークに適用した場合の競合精度とスケーラビリティを実現する。
論文 参考訳(メタデータ) (2023-10-19T04:30:14Z) - ReLU Neural Networks with Linear Layers are Biased Towards Single- and Multi-Index Models [9.96121040675476]
この原稿は、2層以上の深さのニューラルネットワークによって学習された関数の性質が予測にどのように影響するかを考察している。
我々のフレームワークは、すべて同じキャパシティを持つが表現コストが異なる、様々な深さのネットワーク群を考慮に入れている。
論文 参考訳(メタデータ) (2023-05-24T22:10:12Z) - AGNN: Alternating Graph-Regularized Neural Networks to Alleviate
Over-Smoothing [29.618952407794776]
グラフ畳み込み層(GCL)とグラフ埋め込み層(GEL)からなる交代グラフ正規化ニューラルネットワーク(AGNN)を提案する。
GELはラプラシアン埋め込み項を含むグラフ正規化最適化から導かれる。
AGNNは、いくつかの多層または多次グラフニューラルネットワークのパフォーマンス比較を含む、多数の実験を通じて評価されている。
論文 参考訳(メタデータ) (2023-04-14T09:20:03Z) - WLD-Reg: A Data-dependent Within-layer Diversity Regularizer [98.78384185493624]
ニューラルネットワークは、勾配に基づく最適化と共同で訓練された階層構造に配置された複数の層で構成されている。
我々は、この従来の「中間層」フィードバックを補うために、同じ層内での活性化の多様性を促進するために、追加の「中間層」フィードバックを補うことを提案する。
本稿では,提案手法が複数のタスクにおける最先端ニューラルネットワークモデルの性能を向上させることを実証した広範な実証研究を提案する。
論文 参考訳(メタデータ) (2023-01-03T20:57:22Z) - Improved Convergence Guarantees for Shallow Neural Networks [91.3755431537592]
勾配降下法により訓練された深度2ニューラルネットの収束度を世界最小とする。
我々のモデルには、二次損失関数による回帰、完全連結フィードフォワードアーキテクチャ、RelUアクティベーション、ガウスデータインスタンス、逆ラベルといった特徴がある。
彼らは、少なくとも我々のモデルでは、収束現象がNTK体制をはるかに超越していることを強く示唆している」。
論文 参考訳(メタデータ) (2022-12-05T14:47:52Z) - BiTAT: Neural Network Binarization with Task-dependent Aggregated
Transformation [116.26521375592759]
量子化は、与えられたニューラルネットワークの高精度ウェイトとアクティベーションを、メモリ使用量と計算量を減らすために、低精度ウェイト/アクティベーションに変換することを目的としている。
コンパクトに設計されたバックボーンアーキテクチャの極端量子化(1ビットの重み/1ビットのアクティベーション)は、深刻な性能劣化をもたらす。
本稿では,性能劣化を効果的に緩和する新しいQAT法を提案する。
論文 参考訳(メタデータ) (2022-07-04T13:25:49Z) - On Feature Learning in Neural Networks with Global Convergence
Guarantees [49.870593940818715]
勾配流(GF)を用いた広帯域ニューラルネットワーク(NN)の最適化について検討する。
入力次元がトレーニングセットのサイズ以下である場合、トレーニング損失はGFの下での線形速度で0に収束することを示す。
また、ニューラル・タンジェント・カーネル(NTK)システムとは異なり、我々の多層モデルは特徴学習を示し、NTKモデルよりも優れた一般化性能が得られることを実証的に示す。
論文 参考訳(メタデータ) (2022-04-22T15:56:43Z) - Modeling from Features: a Mean-field Framework for Over-parameterized
Deep Neural Networks [54.27962244835622]
本稿では、オーバーパラメータ化ディープニューラルネットワーク(DNN)のための新しい平均場フレームワークを提案する。
このフレームワークでは、DNNは連続的な極限におけるその特徴に対する確率測度と関数によって表現される。
本稿では、標準DNNとResidual Network(Res-Net)アーキテクチャを通してフレームワークを説明する。
論文 参考訳(メタデータ) (2020-07-03T01:37:16Z) - High-dimensional Neural Feature Design for Layer-wise Reduction of
Training Cost [47.34374677507664]
特徴ベクトルを各層の高次元空間にマッピングすることで,ReLUに基づく多層ニューラルネットワークを設計する。
提案アーキテクチャはノルム保存であり,可逆的特徴ベクトルを提供する。
論文 参考訳(メタデータ) (2020-03-29T15:57:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。