論文の概要: On the training of sparse and dense deep neural networks: less
parameters, same performance
- arxiv url: http://arxiv.org/abs/2106.09021v1
- Date: Thu, 17 Jun 2021 14:54:23 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-18 15:37:43.350824
- Title: On the training of sparse and dense deep neural networks: less
parameters, same performance
- Title(参考訳): ばらばらで密集したディープニューラルネットワークのトレーニングについて:パラメータの低減と同等の性能
- Authors: Lorenzo Chicchi, Lorenzo Giambagli, Lorenzo Buffoni, Timoteo Carletti,
Marco Ciavarella, Duccio Fanelli
- Abstract要約: 本稿では,2021年に発表されたスペクトル学習手法の変種を提案する。
固有値は検証可能なノブとして機能し、(i)入力ノードの寄与を増強したり、あるいは沈黙したりするために自由に調整することができる。
それぞれのスペクトルパラメータはノード間重みの集合全体を反映しており、この特性を効果的に活用し、見事な分類能力を持つスパースネットワークを創出する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep neural networks can be trained in reciprocal space, by acting on the
eigenvalues and eigenvectors of suitable transfer operators in direct space.
Adjusting the eigenvalues, while freezing the eigenvectors, yields a
substantial compression of the parameter space. This latter scales by
definition with the number of computing neurons. The classification scores, as
measured by the displayed accuracy, are however inferior to those attained when
the learning is carried in direct space, for an identical architecture and by
employing the full set of trainable parameters (with a quadratic dependence on
the size of neighbor layers). In this Letter, we propose a variant of the
spectral learning method as appeared in Giambagli et al {Nat. Comm.} 2021,
which leverages on two sets of eigenvalues, for each mapping between adjacent
layers. The eigenvalues act as veritable knobs which can be freely tuned so as
to (i) enhance, or alternatively silence, the contribution of the input nodes,
(ii) modulate the excitability of the receiving nodes with a mechanism which we
interpret as the artificial analogue of the homeostatic plasticity. The number
of trainable parameters is still a linear function of the network size, but the
performances of the trained device gets much closer to those obtained via
conventional algorithms, these latter requiring however a considerably heavier
computational cost. The residual gap between conventional and spectral
trainings can be eventually filled by employing a suitable decomposition for
the non trivial block of the eigenvectors matrix. Each spectral parameter
reflects back on the whole set of inter-nodes weights, an attribute which we
shall effectively exploit to yield sparse networks with stunning classification
abilities, as compared to their homologues trained with conventional means.
- Abstract(参考訳): ディープニューラルネットワークは、直接空間における適切な転送作用素の固有値と固有ベクトルに作用することで、相互空間で訓練することができる。
固有値の調整は固有ベクトルを凍結しながらパラメータ空間の実質的な圧縮をもたらす。
この後者は、定義によって計算ニューロンの数でスケールする。
しかし、表示された精度で測定された分類スコアは、同一のアーキテクチャで、訓練可能なパラメータの完全なセット(隣接層の大きさに二次依存)を使用することで、学習が直接空間で実行される場合のそれよりも劣る。
本報告では, giambagli et al {nat>に現れるスペクトル学習法の変種を提案する。
Comm.}
2021年、隣接する各層間のマッピングに2つの固有値セットを利用する。
固有値は、(i)入力ノードの寄与を増大させる、または(ii)ホメオスタティックな可塑性の人工的類似体として解釈するメカニズムで、受信ノードの興奮性を調節するために、自由に調整できる検証可能なノブとして機能する。
トレーニング可能なパラメータの数は依然としてネットワークサイズの線形関数であるが、トレーニングされたデバイスの性能は従来のアルゴリズムよりもはるかに近くなる。
固有ベクトル行列の非自明なブロックに対して適切な分解を用いることで、従来の訓練とスペクトルトレーニングの間の残差を埋めることができる。
それぞれのスペクトルパラメータはノード間重みの集合全体を反映しており、従来の手法で訓練されたホモログと比較して、顕著な分類能力を持つスパースネットワークを効果的に活用する。
関連論文リスト
- Enhancing lattice kinetic schemes for fluid dynamics with Lattice-Equivariant Neural Networks [79.16635054977068]
我々はLattice-Equivariant Neural Networks (LENNs)と呼ばれる新しい同変ニューラルネットワークのクラスを提案する。
我々の手法は、ニューラルネットワークに基づく代理モデルLattice Boltzmann衝突作用素の学習を目的とした、最近導入されたフレームワーク内で開発されている。
本研究は,実世界のシミュレーションにおける機械学習強化Lattice Boltzmann CFDの実用化に向けて展開する。
論文 参考訳(メタデータ) (2024-05-22T17:23:15Z) - ReLU Neural Networks with Linear Layers are Biased Towards Single- and Multi-Index Models [9.96121040675476]
この原稿は、2層以上の深さのニューラルネットワークによって学習された関数の性質が予測にどのように影響するかを考察している。
我々のフレームワークは、すべて同じキャパシティを持つが表現コストが異なる、様々な深さのネットワーク群を考慮に入れている。
論文 参考訳(メタデータ) (2023-05-24T22:10:12Z) - Operator relaxation and the optimal depth of classical shadows [0.0]
浅い影を通してパウリ作用素の期待値を学ぶ際のサンプル複雑性について研究する。」
シャドウノルムは、ランダム化回路の下での作用素のハイゼンベルク時間発展の特性で表されることを示す。
論文 参考訳(メタデータ) (2022-12-22T18:46:46Z) - Exploring the role of parameters in variational quantum algorithms [59.20947681019466]
動的リー代数の階数を用いた変分量子回路のキャラクタリゼーションのための量子制御に着想を得た手法を提案する。
有望な接続は、リーランク、計算されたエネルギーの精度、および所定の回路アーキテクチャを介して目標状態を達成するために必要な深さとの間のものである。
論文 参考訳(メタデータ) (2022-09-28T20:24:53Z) - A research framework for writing differentiable PDE discretizations in
JAX [3.4389358108344257]
微分可能シミュレータは、強化学習から最適制御まで、いくつかの分野で応用される新しい概念である。
連続関数の族間の写像として作用素を表現し、有限ベクトルでパラメタ化することにより、微分可能作用素と離散化のライブラリを提案する。
本稿では、フーリエスペクトル法を用いてヘルムホルツ方程式を離散化し、勾配勾配を用いて微分可能性を示し、音響レンズの音速を最適化する音響最適化問題に対するアプローチを示す。
論文 参考訳(メタデータ) (2021-11-09T15:58:44Z) - Connecting Weighted Automata, Tensor Networks and Recurrent Neural
Networks through Spectral Learning [58.14930566993063]
我々は、形式言語と言語学からの重み付き有限オートマトン(WFA)、機械学習で使用されるリカレントニューラルネットワーク、テンソルネットワークの3つのモデル間の接続を提示する。
本稿では,連続ベクトル入力の列上に定義された線形2-RNNに対する最初の証明可能な学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-10-19T15:28:00Z) - Training Invertible Linear Layers through Rank-One Perturbations [0.0]
この研究は、非可逆線形層をトレーニングするための新しいアプローチを示す。
ネットワークパラメータを直接最適化する代わりに、ランク1の摂動を訓練し、しばしば実際の重み行列に追加する。
このような非可逆ブロックが混合性を改善し, 結果として発生する流れのモード分離を正規化する方法を示す。
論文 参考訳(メタデータ) (2020-10-14T12:43:47Z) - Provably Efficient Neural Estimation of Structural Equation Model: An
Adversarial Approach [144.21892195917758]
一般化構造方程式モデル(SEM)のクラスにおける推定について検討する。
線形作用素方程式をmin-maxゲームとして定式化し、ニューラルネットワーク(NN)でパラメータ化し、勾配勾配を用いてニューラルネットワークのパラメータを学習する。
提案手法は,サンプル分割を必要とせず,確固とした収束性を持つNNをベースとしたSEMの抽出可能な推定手順を初めて提供する。
論文 参考訳(メタデータ) (2020-07-02T17:55:47Z) - Machine learning in spectral domain [4.724825031148412]
固有値のチューニングは、実際には、ニューラルネットワークのグローバルなトレーニングの実行に対応しています。
固有値に結合したスペクトル学習は、ディープニューラルネットワークの事前トレーニングにも使用できる。
論文 参考訳(メタデータ) (2020-05-29T07:55:37Z) - Spatially Adaptive Inference with Stochastic Feature Sampling and
Interpolation [72.40827239394565]
スパースサンプリングされた場所のみの機能を計算することを提案する。
次に、効率的な手順で特徴写像を密に再構築する。
提案したネットワークは、様々なコンピュータビジョンタスクの精度を維持しながら、かなりの計算を省くために実験的に示されている。
論文 参考訳(メタデータ) (2020-03-19T15:36:31Z) - Supervised Learning for Non-Sequential Data: A Canonical Polyadic
Decomposition Approach [85.12934750565971]
特徴相互作用の効率的なモデリングは、非順序的タスクに対する教師あり学習の基盤となる。
この問題を緩和するため、モデルパラメータをテンソルとして暗黙的に表現することが提案されている。
表現性を向上するため,任意の高次元特徴ベクトルに特徴写像を適用できるようにフレームワークを一般化する。
論文 参考訳(メタデータ) (2020-01-27T22:38:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。