論文の概要: Stable Recovery of Entangled Weights: Towards Robust Identification of
Deep Neural Networks from Minimal Samples
- arxiv url: http://arxiv.org/abs/2101.07150v1
- Date: Mon, 18 Jan 2021 16:31:19 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-27 05:53:24.025872
- Title: Stable Recovery of Entangled Weights: Towards Robust Identification of
Deep Neural Networks from Minimal Samples
- Title(参考訳): 絡み合う重みの安定回復 : 極小サンプルからの深層ニューラルネットワークのロバスト同定に向けて
- Authors: Christian Fiedler, Massimo Fornasier, Timo Klock, and Michael
Rauchensteiner
- Abstract要約: 連続した層の重みを、活性化関数とそのシフトに応じて適切な対角行列と反転行列と絡み合ういわゆる絡み合い重みを紹介します。
エンタングル重みは効率的でロバストなアルゴリズムによって完全かつ安定に近似することが証明される。
本研究は,入力出力情報をネットワークパラメータに一意かつ安定的に関連付けることができ,説明可能性の一形態を提供する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper we approach the problem of unique and stable identifiability of
generic deep artificial neural networks with pyramidal shape and smooth
activation functions from a finite number of input-output samples. More
specifically we introduce the so-called entangled weights, which compose
weights of successive layers intertwined with suitable diagonal and invertible
matrices depending on the activation functions and their shifts. We prove that
entangled weights are completely and stably approximated by an efficient and
robust algorithm as soon as $\mathcal O(D^2 \times m)$ nonadaptive input-output
samples of the network are collected, where $D$ is the input dimension and $m$
is the number of neurons of the network. Moreover, we empirically observe that
the approach applies to networks with up to $\mathcal O(D \times m_L)$ neurons,
where $m_L$ is the number of output neurons at layer $L$. Provided knowledge of
layer assignments of entangled weights and of remaining scaling and shift
parameters, which may be further heuristically obtained by least squares, the
entangled weights identify the network completely and uniquely. To highlight
the relevance of the theoretical result of stable recovery of entangled
weights, we present numerical experiments, which demonstrate that multilayered
networks with generic weights can be robustly identified and therefore
uniformly approximated by the presented algorithmic pipeline. In contrast
backpropagation cannot generalize stably very well in this setting, being
always limited by relatively large uniform error. In terms of practical impact,
our study shows that we can relate input-output information uniquely and stably
to network parameters, providing a form of explainability. Moreover, our method
paves the way for compression of overparametrized networks and for the training
of minimal complexity networks.
- Abstract(参考訳): 本稿では,有限個の入力出力サンプルから,ピラミッド形状とスムーズな活性化関数を有する汎用深層ニューラルネットワークの特異かつ安定した識別性の問題にアプローチする。
より具体的には、活性化関数とそのシフトに応じて、適切な対角行列および可逆行列と交差する連続層の重みを構成するいわゆる絡み合い重みを導入する。
エンタングル重みは、ネットワークの$\mathcal o(d^2 \times m)$非適応入出力サンプルが収集され、$d$が入力次元、$m$がネットワークのニューロン数であることが証明される。
さらに、このアプローチは最大$\mathcal o(d \times m_l)$ニューロンのネットワークに適用され、ここで$m_l$は層$l$の出力ニューロンの数である。
エンタングル重みの層割り当てと、最小二乗でさらにヒューリスティックに得られるかもしれないスケーリングとシフトパラメータの残差に関する知識により、エンタングル重みはネットワークを完全に一意的に識別する。
絡み合った重みの安定回復に関する理論的結果の妥当性を明らかにするため, 一般化重み付き多層ネットワークを頑健に同定し, 提案したアルゴリズムパイプラインにより一様に近似できることを示す数値実験を行った。
対照的に、バックプロパゲーションはこの設定では安定に一般化することができず、常に比較的大きな均一誤差によって制限される。
本研究は,入力出力情報をネットワークパラメータに一意かつ安定的に関連付けることができ,説明可能性の一形態を提供する。
さらに, 過パラメータ化ネットワークの圧縮や, 最小複雑性ネットワークのトレーニングを行う方法を提案する。
関連論文リスト
- Network reconstruction via the minimum description length principle [0.0]
階層的ベイズ推定と重み量子化に基づく別の非パラメトリック正則化スキームを提案する。
提案手法は最小記述長 (MDL) の原理に従い, データの最大圧縮を可能にする重み分布を明らかにする。
提案手法は, 人工ネットワークと経験ネットワークの再構築において, 体系的に精度を向上することを示した。
論文 参考訳(メタデータ) (2024-05-02T05:35:09Z) - Convergence of Gradient Descent for Recurrent Neural Networks: A Nonasymptotic Analysis [16.893624100273108]
教師付き学習環境において,勾配降下を訓練した斜め隠れ重み行列を用いた繰り返しニューラルネットワークの解析を行った。
我々は,パラメータ化を伴わずに勾配降下が最適性を実現することを証明した。
この結果は、繰り返しニューラルネットワークによって近似および学習できる力学系のクラスを明示的に評価することに基づいている。
論文 参考訳(メタデータ) (2024-02-19T15:56:43Z) - SPFQ: A Stochastic Algorithm and Its Error Analysis for Neural Network
Quantization [5.982922468400901]
ニューラルネットワークの重みの順に得られる誤差境界を達成可能であることを示す。
我々は、無限アルファベットと入力データに対する最小の仮定の下で、完全なネットワーク境界を達成できることを証明した。
論文 参考訳(メタデータ) (2023-09-20T00:35:16Z) - Computational Complexity of Learning Neural Networks: Smoothness and
Degeneracy [52.40331776572531]
ガウス入力分布下での学習深度3$ReLUネットワークはスムーズな解析フレームワークにおいても困難であることを示す。
この結果は, 局所擬似乱数発生器の存在についてよく研究されている。
論文 参考訳(メタデータ) (2023-02-15T02:00:26Z) - Finite Sample Identification of Wide Shallow Neural Networks with Biases [12.622813055808411]
入力-出力対の有限標本からネットワークのパラメータを同定することは、しばしばエンプテラー-学生モデル(enmphteacher-student model)と呼ばれる。
本稿では,このような幅の広い浅層ネットワークに対して,構成的手法と有限標本同定の理論的保証を提供することにより,そのギャップを埋める。
論文 参考訳(メタデータ) (2022-11-08T22:10:32Z) - Robust Training and Verification of Implicit Neural Networks: A
Non-Euclidean Contractive Approach [64.23331120621118]
本稿では,暗黙的ニューラルネットワークのトレーニングとロバスト性検証のための理論的および計算的枠組みを提案する。
組込みネットワークを導入し、組込みネットワークを用いて、元のネットワークの到達可能な集合の超近似として$ell_infty$-normボックスを提供することを示す。
MNISTデータセット上で暗黙的なニューラルネットワークをトレーニングするためにアルゴリズムを適用し、我々のモデルの堅牢性と、文献における既存のアプローチを通じてトレーニングされたモデルを比較する。
論文 参考訳(メタデータ) (2022-08-08T03:13:24Z) - BiTAT: Neural Network Binarization with Task-dependent Aggregated
Transformation [116.26521375592759]
量子化は、与えられたニューラルネットワークの高精度ウェイトとアクティベーションを、メモリ使用量と計算量を減らすために、低精度ウェイト/アクティベーションに変換することを目的としている。
コンパクトに設計されたバックボーンアーキテクチャの極端量子化(1ビットの重み/1ビットのアクティベーション)は、深刻な性能劣化をもたらす。
本稿では,性能劣化を効果的に緩和する新しいQAT法を提案する。
論文 参考訳(メタデータ) (2022-07-04T13:25:49Z) - On the Effective Number of Linear Regions in Shallow Univariate ReLU
Networks: Convergence Guarantees and Implicit Bias [50.84569563188485]
我々は、ラベルが$r$のニューロンを持つターゲットネットワークの符号によって決定されるとき、勾配流が方向収束することを示す。
我々の結果は、標本サイズによらず、幅が$tildemathcalO(r)$である、緩やかなオーバーパラメータ化をすでに維持しているかもしれない。
論文 参考訳(メタデータ) (2022-05-18T16:57:10Z) - Stability of Deep Neural Networks via discrete rough paths [0.0]
入力データとトレーニングされたネットワーク重みの両面から,Deep Residual Neural Networksの出力の事前推定を行う。
我々は、残差ニューラルネットワークを(粗)差分方程式の解として解釈し、離散時間シグネチャと粗経路理論の最近の結果に基づいてそれらを解析する。
論文 参考訳(メタデータ) (2022-01-19T12:40:28Z) - The Separation Capacity of Random Neural Networks [78.25060223808936]
標準ガウス重みと一様分布バイアスを持つ十分に大きな2層ReLUネットワークは、この問題を高い確率で解くことができることを示す。
我々は、相互複雑性という新しい概念の観点から、データの関連構造を定量化する。
論文 参考訳(メタデータ) (2021-07-31T10:25:26Z) - Artificial Neural Networks generated by Low Discrepancy Sequences [59.51653996175648]
我々は、高密度ネットワークグラフ上のランダムウォーキングとして、人工ニューラルネットワークを生成する。
このようなネットワークはスクラッチからスパースを訓練することができ、高密度ネットワークをトレーニングし、その後圧縮する高価な手順を避けることができる。
我々は,低差分シーケンスで生成された人工ニューラルネットワークが,より低い計算複雑性で,密度の高いニューラルネットワークの到達範囲内で精度を達成できることを実証した。
論文 参考訳(メタデータ) (2021-03-05T08:45:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。