論文の概要: Why Unsupervised Deep Networks Generalize
- arxiv url: http://arxiv.org/abs/2012.03531v1
- Date: Mon, 7 Dec 2020 08:45:20 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-21 03:36:10.363803
- Title: Why Unsupervised Deep Networks Generalize
- Title(参考訳): 教師なしのディープネットワークが一般化する理由
- Authors: Anita de Mello Koch, Ellen de Mello Koch, Robert de Mello Koch
- Abstract要約: 深層ネットワークにおけるパラメータの数は,単純な推定値よりもはるかに少ないことを示す。
我々の中心的な仮説は、再正規化グループの背後にあるメカニズムが深層学習にも取り組んでいるということである。
本稿では,主にオートエンコーダに注目し,学習データセットから直接ネットワークのパラメータを決定するアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Promising resolutions of the generalization puzzle observe that the actual
number of parameters in a deep network is much smaller than naive estimates
suggest. The renormalization group is a compelling example of a problem which
has very few parameters, despite the fact that naive estimates suggest
otherwise. Our central hypothesis is that the mechanisms behind the
renormalization group are also at work in deep learning, and that this leads to
a resolution of the generalization puzzle. We show detailed quantitative
evidence that proves the hypothesis for an RBM, by showing that the trained RBM
is discarding high momentum modes. Specializing attention mainly to
autoencoders, we give an algorithm to determine the network's parameters
directly from the learning data set. The resulting autoencoder almost performs
as well as one trained by deep learning, and it provides an excellent initial
condition for training, reducing training times by a factor between 4 and 100
for the experiments we considered. Further, we are able to suggest a simple
criterion to decide if a given problem can or can not be solved using a deep
network.
- Abstract(参考訳): 一般化パズルの解法を仮定すると、深いネットワーク内のパラメータの実際の数は、単純な推定よりもはるかに小さい。
再正規化群(renormalization group)は、ナイーブな推定がそうではないことを示唆しているにもかかわらず、パラメータが極めて少ない問題の説得力のある例である。
我々の中心的な仮説は、再正規化群の背後にあるメカニズムも深層学習に取り組んでおり、これが一般化パズルの解決につながるということである。
トレーニングされたRBMが高運動量モードを捨てていることを示すことによって、RBMの仮説を証明する詳細な定量的証拠を示す。
本稿では,主にオートエンコーダに注目し,学習データセットから直接ネットワークのパラメータを決定するアルゴリズムを提案する。
その結果得られたオートエンコーダは,ディープラーニングによるトレーニングとほぼ同等の性能を持ち,トレーニング初期条件が良好であり,検討した実験では4~100倍のトレーニング時間を短縮できる。
さらに,特定の問題をディープネットワークで解決できるのか,あるいは解決できないのかを判断するための簡単な基準を提案することができる。
関連論文リスト
- Unsupervised Learning of Initialization in Deep Neural Networks via
Maximum Mean Discrepancy [74.34895342081407]
本稿では,入力データに対する優れた初期化を求めるための教師なしアルゴリズムを提案する。
まず、パラメータ空間における各パラメータ構成が、d-way分類の特定の下流タスクに対応することに気付く。
次に、学習の成功は、初期パラメータの近傍で下流タスクがいかに多様であるかに直接関連していると推測する。
論文 参考訳(メタデータ) (2023-02-08T23:23:28Z) - Finite Sample Identification of Wide Shallow Neural Networks with Biases [12.622813055808411]
入力-出力対の有限標本からネットワークのパラメータを同定することは、しばしばエンプテラー-学生モデル(enmphteacher-student model)と呼ばれる。
本稿では,このような幅の広い浅層ネットワークに対して,構成的手法と有限標本同定の理論的保証を提供することにより,そのギャップを埋める。
論文 参考訳(メタデータ) (2022-11-08T22:10:32Z) - On the optimization and generalization of overparameterized implicit
neural networks [25.237054775800164]
機械学習コミュニティでは、暗黙のニューラルネットワークがますます魅力的になっている。
暗黙の層のみを訓練しても,グローバル収束が保証されることを示す。
本稿では,暗黙的ニューラルネットワークの一般化誤差について検討する。
論文 参考訳(メタデータ) (2022-09-30T16:19:46Z) - On-Device Domain Generalization [93.79736882489982]
ドメインの一般化はデバイス上の機械学習アプリケーションにとって重要である。
知識蒸留がこの問題の解決の有力な候補であることがわかった。
本研究では,教師が配布外データをどのように扱えるかを学生に教えることを目的とした,配布外知識蒸留(OKD)という簡単なアイデアを提案する。
論文 参考訳(メタデータ) (2022-09-15T17:59:31Z) - Path Regularization: A Convexity and Sparsity Inducing Regularization
for Parallel ReLU Networks [75.33431791218302]
本稿では,ディープニューラルネットワークのトレーニング問題について検討し,最適化環境に隠された凸性を明らかにするための解析的アプローチを提案する。
我々は、標準のディープ・ネットワークとResNetを特別なケースとして含む、ディープ・パラレルなReLUネットワークアーキテクチャについて検討する。
論文 参考訳(メタデータ) (2021-10-18T18:00:36Z) - Robust Generalization of Quadratic Neural Networks via Function
Identification [19.87036824512198]
一般化は、テスト分布がトレーニング分布に近いと仮定することが多い。
2次ニューラルネットワークでは、パラメータを特定できないにもかかわらず、モデルで表される関数を識別できることが示される。
論文 参考訳(メタデータ) (2021-09-22T18:02:00Z) - The emergence of a concept in shallow neural networks [0.0]
我々は,定型だが不可能なアーチタイプを曖昧にコピーした非構造化データセット上で訓練された制限されたボルツマンマシン(RBM)を考える。」
RBMが古型を学習できる限界標本サイズが存在することを示す。
論文 参考訳(メタデータ) (2021-09-01T15:56:38Z) - A neural anisotropic view of underspecification in deep learning [60.119023683371736]
ニューラルネットが問題の未特定化を扱う方法が,データ表現に大きく依存していることを示す。
深層学習におけるアーキテクチャ的インダクティブバイアスの理解は,これらのシステムの公平性,堅牢性,一般化に対処する上で基本的であることを強調した。
論文 参考訳(メタデータ) (2021-04-29T14:31:09Z) - ESPN: Extremely Sparse Pruned Networks [50.436905934791035]
簡単な反復マスク探索法により,非常に深いネットワークの最先端の圧縮を実現することができることを示す。
本アルゴリズムは,シングルショット・ネットワーク・プルーニング法とロッテ・ティケット方式のハイブリッド・アプローチを示す。
論文 参考訳(メタデータ) (2020-06-28T23:09:27Z) - MSE-Optimal Neural Network Initialization via Layer Fusion [68.72356718879428]
ディープニューラルネットワークは、さまざまな分類と推論タスクに対して最先端のパフォーマンスを達成する。
グラデーションと非進化性の組み合わせは、学習を新しい問題の影響を受けやすいものにする。
確率変数を用いて学習した深層ネットワークの近傍層を融合する手法を提案する。
論文 参考訳(メタデータ) (2020-01-28T18:25:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。