論文の概要: Generalization by design: Shortcuts to Generalization in Deep Learning
- arxiv url: http://arxiv.org/abs/2107.02253v1
- Date: Mon, 5 Jul 2021 20:01:23 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-08 07:25:03.585232
- Title: Generalization by design: Shortcuts to Generalization in Deep Learning
- Title(参考訳): 設計による一般化:深層学習における一般化への近道
- Authors: Petr Taborsky, Lars Kai Hansen
- Abstract要約: よい一般化は、新しい幾何正則化器につながる層上の有界スペクトル積によってもたらされることを示す。
理論によって裏付けられ、我々は「設計による一般化」が現実的に可能であり、優れた一般化がネットワークの構造にコード化されることをさらに実証する。
- 参考スコア(独自算出の注目度): 7.751691910877239
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We take a geometrical viewpoint and present a unifying view on supervised
deep learning with the Bregman divergence loss function - this entails frequent
classification and prediction tasks. Motivated by simulations we suggest that
there is principally no implicit bias of vanilla stochastic gradient descent
training of deep models towards "simpler" functions. Instead, we show that good
generalization may be instigated by bounded spectral products over layers
leading to a novel geometric regularizer. It is revealed that in deep enough
models such a regularizer enables both, extreme accuracy and generalization, to
be reached. We associate popular regularization techniques like weight decay,
drop out, batch normalization, and early stopping with this perspective. Backed
up by theory we further demonstrate that "generalization by design" is
practically possible and that good generalization may be encoded into the
structure of the network. We design two such easy-to-use structural
regularizers that insert an additional \textit{generalization layer} into a
model architecture, one with a skip connection and another one with drop-out.
We verify our theoretical results in experiments on various feedforward and
convolutional architectures, including ResNets, and datasets (MNIST, CIFAR10,
synthetic data). We believe this work opens up new avenues of research towards
better generalizing architectures.
- Abstract(参考訳): 幾何的視点を取り,ブレグマン分岐損失関数を用いた教師付き深層学習の統一的視点を示す。
シミュレーションにより、我々は、主に、より単純な関数に対する深層モデルのバニラ確率勾配勾配トレーニングの暗黙バイアスがないことを示唆する。
代わりに、よい一般化は、新しい幾何正則化子に繋がる層上の有界スペクトル積によって導かれる可能性があることを示す。
十分に深いモデルでは、そのような正則化器は極端精度と一般化の両方に到達することができる。
我々は,重量減少,ドロップアウト,バッチ正規化,早期停止といった一般的な正規化手法を,この観点から関連付ける。
理論に裏付けられて、我々はさらに「設計による一般化」は事実上可能であり、良い一般化はネットワークの構造にエンコードできることを示した。
我々は、モデルアーキテクチャに追加の \textit{ Generalization Layer} を挿入する2つの簡単な構造正規化器を設計し、もう1つはスキップ接続を持ち、もう1つはドロップアウトを持つ。
我々はresnetやデータセット(mnist、cifar10、synthetic data)を含む様々なフィードフォワードおよび畳み込みアーキテクチャの実験において理論的結果を検証する。
この研究は、アーキテクチャをより一般化するための新たな研究の道を開くと信じています。
関連論文リスト
- Enhancing NeRF akin to Enhancing LLMs: Generalizable NeRF Transformer
with Mixture-of-View-Experts [88.23732496104667]
クロスシーンの一般化可能なNeRFモデルは、NeRFフィールドの新たなスポットライトとなっている。
我々は、大規模言語モデルから強力なMixture-of-Experts(MoE)のアイデアを"神経化"アーキテクチャにブリッジする。
提案手法は,GNT-MOVE (Mixture-of-View-Experts) とよばれるモデルで,未知のシーンに移動する際の最先端の結果を実験的に示す。
論文 参考訳(メタデータ) (2023-08-22T21:18:54Z) - Sparsity-aware generalization theory for deep neural networks [12.525959293825318]
本稿では、ディープフィードフォワードReLUネットワークの一般化を解析するための新しいアプローチを提案する。
空間性と一般化の基本的なトレードオフを示す。
論文 参考訳(メタデータ) (2023-07-01T20:59:05Z) - Generalization and Estimation Error Bounds for Model-based Neural
Networks [78.88759757988761]
スパースリカバリのためのモデルベースネットワークの一般化能力は、通常のReLUネットワークよりも優れていることを示す。
我々は,高一般化を保証したモデルベースネットワークの構築を可能にする実用的な設計規則を導出する。
論文 参考訳(メタデータ) (2023-04-19T16:39:44Z) - A Unified Algebraic Perspective on Lipschitz Neural Networks [88.14073994459586]
本稿では,様々なタイプの1-Lipschitzニューラルネットワークを統一する新しい視点を提案する。
そこで本研究では,SDP(Common semidefinite Programming)条件の解析解を求めることによって,既存の多くの手法を導出し,一般化することができることを示す。
SDPベースのLipschitz Layers (SLL) と呼ばれる我々のアプローチは、非自明で効率的な凸ポテンシャル層の一般化を設計できる。
論文 参考訳(メタデータ) (2023-03-06T14:31:09Z) - Generalization Through The Lens Of Leave-One-Out Error [22.188535244056016]
本稿では,カーネルシステムにおけるディープニューラルネットワークの一般化能力を推定する方法として,残余誤差が有益であることを示す。
そこで本研究は,カーネルシステムにおけるディープニューラルネットワークの一般化能力を推定する方法として,残余誤差が有益であることを示す。
論文 参考訳(メタデータ) (2022-03-07T14:56:00Z) - Neuro-algorithmic Policies enable Fast Combinatorial Generalization [16.74322664734553]
近年, 標準アーキテクチャの一般化は, 排他的データ取得後にのみ改善されることが示唆されている。
MDPフレームワークの特定のサブクラスに対して、これは神経アルゴリズムアーキテクチャーによって緩和できることを示す。
本稿では,ニューラルネットワークと組込み時間に依存した最短経路ソルバからなる自律神経系ポリシアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-02-15T11:07:59Z) - Dual-constrained Deep Semi-Supervised Coupled Factorization Network with
Enriched Prior [80.5637175255349]
本稿では、DS2CF-Netと呼ばれる、拡張された事前制約付きDual-Constrained Deep Semi-Supervised Coupled Factorization Networkを提案する。
隠れた深い特徴を抽出するために、DS2CF-Netは、深い構造と幾何学的な構造に制約のあるニューラルネットワークとしてモデル化される。
我々のネットワークは、表現学習とクラスタリングのための最先端の性能を得ることができる。
論文 参考訳(メタデータ) (2020-09-08T13:10:21Z) - Understanding Deep Architectures with Reasoning Layer [60.90906477693774]
本研究では,アルゴリズムの収束,安定性,感度といった特性が,エンドツーエンドモデルの近似と一般化能力と密接に関連していることを示す。
私たちの理論は、深いアーキテクチャを推論層で設計するための有用なガイドラインを提供することができます。
論文 参考訳(メタデータ) (2020-06-24T00:26:35Z) - An Optimization and Generalization Analysis for Max-Pooling Networks [34.58092926599547]
Max-Pooling操作はディープラーニングアーキテクチャの中核的なコンポーネントである。
畳み込み最大プールアーキテクチャの理論解析を行う。
我々は、CNNが我々の設定において完全に接続されたネットワークを著しく上回っていることを実証的に検証した。
論文 参考訳(メタデータ) (2020-02-22T22:26:26Z) - Understanding Generalization in Deep Learning via Tensor Methods [53.808840694241]
圧縮の観点から,ネットワークアーキテクチャと一般化可能性の関係について理解を深める。
本稿では、ニューラルネットワークの圧縮性と一般化性を強く特徴付ける、直感的で、データ依存的で、測定が容易な一連の特性を提案する。
論文 参考訳(メタデータ) (2020-01-14T22:26:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。