論文の概要: Generalization by design: Shortcuts to Generalization in Deep Learning
- arxiv url: http://arxiv.org/abs/2107.02253v1
- Date: Mon, 5 Jul 2021 20:01:23 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-08 07:25:03.585232
- Title: Generalization by design: Shortcuts to Generalization in Deep Learning
- Title(参考訳): 設計による一般化:深層学習における一般化への近道
- Authors: Petr Taborsky, Lars Kai Hansen
- Abstract要約: よい一般化は、新しい幾何正則化器につながる層上の有界スペクトル積によってもたらされることを示す。
理論によって裏付けられ、我々は「設計による一般化」が現実的に可能であり、優れた一般化がネットワークの構造にコード化されることをさらに実証する。
- 参考スコア(独自算出の注目度): 7.751691910877239
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We take a geometrical viewpoint and present a unifying view on supervised
deep learning with the Bregman divergence loss function - this entails frequent
classification and prediction tasks. Motivated by simulations we suggest that
there is principally no implicit bias of vanilla stochastic gradient descent
training of deep models towards "simpler" functions. Instead, we show that good
generalization may be instigated by bounded spectral products over layers
leading to a novel geometric regularizer. It is revealed that in deep enough
models such a regularizer enables both, extreme accuracy and generalization, to
be reached. We associate popular regularization techniques like weight decay,
drop out, batch normalization, and early stopping with this perspective. Backed
up by theory we further demonstrate that "generalization by design" is
practically possible and that good generalization may be encoded into the
structure of the network. We design two such easy-to-use structural
regularizers that insert an additional \textit{generalization layer} into a
model architecture, one with a skip connection and another one with drop-out.
We verify our theoretical results in experiments on various feedforward and
convolutional architectures, including ResNets, and datasets (MNIST, CIFAR10,
synthetic data). We believe this work opens up new avenues of research towards
better generalizing architectures.
- Abstract(参考訳): 幾何的視点を取り,ブレグマン分岐損失関数を用いた教師付き深層学習の統一的視点を示す。
シミュレーションにより、我々は、主に、より単純な関数に対する深層モデルのバニラ確率勾配勾配トレーニングの暗黙バイアスがないことを示唆する。
代わりに、よい一般化は、新しい幾何正則化子に繋がる層上の有界スペクトル積によって導かれる可能性があることを示す。
十分に深いモデルでは、そのような正則化器は極端精度と一般化の両方に到達することができる。
我々は,重量減少,ドロップアウト,バッチ正規化,早期停止といった一般的な正規化手法を,この観点から関連付ける。
理論に裏付けられて、我々はさらに「設計による一般化」は事実上可能であり、良い一般化はネットワークの構造にエンコードできることを示した。
我々は、モデルアーキテクチャに追加の \textit{ Generalization Layer} を挿入する2つの簡単な構造正規化器を設計し、もう1つはスキップ接続を持ち、もう1つはドロップアウトを持つ。
我々はresnetやデータセット(mnist、cifar10、synthetic data)を含む様々なフィードフォワードおよび畳み込みアーキテクチャの実験において理論的結果を検証する。
この研究は、アーキテクチャをより一般化するための新たな研究の道を開くと信じています。
関連論文リスト
- Exact, Tractable Gauss-Newton Optimization in Deep Reversible Architectures Reveal Poor Generalization [52.16435732772263]
多くのアプリケーションにおいて、ディープニューラルネットワークのトレーニングを加速する2階最適化が示されている。
しかし、二階法の一般化特性についてはいまだ議論が続いている。
我々は、Gauss-Newton (GN) の正確な更新が、ディープアーキテクチャのクラスにおいて、牽引可能な形式を取ることを初めて示す。
論文 参考訳(メタデータ) (2024-11-12T17:58:40Z) - What Improves the Generalization of Graph Transformers? A Theoretical Dive into the Self-attention and Positional Encoding [67.59552859593985]
自己アテンションと位置エンコーディングを組み込んだグラフトランスフォーマーは、さまざまなグラフ学習タスクのための強力なアーキテクチャとして登場した。
本稿では,半教師付き分類のための浅いグラフ変換器の理論的検討について紹介する。
論文 参考訳(メタデータ) (2024-06-04T05:30:16Z) - A Margin-based Multiclass Generalization Bound via Geometric Complexity [6.554326244334867]
ニューラルネットワークに対するマージンベース多クラス一般化境界について検討する。
ネットワークの余分な正規化幾何学的複雑さでスケールする一般化誤差に新たな上限を導出する。
論文 参考訳(メタデータ) (2024-05-28T21:08:58Z) - Rotation Equivariant Proximal Operator for Deep Unfolding Methods in Image Restoration [62.41329042683779]
本稿では, 回転対称性を組み込んだ高精度な回転同変近位ネットワークを提案する。
本研究は, 回転対称性の先行を深く展開する枠組みに効果的に組み込む, 高精度な回転同変近位ネットワークを提案する。
論文 参考訳(メタデータ) (2023-12-25T11:53:06Z) - Enhancing NeRF akin to Enhancing LLMs: Generalizable NeRF Transformer
with Mixture-of-View-Experts [88.23732496104667]
クロスシーンの一般化可能なNeRFモデルは、NeRFフィールドの新たなスポットライトとなっている。
我々は、大規模言語モデルから強力なMixture-of-Experts(MoE)のアイデアを"神経化"アーキテクチャにブリッジする。
提案手法は,GNT-MOVE (Mixture-of-View-Experts) とよばれるモデルで,未知のシーンに移動する際の最先端の結果を実験的に示す。
論文 参考訳(メタデータ) (2023-08-22T21:18:54Z) - Sparsity-aware generalization theory for deep neural networks [12.525959293825318]
本稿では、ディープフィードフォワードReLUネットワークの一般化を解析するための新しいアプローチを提案する。
空間性と一般化の基本的なトレードオフを示す。
論文 参考訳(メタデータ) (2023-07-01T20:59:05Z) - Generalization and Estimation Error Bounds for Model-based Neural
Networks [78.88759757988761]
スパースリカバリのためのモデルベースネットワークの一般化能力は、通常のReLUネットワークよりも優れていることを示す。
我々は,高一般化を保証したモデルベースネットワークの構築を可能にする実用的な設計規則を導出する。
論文 参考訳(メタデータ) (2023-04-19T16:39:44Z) - On skip connections and normalisation layers in deep optimisation [32.51139594406463]
本稿では、ディープニューラルネットワークの最適化研究のための一般的な理論的枠組みを紹介する。
本フレームワークは多層損失景観の曲率および規則性特性を決定する。
スキップ接続がトレーニングを加速する新しい因果メカニズムを同定する。
論文 参考訳(メタデータ) (2022-10-10T06:22:46Z) - Generalization Through The Lens Of Leave-One-Out Error [22.188535244056016]
本稿では,カーネルシステムにおけるディープニューラルネットワークの一般化能力を推定する方法として,残余誤差が有益であることを示す。
そこで本研究は,カーネルシステムにおけるディープニューラルネットワークの一般化能力を推定する方法として,残余誤差が有益であることを示す。
論文 参考訳(メタデータ) (2022-03-07T14:56:00Z) - An Optimization and Generalization Analysis for Max-Pooling Networks [34.58092926599547]
Max-Pooling操作はディープラーニングアーキテクチャの中核的なコンポーネントである。
畳み込み最大プールアーキテクチャの理論解析を行う。
我々は、CNNが我々の設定において完全に接続されたネットワークを著しく上回っていることを実証的に検証した。
論文 参考訳(メタデータ) (2020-02-22T22:26:26Z) - Understanding Generalization in Deep Learning via Tensor Methods [53.808840694241]
圧縮の観点から,ネットワークアーキテクチャと一般化可能性の関係について理解を深める。
本稿では、ニューラルネットワークの圧縮性と一般化性を強く特徴付ける、直感的で、データ依存的で、測定が容易な一連の特性を提案する。
論文 参考訳(メタデータ) (2020-01-14T22:26:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。