論文の概要: Generalization bounds via distillation
- arxiv url: http://arxiv.org/abs/2104.05641v1
- Date: Mon, 12 Apr 2021 17:03:13 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-13 14:00:01.834696
- Title: Generalization bounds via distillation
- Title(参考訳): 蒸留による一般化境界
- Authors: Daniel Hsu and Ziwei Ji and Matus Telgarsky and Lan Wang
- Abstract要約: 一般化境界が不十分な高複雑性ネットワークを考えると、ほぼ同一の予測と低い複雑性と非常に小さい一般化境界を持つネットワークに蒸留することができる。
主な貢献は、元のネットワークが蒸留からこのよい一般化を継承することを示す分析である。
この話をまとめるために、圧縮の(見落とし)古典的な均一収束分析も提示される。
- 参考スコア(独自算出の注目度): 45.42830829641181
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper theoretically investigates the following empirical phenomenon:
given a high-complexity network with poor generalization bounds, one can
distill it into a network with nearly identical predictions but low complexity
and vastly smaller generalization bounds. The main contribution is an analysis
showing that the original network inherits this good generalization bound from
its distillation, assuming the use of well-behaved data augmentation. This
bound is presented both in an abstract and in a concrete form, the latter
complemented by a reduction technique to handle modern computation graphs
featuring convolutional layers, fully-connected layers, and skip connections,
to name a few. To round out the story, a (looser) classical uniform convergence
analysis of compression is also presented, as well as a variety of experiments
on cifar and mnist demonstrating similar generalization performance between the
original network and its distillation.
- Abstract(参考訳): 本稿では, 一般化境界が貧弱な高複雑ネットワークを仮定して, ほぼ同一の予測値を持つネットワークに蒸留することができるが, 複雑性は低く, 一般化境界がはるかに小さい。
主な貢献は、元のネットワークがこの良好な一般化を蒸留から継承することを示す分析であり、十分に定義されたデータ拡張の使用を想定している。
この境界は抽象的にも具体的な形でも示され、後者は畳み込み層、完全に接続された層、接続をスキップする接続を含む現代的な計算グラフを扱う減算手法によって補完される。
物語をまとめるために、圧縮の古典的一様収束解析(英語版)や、オリジナルのネットワークと蒸留の間の同様の一般化性能を示すシファーとmnistに関する様々な実験も紹介されている。
関連論文リスト
- Generalization for Least Squares Regression With Simple Spiked Covariances [3.9134031118910264]
勾配降下によって訓練された2層ニューラルネットワークの一般化特性はいまだよく分かっていない。
最近の研究は、隠れた層における特徴行列のスペクトルを記述することで進展した。
しかし、スパイク共分散を持つ線形モデルの一般化誤差は以前には決定されていない。
論文 参考訳(メタデータ) (2024-10-17T19:46:51Z) - What Improves the Generalization of Graph Transformers? A Theoretical Dive into the Self-attention and Positional Encoding [67.59552859593985]
自己アテンションと位置エンコーディングを組み込んだグラフトランスフォーマーは、さまざまなグラフ学習タスクのための強力なアーキテクチャとして登場した。
本稿では,半教師付き分類のための浅いグラフ変換器の理論的検討について紹介する。
論文 参考訳(メタデータ) (2024-06-04T05:30:16Z) - Asymptotic generalization error of a single-layer graph convolutional network [0.0]
属性ブロックモデルにより生成されたデータに基づいて学習した単一層グラフ畳み込みネットワークの性能を予測する。
我々は,高信号対雑音比の限界について検討し,GCNの収束率を詳細に検討し,一貫性はあるものの,いずれの場合においてもベイズ最適値に達しないことを示す。
論文 参考訳(メタデータ) (2024-02-06T09:07:26Z) - Sparsity-aware generalization theory for deep neural networks [12.525959293825318]
本稿では、ディープフィードフォワードReLUネットワークの一般化を解析するための新しいアプローチを提案する。
空間性と一般化の基本的なトレードオフを示す。
論文 参考訳(メタデータ) (2023-07-01T20:59:05Z) - A Theoretical Understanding of Shallow Vision Transformers: Learning,
Generalization, and Sample Complexity [71.11795737362459]
自己注意モジュールを持つViTは、最近多くのタスクで経験的な成功を収めた。
しかし、理論学習の一般化分析は、ほとんどノイズが多く、解答的である。
本稿では,分類タスクのための浅いViTの理論的解析を行った。
論文 参考訳(メタデータ) (2023-02-12T22:12:35Z) - Theoretical Characterization of How Neural Network Pruning Affects its
Generalization [131.1347309639727]
この研究は、異なるプルーニング率がモデルの勾配降下ダイナミクスと一般化にどのように影響するかを研究する最初の試みである。
プルーニング率が一定の閾値以下である限り、勾配降下はトレーニング損失をゼロに導くことができる。
より驚くべきことに、プルーニング分数が大きくなるにつれて、一般化境界はより良くなる。
論文 参考訳(メタデータ) (2023-01-01T03:10:45Z) - The Asymmetric Maximum Margin Bias of Quasi-Homogeneous Neural Networks [26.58848653965855]
準均質モデルのクラスを導入し、同質な活性化を伴うほぼ全てのニューラルネットワークを記述するのに十分な表現性を示す。
すべてのパラメータが等しく扱われる同質なモデルの場合とは異なり、勾配流はパラメータのサブセットを暗黙的に好んでいる。
論文 参考訳(メタデータ) (2022-10-07T21:14:09Z) - Generalization by design: Shortcuts to Generalization in Deep Learning [7.751691910877239]
よい一般化は、新しい幾何正則化器につながる層上の有界スペクトル積によってもたらされることを示す。
理論によって裏付けられ、我々は「設計による一般化」が現実的に可能であり、優れた一般化がネットワークの構造にコード化されることをさらに実証する。
論文 参考訳(メタデータ) (2021-07-05T20:01:23Z) - Predicting Unreliable Predictions by Shattering a Neural Network [145.3823991041987]
線形ニューラルネットワークは、サブファンクションに分割することができる。
サブファンクションは、独自のアクティベーションパターン、ドメイン、経験的エラーを持っている。
完全なネットワークに対する経験的エラーは、サブファンクションに対する期待として記述できる。
論文 参考訳(メタデータ) (2021-06-15T18:34:41Z) - Understanding Generalization in Deep Learning via Tensor Methods [53.808840694241]
圧縮の観点から,ネットワークアーキテクチャと一般化可能性の関係について理解を深める。
本稿では、ニューラルネットワークの圧縮性と一般化性を強く特徴付ける、直感的で、データ依存的で、測定が容易な一連の特性を提案する。
論文 参考訳(メタデータ) (2020-01-14T22:26:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。