論文の概要: Distribution of Classification Margins: Are All Data Equal?
- arxiv url: http://arxiv.org/abs/2107.10199v1
- Date: Wed, 21 Jul 2021 16:41:57 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-22 15:44:42.265324
- Title: Distribution of Classification Margins: Are All Data Equal?
- Title(参考訳): 分類マージンの分布:すべてのデータが等しいか?
- Authors: Andrzej Banburski, Fernanda De La Torre, Nishka Pant, Ishana Shastri,
Tomaso Poggio
- Abstract要約: 我々は理論的に動機付け、トレーニングセット上のマージン分布の曲線の下の領域が実際は一般化のよい尺度であることを実証的に示す。
結果として生じる"高いキャパシティ"機能のサブセットは、異なるトレーニング実行間で一貫性がない。
- 参考スコア(独自算出の注目度): 61.16681488656473
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent theoretical results show that gradient descent on deep neural networks
under exponential loss functions locally maximizes classification margin, which
is equivalent to minimizing the norm of the weight matrices under margin
constraints. This property of the solution however does not fully characterize
the generalization performance. We motivate theoretically and show empirically
that the area under the curve of the margin distribution on the training set is
in fact a good measure of generalization. We then show that, after data
separation is achieved, it is possible to dynamically reduce the training set
by more than 99% without significant loss of performance. Interestingly, the
resulting subset of "high capacity" features is not consistent across different
training runs, which is consistent with the theoretical claim that all training
points should converge to the same asymptotic margin under SGD and in the
presence of both batch normalization and weight decay.
- Abstract(参考訳): 最近の理論的結果は、指数損失関数の下でのディープニューラルネットワークの勾配降下が局所的に分類マージンを最大化することを示しており、これはマージン制約の下で重み行列のノルムを最小化するのと同値である。
しかし、この解の性質は一般化性能を完全に特徴づけるものではない。
我々は理論的に動機付け、トレーニングセット上のマージン分布の曲線の下の領域が実際は一般化のよい尺度であることを示す。
次に、データ分離が達成されれば、パフォーマンスを著しく損なうことなく、トレーニングセットを99%以上動的に削減できることを示す。
興味深いことに、"高容量"特徴のサブセットは、異なるトレーニング実行間で一貫性がなく、すべてのトレーニングポイントはsgd下で同じ漸近的なマージンに収束し、バッチ正規化と重量減少の両方が存在するべきであるという理論的な主張と一致している。
関連論文リスト
- Towards Better Generalization: Weight Decay Induces Low-rank Bias for Neural Networks [9.948870430491738]
We study the implicit bias to low-rank weight matrices when training neural network with Weight Decay (WD)。
我々の研究は、WDと組み合わせることで、SGDの強力な一般化性能に関する理論的および実証的な知見を提供する。
論文 参考訳(メタデータ) (2024-10-03T03:36:18Z) - On the Dynamics Under the Unhinged Loss and Beyond [104.49565602940699]
我々は、閉形式力学を解析するための数学的機会を提供する、簡潔な損失関数であるアンヒンジド・ロスを導入する。
アンヒンジされた損失は、時間変化学習率や特徴正規化など、より実践的なテクニックを検討することができる。
論文 参考訳(メタデータ) (2023-12-13T02:11:07Z) - The Implicit Bias of Batch Normalization in Linear Models and Two-layer
Linear Convolutional Neural Networks [117.93273337740442]
勾配勾配勾配は、exp(-Omega(log2 t))$収束率でトレーニングデータ上の一様マージン分類器に収束することを示す。
また、バッチ正規化はパッチワイドの均一なマージンに対して暗黙の偏りを持つことを示す。
論文 参考訳(メタデータ) (2023-06-20T16:58:00Z) - Inconsistency, Instability, and Generalization Gap of Deep Neural
Network Training [14.871738070617491]
不整合は、損失景観の鋭さよりも、一般化ギャップの信頼性の高い指標であることを示す。
この結果は、共蒸留やアンサンブルといった既存の手法の理論的基盤も提供する。
論文 参考訳(メタデータ) (2023-05-31T20:28:13Z) - Theoretical Characterization of the Generalization Performance of
Overfitted Meta-Learning [70.52689048213398]
本稿では,ガウス的特徴を持つ線形回帰モデルの下で,過剰適合型メタラーニングの性能について検討する。
シングルタスク線形回帰には存在しない新しい興味深い性質が見つかる。
本分析は,各訓練課題における基礎的真理のノイズや多様性・変動が大きい場合には,良心過剰がより重要かつ容易に観察できることを示唆する。
論文 参考訳(メタデータ) (2023-04-09T20:36:13Z) - Understanding the Generalization of Adam in Learning Neural Networks
with Proper Regularization [118.50301177912381]
我々は,重力減衰グローバリゼーションにおいても,目的の異なる解に確実に異なる誤差で収束できることを示す。
凸と重み減衰正則化を用いると、Adamを含む任意の最適化アルゴリズムは同じ解に収束することを示す。
論文 参考訳(メタデータ) (2021-08-25T17:58:21Z) - Measuring Generalization with Optimal Transport [111.29415509046886]
我々は、マージンを最適輸送コストで正規化する、マージンベースの一般化境界を開発する。
我々の境界は、大規模データセット上でトレーニングデータとネットワークパラメータを与えられた一般化誤差を強く予測する。
論文 参考訳(メタデータ) (2021-06-07T03:04:59Z) - Scaling Ensemble Distribution Distillation to Many Classes with Proxy
Targets [12.461503242570643]
emphEnsemble Distribution Distillationは、単一のモデルが、アンサンブルの予測性能と不確実性の両方を効率的にキャプチャできるアプローチである。
分類では、最大確率基準を通じてアンサンブルメンバーの出力分布の上のディリクレ分布を訓練することで達成される。
理論的には、この基準はクラス数が非常に高い大規模タスクに適用される場合の収束性に乏しい。
論文 参考訳(メタデータ) (2021-05-14T17:50:14Z) - Explicit regularization and implicit bias in deep network classifiers
trained with the square loss [2.8935588665357077]
平方損失で訓練された深いReLUネットワークは分類の仕事でよく機能するために観察されました。
正規化法を重み決定法とともに用いる場合,絶対最小ノルムの解への収束が期待できることを示す。
論文 参考訳(メタデータ) (2020-12-31T21:07:56Z) - The Implicit Bias of Gradient Descent on Separable Data [44.98410310356165]
予測器は最大マージン(シャープマージンSVM)解の方向へ収束することを示す。
これは、トレーニングエラーがゼロになった後もロジスティックまたはクロスエントロピー損失を最適化し続ける利点を説明するのに役立つ。
論文 参考訳(メタデータ) (2017-10-27T21:47:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。