論文の概要: Weak and Strong Gradient Directions: Explaining Memorization,
Generalization, and Hardness of Examples at Scale
- arxiv url: http://arxiv.org/abs/2003.07422v2
- Date: Tue, 21 Jul 2020 17:33:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-23 02:47:44.668708
- Title: Weak and Strong Gradient Directions: Explaining Memorization,
Generalization, and Hardness of Examples at Scale
- Title(参考訳): 弱と強勾配方向: 大規模事例の記憶、一般化、硬さを説明する
- Authors: Piotr Zielinski, Shankar Krishnan, Satrajit Chatterjee
- Abstract要約: コヒーレント勾配(コヒーレント勾配、英: Coherent Gradients、CGH)は、勾配勾配で訓練されたニューラルネットワークが一般化する理由を説明する仮説である。
本稿では,イメージネット上でのResNet,Inception,VGGモデルにおけるCGHの有効性を検証する。
ミニバッチを3つのグループに分割し、中央値を計算するアルゴリズムの2つのバージョンを示す。
また,トレーニングラベルに雑音を加えるか,勾配の弱い方向を抑えるかに依存しないCGHの新しい試験を提案する。
- 参考スコア(独自算出の注目度): 20.34662684605931
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Coherent Gradients (CGH) is a recently proposed hypothesis to explain why
over-parameterized neural networks trained with gradient descent generalize
well even though they have sufficient capacity to memorize the training set.
The key insight of CGH is that, since the overall gradient for a single step of
SGD is the sum of the per-example gradients, it is strongest in directions that
reduce the loss on multiple examples if such directions exist. In this paper,
we validate CGH on ResNet, Inception, and VGG models on ImageNet. Since the
techniques presented in the original paper do not scale beyond toy models and
datasets, we propose new methods. By posing the problem of suppressing weak
gradient directions as a problem of robust mean estimation, we develop a
coordinate-based median of means approach. We present two versions of this
algorithm, M3, which partitions a mini-batch into 3 groups and computes the
median, and a more efficient version RM3, which reuses gradients from previous
two time steps to compute the median. Since they suppress weak gradient
directions without requiring per-example gradients, they can be used to train
models at scale. Experimentally, we find that they indeed greatly reduce
overfitting (and memorization) and thus provide the first convincing evidence
that CGH holds at scale. We also propose a new test of CGH that does not depend
on adding noise to training labels or on suppressing weak gradient directions.
Using the intuition behind CGH, we posit that the examples learned early in the
training process (i.e., "easy" examples) are precisely those that have more in
common with other training examples. Therefore, as per CGH, the easy examples
should generalize better amongst themselves than the hard examples amongst
themselves. We validate this hypothesis with detailed experiments, and believe
that it provides further orthogonal evidence for CGH.
- Abstract(参考訳): コヒーレント勾配 (coherent gradients, cgh) は、勾配降下で訓練された過パラメータニューラルネットワークが、トレーニングセットを記憶するのに十分な能力を持つにもかかわらず、うまく一般化する理由を説明するために最近提案された仮説である。
CGHの重要な洞察は、SGDの1ステップの全体的な勾配は、例ごとの勾配の和であるので、そのような方向が存在する場合の複数の例における損失を減少させる方向において最強であるということである。
本稿では,イメージネット上でのResNet,Inception,VGGモデルのCGHを検証する。
本論文では,おもちゃのモデルやデータセットを超えてスケールしないため,新しい手法を提案する。
平均推定のロバストな問題として弱勾配方向を抑圧する問題を定式化し,平均アプローチの座標ベースの中央値を開発した。
このアルゴリズムの2つのバージョン、m3(ミニバッチを3つのグループに分けて中央値を計算する)と、以前の2つの時間ステップからの勾配を再利用して中央値を計算するより効率的なバージョンrm3(rm3)を示す。
サンプル毎の勾配を必要とせず、弱い勾配方向を抑制するため、スケールでのモデルのトレーニングに使用できる。
実験により, CGHが大規模に保持されていることを示す最初の証拠として, オーバーフィッティング(および記憶)を大幅に削減できることが判明した。
また,トレーニングラベルに雑音を加えるか,勾配の弱い方向を抑えるかに依存しないCGHの新しい試験を提案する。
cghの背後にある直観を用いて、トレーニングプロセスの初期に学んだ例(すなわち「簡単な」例)が、他のトレーニング例と正確に共通点を持つものであることを仮定する。
したがって、cgh によれば、簡単な例は自身の中の難しい例よりも、自身でより一般化すべきである。
我々は、この仮説を詳細な実験で検証し、CGHのさらなる直交的証拠を提供すると考えている。
関連論文リスト
- The Manifold Hypothesis for Gradient-Based Explanations [55.01671263121624]
勾配に基づく説明アルゴリズムは知覚的に整合した説明を提供する。
特徴属性がデータの接する空間と一致しているほど、知覚的に一致している傾向にあることを示す。
説明アルゴリズムは、その説明をデータ多様体と整合させるよう積極的に努力すべきである。
論文 参考訳(メタデータ) (2022-06-15T08:49:24Z) - On Training Implicit Models [75.20173180996501]
ファントム勾配(ファントム勾配)と呼ばれる暗黙モデルに対する新しい勾配推定法を提案し、正確な勾配の計算コストを抑える。
大規模タスクの実験では、これらの軽量ファントム勾配が暗黙の訓練モデルの後方通過を約1.7倍加速することを示した。
論文 参考訳(メタデータ) (2021-11-09T14:40:24Z) - Staircase Sign Method for Boosting Adversarial Attacks [123.19227129979943]
トランスファーベースの攻撃の敵の例を作るのは難しいし、研究のホットスポットだ。
そこで本研究では,この問題を緩和するための新しい階段サイン法(S$2$M)を提案する。
我々の手法は一般に転送ベースの攻撃と統合することができ、計算オーバーヘッドは無視できる。
論文 参考訳(メタデータ) (2021-04-20T02:31:55Z) - Efficient, Simple and Automated Negative Sampling for Knowledge Graph
Embedding [40.97648142355799]
負のサンプリングは、知識グラフ(KG)において観測されていないものから負の三重項をサンプリングするものであり、KGの埋め込みにおいて重要なステップである。
本稿では,大きな勾配を持つ負三重項が重要ではあるが稀であることを示す観測に動機付けられ,キャッシュで直接追跡することを提案する。
提案手法は従来のGAN方式の「蒸留」バージョンとして機能し, 負三重項の完全な分布に適合する追加パラメータの学習時間を無駄にしない。
論文 参考訳(メタデータ) (2020-10-24T14:16:35Z) - A Study of Gradient Variance in Deep Learning [56.437755740715396]
階層化サンプリングによる平均ミニバッチ勾配のばらつきを最小化する手法であるグラディエントクラスタリングを導入する。
我々は、一般的なディープラーニングベンチマークの勾配分散を測定し、一般的な仮定に反して、トレーニング中に勾配分散が増加することを観察する。
論文 参考訳(メタデータ) (2020-07-09T03:23:10Z) - Carath\'eodory Sampling for Stochastic Gradient Descent [79.55586575988292]
本稿では,Tchakaloff と Carath'eodory の古典的な結果から着想を得た手法を提案する。
我々は、測定値の低減を行う降下ステップを適応的に選択する。
これをBlock Coordinate Descentと組み合わせることで、測定の削減を極めて安価に行えるようにします。
論文 参考訳(メタデータ) (2020-06-02T17:52:59Z) - The Impact of the Mini-batch Size on the Variance of Gradients in
Stochastic Gradient Descent [28.148743710421932]
ミニバッチ勾配勾配(SGD)アルゴリズムは機械学習モデルのトレーニングに広く用いられている。
線形回帰および2層線形ネットワーク下でのSGDダイナミクスについて検討し,より深い線形ネットワークへの拡張を容易にする。
論文 参考訳(メタデータ) (2020-04-27T20:06:11Z) - Federated Stochastic Gradient Langevin Dynamics [12.180900849847252]
勾配ランゲヴィン力学(SGLD)のような勾配MCMC法は、大規模後方サンプリングを可能にするために高速だがノイズの多い勾配推定を用いる。
本稿では,局所確率近似を組み合わせ,勾配の修正を行う単純なメカニズムである導出勾配を提案する。
DSGLDが故障した場合に,本手法は遅延通信ラウンドを処理し,ターゲット後方に収束することを示す。
論文 参考訳(メタデータ) (2020-04-23T15:25:09Z) - Robust and On-the-fly Dataset Denoising for Image Classification [72.10311040730815]
On-the-fly Data Denoising (ODD)は、間違ったラベルの例に対して堅牢だが、通常のトレーニングと比べて計算オーバーヘッドはほぼゼロである。
ODDはWebVisionやClothing1Mといった現実世界のデータセットを含む、幅広いデータセットで最先端の結果を達成することができる。
論文 参考訳(メタデータ) (2020-03-24T03:59:26Z) - Coherent Gradients: An Approach to Understanding Generalization in
Gradient Descent-based Optimization [15.2292571922932]
本稿では,勾配降下のダイナミクスに関する仮説に基づいて,この問題に答えるアプローチを提案する。
トレーニング中のネットワークパラメータの変更は、(局所的に)同時に多くのサンプルに役立つものに偏っていることを示す。
論文 参考訳(メタデータ) (2020-02-25T03:59:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。