論文の概要: Gradient Starvation: A Learning Proclivity in Neural Networks
- arxiv url: http://arxiv.org/abs/2011.09468v4
- Date: Wed, 24 Nov 2021 18:24:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-24 03:44:23.616030
- Title: Gradient Starvation: A Learning Proclivity in Neural Networks
- Title(参考訳): 勾配飢餓:ニューラルネットワークにおける学習確率
- Authors: Mohammad Pezeshki, S\'ekou-Oumar Kaba, Yoshua Bengio, Aaron Courville,
Doina Precup, Guillaume Lajoie
- Abstract要約: グラディエント・スターベーションは、タスクに関連する機能のサブセットのみをキャプチャすることで、クロスエントロピー損失を最小化するときに発生する。
この研究は、ニューラルネットワークにおけるそのような特徴不均衡の出現に関する理論的説明を提供する。
- 参考スコア(独自算出の注目度): 97.02382916372594
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We identify and formalize a fundamental gradient descent phenomenon resulting
in a learning proclivity in over-parameterized neural networks. Gradient
Starvation arises when cross-entropy loss is minimized by capturing only a
subset of features relevant for the task, despite the presence of other
predictive features that fail to be discovered. This work provides a
theoretical explanation for the emergence of such feature imbalance in neural
networks. Using tools from Dynamical Systems theory, we identify simple
properties of learning dynamics during gradient descent that lead to this
imbalance, and prove that such a situation can be expected given certain
statistical structure in training data. Based on our proposed formalism, we
develop guarantees for a novel regularization method aimed at decoupling
feature learning dynamics, improving accuracy and robustness in cases hindered
by gradient starvation. We illustrate our findings with simple and real-world
out-of-distribution (OOD) generalization experiments.
- Abstract(参考訳): 我々は, 過パラメータニューラルネットワークにおける学習確率を生ずる基本勾配降下現象を同定し, 定式化する。
勾配飢餓は、他の予測的特徴が発見されないにもかかわらず、タスクに関連する機能のサブセットのみをキャプチャすることで、エントロピーの損失を最小化するときに発生する。
この研究は、ニューラルネットワークにおけるそのような特徴不均衡の出現に関する理論的説明を提供する。
動的システム理論のツールを用いて,この不均衡につながる勾配降下時の学習ダイナミクスの単純な性質を同定し,訓練データに一定の統計構造がある場合,そのような状況が期待できることを示す。
提案したフォーマリズムに基づいて,特徴学習のダイナミクスを疎結合化することを目的とした新たな正規化手法の保証を開発し,勾配飢餓による症例の精度と堅牢性を向上させる。
我々は, 単純かつ実世界のアウト・オブ・ディストリビューション(ood)一般化実験によって得られた知見を述べる。
関連論文リスト
- Deep Learning Through A Telescoping Lens: A Simple Model Provides Empirical Insights On Grokking, Gradient Boosting & Beyond [61.18736646013446]
その驚くべき振る舞いをより深く理解するために、トレーニングされたニューラルネットワークの単純かつ正確なモデルの有用性について検討する。
3つのケーススタディで、様々な顕著な現象に関する新しい経験的洞察を導き出すためにどのように適用できるかを説明します。
論文 参考訳(メタデータ) (2024-10-31T22:54:34Z) - Feature Contamination: Neural Networks Learn Uncorrelated Features and Fail to Generalize [5.642322814965062]
分散シフトの下で一般化される学習表現は、堅牢な機械学習モデルを構築する上で重要である。
ニューラルネットワークを教師ネットワークから得られる表現に明示的に適合させることさえ、学生ネットワークの一般化には不十分であることを示す。
論文 参考訳(メタデータ) (2024-06-05T15:04:27Z) - Navigate Beyond Shortcuts: Debiased Learning through the Lens of Neural Collapse [19.279084204631204]
我々はニューラル・コラプスの調査を、不均衡な属性を持つバイアス付きデータセットに拡張する。
追加の訓練複雑性を伴わない回避ショートカット学習フレームワークを提案する。
ニューラル・コラプス構造に基づくよく設計されたショートカット素数では、モデルは単純なショートカットの追求を省略することが推奨される。
論文 参考訳(メタデータ) (2024-05-09T07:23:37Z) - On the Dynamics Under the Unhinged Loss and Beyond [104.49565602940699]
我々は、閉形式力学を解析するための数学的機会を提供する、簡潔な損失関数であるアンヒンジド・ロスを導入する。
アンヒンジされた損失は、時間変化学習率や特徴正規化など、より実践的なテクニックを検討することができる。
論文 参考訳(メタデータ) (2023-12-13T02:11:07Z) - On the ISS Property of the Gradient Flow for Single Hidden-Layer Neural
Networks with Linear Activations [0.0]
本研究では,不確かさが勾配推定に及ぼす影響について検討した。
一般の過度にパラメータ化された定式化は、損失関数が最小化される集合の外側に配置されるスプリアス平衡の集合を導入することを示す。
論文 参考訳(メタデータ) (2023-05-17T02:26:34Z) - SGD with Large Step Sizes Learns Sparse Features [22.959258640051342]
本稿では、ニューラルネットワークのトレーニングにおいて、グラディエント・ディフレッシュ(SGD)のダイナミクスの重要な特徴を紹介する。
より長いステップサイズでは、損失ランドスケープにおいてSGDは高く保たれ、暗黙の正規化がうまく機能し、スパース表現を見つけることができる。
論文 参考訳(メタデータ) (2022-10-11T11:00:04Z) - Data-driven emergence of convolutional structure in neural networks [83.4920717252233]
識別タスクを解くニューラルネットワークが、入力から直接畳み込み構造を学習できることを示す。
データモデルを慎重に設計することにより、このパターンの出現は、入力の非ガウス的、高次局所構造によって引き起こされることを示す。
論文 参考訳(メタデータ) (2022-02-01T17:11:13Z) - Multi-scale Feature Learning Dynamics: Insights for Double Descent [71.91871020059857]
一般化誤差の「二重降下」現象について検討する。
二重降下は、異なるスケールで学習される異なる特徴に起因する可能性がある。
論文 参考訳(メタデータ) (2021-12-06T18:17:08Z) - Path classification by stochastic linear recurrent neural networks [2.5499055723658097]
トレーニングや分類作業に利用されるユニークな情報として,RNNが供給される経路の部分的なシグネチャを保持することを示す。
これらのRNNは訓練が容易で堅牢であり、これらの観測を合成データと実データの両方で数値実験で裏付けるものである、と我々は主張する。
論文 参考訳(メタデータ) (2021-08-06T12:59:12Z) - Untangling tradeoffs between recurrence and self-attention in neural
networks [81.30894993852813]
本稿では,再帰的ネットワークにおける自己注意が勾配伝播に与える影響を公式に分析する。
長期的な依存関係を捉えようとするとき、勾配をなくすことの問題を緩和することを証明する。
本稿では,スパース自己アテンションを反復的にスケーラブルに利用するための関連性スクリーニング機構を提案する。
論文 参考訳(メタデータ) (2020-06-16T19:24:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。