論文の概要: Probability-Dependent Gradient Decay in Large Margin Softmax
- arxiv url: http://arxiv.org/abs/2210.17145v2
- Date: Sun, 8 Oct 2023 14:37:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-13 15:59:38.439608
- Title: Probability-Dependent Gradient Decay in Large Margin Softmax
- Title(参考訳): 大マルジンソフトマックスにおける確率依存性勾配減衰
- Authors: Siyuan Zhang and Linbo Xie and Ying Chen
- Abstract要約: 訓練中に確率依存的な勾配減衰率を制御するために、ソフトマックスで勾配減衰ハイパーパラメータが導入された。
一般化性能は信頼確率が上昇するにつれて勾配減衰率に大きく依存することがわかった。
本研究では,ソフトマックス損失を動的に調整するウォームアップ手法を提案する。
- 参考スコア(独自算出の注目度): 11.795355937189553
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the past few years, Softmax has become a common component in neural
network frameworks. In this paper, a gradient decay hyperparameter is
introduced in Softmax to control the probability-dependent gradient decay rate
during training. By following the theoretical analysis and empirical results of
a variety of model architectures trained on MNIST, CIFAR-10/100 and SVHN, we
find that the generalization performance depends significantly on the gradient
decay rate as the confidence probability rises, i.e., the gradient decreases
convexly or concavely as the sample probability increases. Moreover,
optimization with the small gradient decay shows a similar curriculum learning
sequence where hard samples are in the spotlight only after easy samples are
convinced sufficiently, and well-separated samples gain a higher gradient to
reduce intra-class distance. Based on the analysis results, we can provide
evidence that the large margin Softmax will affect the local Lipschitz
constraint of the loss function by regulating the probability-dependent
gradient decay rate. This paper provides a new perspective and understanding of
the relationship among concepts of large margin Softmax, local Lipschitz
constraint and curriculum learning by analyzing the gradient decay rate.
Besides, we propose a warm-up strategy to dynamically adjust Softmax loss in
training, where the gradient decay rate increases from over-small to speed up
the convergence rate.
- Abstract(参考訳): ここ数年、Softmaxはニューラルネットワークフレームワークの共通コンポーネントになっている。
本稿では,ソフトマックスに勾配減衰ハイパーパラメータを導入し,トレーニング中の確率依存性の勾配減衰率を制御する。
MNIST, CIFAR-10/100, SVHNで訓練された各種モデルアーキテクチャの理論的解析と実証結果に従えば, 信頼確率が上昇するにつれて, 一般化性能は勾配減衰率に大きく依存することがわかった。
また,小さな勾配減衰による最適化は,簡単なサンプルを十分に信頼した後にのみ,ハードサンプルがスポットライトに晒されるような,類似したカリキュラム学習シーケンスを示し,高度に分離されたサンプルはクラス間距離を減らすために高い勾配を得る。
解析結果から,確率依存性の勾配減衰率を調節することにより,ソフトマックスが損失関数の局所リプシッツ制約に影響を及ぼすことを示すことができる。
本稿では,大縁ソフトマックス,局所リプシッツ制約,カリキュラム学習の概念間の,勾配減衰率の分析による新しい視点と理解について述べる。
さらに, トレーニングにおけるソフトマックス損失を動的に調整するウォームアップ戦略を提案し, 勾配減衰率を過小値から増加させ, 収束速度を高速化する。
関連論文リスト
- Convex Relaxations of ReLU Neural Networks Approximate Global Optima in Polynomial Time [45.72323731094864]
本稿では,2層ReLULUネットワーク間における重み減衰と凸緩和の最適性ギャップについて検討する。
私たちの研究は、なぜローカルメソッドがうまく機能するのかを理解することに新たな光を当てています。
論文 参考訳(メタデータ) (2024-02-06T01:29:35Z) - Implicit Bias in Leaky ReLU Networks Trained on High-Dimensional Data [63.34506218832164]
本研究では,ReLUを活性化した2層完全連結ニューラルネットワークにおける勾配流と勾配降下の暗黙的バイアスについて検討する。
勾配流には、均一なニューラルネットワークに対する暗黙のバイアスに関する最近の研究を活用し、リーク的に勾配流が2つ以上のランクを持つニューラルネットワークを生成することを示す。
勾配降下は, ランダムな分散が十分小さい場合, 勾配降下の1ステップでネットワークのランクが劇的に低下し, トレーニング中もランクが小さくなることを示す。
論文 参考訳(メタデータ) (2022-10-13T15:09:54Z) - Scaling Forward Gradient With Local Losses [117.22685584919756]
フォワード学習は、ディープニューラルネットワークを学ぶためのバックプロップに代わる生物学的に妥当な代替手段である。
重みよりも活性化に摂動を適用することにより、前方勾配のばらつきを著しく低減できることを示す。
提案手法はMNIST と CIFAR-10 のバックプロップと一致し,ImageNet 上で提案したバックプロップフリーアルゴリズムよりも大幅に優れていた。
論文 参考訳(メタデータ) (2022-10-07T03:52:27Z) - Escaping the Gradient Vanishing: Periodic Alternatives of Softmax in
Attention Mechanism [8.007523868483085]
ソフトマックスは、マルチクラス分類、ゲート構造、アテンションメカニズムのためのニューラルネットワークで広く使われている。
本研究では,指数関数を周期関数で置き換えることを提案する。
本手法は, 勾配問題を緩和し, ソフトマックスとその変種と比較して大幅に改善できることが証明された。
論文 参考訳(メタデータ) (2021-08-16T15:26:31Z) - High-probability Bounds for Non-Convex Stochastic Optimization with
Heavy Tails [55.561406656549686]
我々は、勾配推定が末尾を持つ可能性のある一階アルゴリズムを用いたヒルベルト非最適化を考える。
本研究では, 勾配, 運動量, 正規化勾配勾配の収束を高確率臨界点に収束させることと, 円滑な損失に対する最もよく知られた繰り返しを示す。
論文 参考訳(メタデータ) (2021-06-28T00:17:01Z) - Combining resampling and reweighting for faithful stochastic
optimization [1.52292571922932]
損失関数が複数の項の和であるとき、一般的な方法は勾配降下である。
損失関数における複数の項のリプシッツ定数の差は、異なる最小値における異なる分散への勾配降下を引き起こすことを示す。
論文 参考訳(メタデータ) (2021-05-31T04:21:25Z) - Learning with Gradient Descent and Weakly Convex Losses [14.145079120746614]
本研究では,経験的リスクが弱い場合の勾配降下の学習性能について検討する。
2層ニューラルネットワークの場合、実験的なリスクは局所的な弱凸性の概念を満たすことができることを示す。
論文 参考訳(メタデータ) (2021-01-13T09:58:06Z) - Improved Analysis of Clipping Algorithms for Non-convex Optimization [19.507750439784605]
最近、citetzhang 2019gradient show that clipped (stochastic) Gradient Descent (GD) converges faster than vanilla GD/SGD。
実験は、深層学習におけるクリッピングに基づく手法の優位性を確認する。
論文 参考訳(メタデータ) (2020-10-05T14:36:59Z) - Unbiased Risk Estimators Can Mislead: A Case Study of Learning with
Complementary Labels [92.98756432746482]
我々は,補完ラベルを用いた学習という,弱教師付き問題を研究する。
勾配推定の品質はリスク最小化においてより重要であることを示す。
本稿では,ゼロバイアスと分散の低減を両立させる新しい補助的相補的損失(SCL)フレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-05T04:19:37Z) - On Learning Rates and Schr\"odinger Operators [105.32118775014015]
本稿では,学習率の影響に関する一般的な理論的分析を行う。
学習速度は、幅広い非ニューラルクラス関数に対してゼロとなる傾向にある。
論文 参考訳(メタデータ) (2020-04-15T09:52:37Z) - Towards Better Understanding of Adaptive Gradient Algorithms in
Generative Adversarial Nets [71.05306664267832]
適応アルゴリズムは勾配の歴史を用いて勾配を更新し、深層ニューラルネットワークのトレーニングにおいてユビキタスである。
本稿では,非コンケーブ最小値問題に対するOptimisticOAアルゴリズムの変種を解析する。
実験の結果,適応型GAN非適応勾配アルゴリズムは経験的に観測可能であることがわかった。
論文 参考訳(メタデータ) (2019-12-26T22:10:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。