論文の概要: Towards Understanding Label Smoothing
- arxiv url: http://arxiv.org/abs/2006.11653v2
- Date: Sat, 3 Oct 2020 03:05:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-18 21:51:58.207260
- Title: Towards Understanding Label Smoothing
- Title(参考訳): ラベル平滑化の理解に向けて
- Authors: Yi Xu, Yuanhong Xu, Qi Qian, Hao Li, Rong Jin
- Abstract要約: ラベルスムーズな正規化(LSR)は、トレーニングアルゴリズムによるディープニューラルネットワークにおいて大きな成功を収めている。
適切なLSRが分散を減少させることで収束を加速することを示す。
本稿では,TSLA(Two-Stage LAbel smoothing algorithm)を提案する。
- 参考スコア(独自算出の注目度): 36.54164997035046
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Label smoothing regularization (LSR) has a great success in training deep
neural networks by stochastic algorithms such as stochastic gradient descent
and its variants. However, the theoretical understanding of its power from the
view of optimization is still rare. This study opens the door to a deep
understanding of LSR by initiating the analysis. In this paper, we analyze the
convergence behaviors of stochastic gradient descent with label smoothing
regularization for solving non-convex problems and show that an appropriate LSR
can help to speed up the convergence by reducing the variance. More
interestingly, we proposed a simple yet effective strategy, namely Two-Stage
LAbel smoothing algorithm (TSLA), that uses LSR in the early training epochs
and drops it off in the later training epochs. We observe from the improved
convergence result of TSLA that it benefits from LSR in the first stage and
essentially converges faster in the second stage. To the best of our knowledge,
this is the first work for understanding the power of LSR via establishing
convergence complexity of stochastic methods with LSR in non-convex
optimization. We empirically demonstrate the effectiveness of the proposed
method in comparison with baselines on training ResNet models over benchmark
data sets.
- Abstract(参考訳): ラベル平滑化正規化(lsr)は、確率的勾配降下などの確率的アルゴリズムによるディープニューラルネットワークの訓練において大きな成功を収めている。
しかし、最適化の観点からのそのパワーの理論的理解はいまだに稀である。
本研究は,LSRの深い理解への扉を開き,解析を開始した。
本稿では,非凸問題を解くためのラベルスムーズな正規化による確率勾配勾配勾配の収束挙動を解析し,分散を減少させることで収束を高速化できることを示す。
より興味深いことに、我々は2段階ラベル平滑化アルゴリズム (TSLA) という単純な手法を提案し、これは初期の訓練エポックにおいてLSRを用いており、後の訓練エポックではそれをオフにする。
第1段階ではLSRの恩恵を受け、第2段階では基本的により高速に収束する、TSLAの収束結果の改善から観察する。
我々の知る限りでは、非凸最適化におけるLSRによる確率的手法の収束複雑性を確立することにより、LSRのパワーを理解するための最初の研究である。
本稿では,ベンチマークデータセットを用いたResNetモデルのトレーニングにおけるベースラインと比較して,提案手法の有効性を実証的に示す。
関連論文リスト
- Adaptive Federated Learning Over the Air [108.62635460744109]
オーバー・ザ・エア・モデル・トレーニングの枠組みの中で,適応勾配法,特にAdaGradとAdamの連合バージョンを提案する。
解析の結果,AdaGrad に基づくトレーニングアルゴリズムは $mathcalO(ln(T) / T 1 - frac1alpha の速度で定常点に収束することがわかった。
論文 参考訳(メタデータ) (2024-03-11T09:10:37Z) - OptEx: Expediting First-Order Optimization with Approximately Parallelized Iterations [12.696136981847438]
ほぼ並列化されたイテレーション (OptEx) で高速化された一階最適化を導入する。
OptExは、並列コンピューティングを活用して、その反復的ボトルネックを軽減することで、FOOの効率を高める最初のフレームワークである。
我々は、カーネル化された勾配推定の信頼性とSGDベースのOpsExの複雑さを理論的に保証する。
論文 参考訳(メタデータ) (2024-02-18T02:19:02Z) - Stable Nonconvex-Nonconcave Training via Linear Interpolation [51.668052890249726]
本稿では,ニューラルネットワークトレーニングを安定化(大規模)するための原理的手法として,線形アヘッドの理論解析を提案する。
最適化過程の不安定性は、しばしば損失ランドスケープの非単調性によって引き起こされるものであり、非拡張作用素の理論を活用することによって線型性がいかに役立つかを示す。
論文 参考訳(メタデータ) (2023-10-20T12:45:12Z) - Stochastic Unrolled Federated Learning [85.6993263983062]
本稿では,UnRolled Federated Learning (SURF)を導入する。
提案手法は,この拡張における2つの課題,すなわち,非学習者へのデータセット全体の供給の必要性と,フェデレート学習の分散的性質に対処する。
論文 参考訳(メタデータ) (2023-05-24T17:26:22Z) - Loop Unrolled Shallow Equilibrium Regularizer (LUSER) -- A
Memory-Efficient Inverse Problem Solver [26.87738024952936]
逆問題では、潜在的に破損し、しばしば不適切な測定結果から、いくつかの基本的な関心のシグナルを再構築することを目的としている。
浅い平衡正規化器(L)を用いたLUアルゴリズムを提案する。
これらの暗黙のモデルは、より深い畳み込みネットワークと同じくらい表現力があるが、トレーニング中にはるかにメモリ効率が良い。
論文 参考訳(メタデータ) (2022-10-10T19:50:37Z) - Learning Neural Network Quantum States with the Linear Method [0.0]
本手法は,複雑な値を持つニューラルネットワーク量子状態の最適化に有効であることを示す。
我々は、LMを最先端のSRアルゴリズムと比較し、LMが収束のために最大で1桁の繰り返しを必要とすることを発見した。
論文 参考訳(メタデータ) (2021-04-22T12:18:33Z) - Learning Sampling Policy for Faster Derivative Free Optimization [100.27518340593284]
ランダムサンプリングではなく,ZO最適化における摂動を生成するためのサンプリングポリシを学習する,新たな強化学習ベースのZOアルゴリズムを提案する。
その結果,ZO-RLアルゴリズムはサンプリングポリシを学習することでZO勾配の分散を効果的に低減し,既存のZOアルゴリズムよりも高速に収束できることが示唆された。
論文 参考訳(メタデータ) (2021-04-09T14:50:59Z) - Neurally Augmented ALISTA [15.021419552695066]
本稿では、LSTMネットワークを用いて、再構成中の各ターゲットベクトルのステップサイズと閾値を個別に計算するニューラルネットワークALISTAを提案する。
提案手法はスパース再構成における経験的性能をさらに向上させ,特に圧縮比がより困難になるにつれて,既存のアルゴリズムのマージンが向上することを示す。
論文 参考訳(メタデータ) (2020-10-05T11:39:49Z) - Regularized linear autoencoders recover the principal components,
eventually [15.090789983727335]
正規化を適切に訓練すると、線形オートエンコーダが最適な表現を学習できることが示される。
この収束は, 潜伏次元の増加に伴って悪化する条件条件が原因で遅くなることを示す。
勾配降下更新を簡易に修正し、経験的に大幅に高速化する。
論文 参考訳(メタデータ) (2020-07-13T23:08:25Z) - Convergence of Meta-Learning with Task-Specific Adaptation over Partial
Parameters [152.03852111442114]
モデルに依存しないメタラーニング(MAML)は非常に成功したアルゴリズムメタラーニングの実践であるが、高い計算複雑性を持つ。
本稿では,その複雑さがANILの全体的な収束性能に大きく影響することを示す。
論文 参考訳(メタデータ) (2020-06-16T19:57:48Z) - On Learning Rates and Schr\"odinger Operators [105.32118775014015]
本稿では,学習率の影響に関する一般的な理論的分析を行う。
学習速度は、幅広い非ニューラルクラス関数に対してゼロとなる傾向にある。
論文 参考訳(メタデータ) (2020-04-15T09:52:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。