論文の概要: On the Dynamics Under the Unhinged Loss and Beyond
- arxiv url: http://arxiv.org/abs/2312.07841v1
- Date: Wed, 13 Dec 2023 02:11:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-14 16:57:41.485127
- Title: On the Dynamics Under the Unhinged Loss and Beyond
- Title(参考訳): 未知の損失とそれ以上のダイナミクスについて
- Authors: Xiong Zhou, Xianming Liu, Hanzhang Wang, Deming Zhai, Junjun Jiang,
Xiangyang Ji
- Abstract要約: 我々は、閉形式力学を解析するための数学的機会を提供する、簡潔な損失関数であるアンヒンジド・ロスを導入する。
アンヒンジされた損失は、時間変化学習率や特徴正規化など、より実践的なテクニックを検討することができる。
- 参考スコア(独自算出の注目度): 104.49565602940699
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent works have studied implicit biases in deep learning, especially the
behavior of last-layer features and classifier weights. However, they usually
need to simplify the intermediate dynamics under gradient flow or gradient
descent due to the intractability of loss functions and model architectures. In
this paper, we introduce the unhinged loss, a concise loss function, that
offers more mathematical opportunities to analyze the closed-form dynamics
while requiring as few simplifications or assumptions as possible. The unhinged
loss allows for considering more practical techniques, such as time-vary
learning rates and feature normalization. Based on the layer-peeled model that
views last-layer features as free optimization variables, we conduct a thorough
analysis in the unconstrained, regularized, and spherical constrained cases, as
well as the case where the neural tangent kernel remains invariant. To bridge
the performance of the unhinged loss to that of Cross-Entropy (CE), we
investigate the scenario of fixing classifier weights with a specific
structure, (e.g., a simplex equiangular tight frame). Our analysis shows that
these dynamics converge exponentially fast to a solution depending on the
initialization of features and classifier weights. These theoretical results
not only offer valuable insights, including explicit feature regularization and
rescaled learning rates for enhancing practical training with the unhinged
loss, but also extend their applicability to other loss functions. Finally, we
empirically demonstrate these theoretical results and insights through
extensive experiments.
- Abstract(参考訳): 最近の研究では、ディープラーニングにおける暗黙のバイアス、特にラスト層の特徴と分類子重みの振る舞いを研究している。
しかし、通常は、損失関数やモデルアーキテクチャの難解性のため、勾配流や勾配降下の下での中間ダイナミクスを単純化する必要がある。
本稿では,閉形式力学をできるだけ単純化や仮定を必要とせず,より数学的に解析する機会を提供する簡潔な損失関数であるunhinged lossを提案する。
アンヒンジされた損失は、時間変化学習率や特徴正規化など、より実践的なテクニックを検討することができる。
最終層特徴を自由最適化変数と見なす層ピールモデルに基づき、制約のない、正規化された、球面制約されたケースと、神経接核が不変のままである場合について、徹底的な解析を行う。
クロスエントロピー (CE) に無拘束損失をブリッジするために, 特定の構造で分類器重みを固定するシナリオについて検討する(例えば, 単純な等角形状のタイトフレーム)。
解析の結果, 特徴の初期化と分類器重みによって, これらのダイナミクスは指数関数的に解に収束することがわかった。
これらの理論的な結果は、明示的な特徴の正規化や再スケールされた学習率といった価値ある洞察を提供するだけでなく、他の損失関数への適用性も拡張する。
最後に、これらの理論的な結果と洞察を広範な実験を通じて実証する。
関連論文リスト
- A Unified Generalization Analysis of Re-Weighting and Logit-Adjustment
for Imbalanced Learning [129.63326990812234]
そこで本研究では,データ依存型コンダクタンス(Data-dependent contraction)と呼ばれる手法を提案する。
この技術に加えて、不均衡学習のための微粒な一般化境界が確立され、再重み付けとロジット調整の謎を明らかにするのに役立つ。
論文 参考訳(メタデータ) (2023-10-07T09:15:08Z) - On the ISS Property of the Gradient Flow for Single Hidden-Layer Neural
Networks with Linear Activations [0.0]
本研究では,不確かさが勾配推定に及ぼす影響について検討した。
一般の過度にパラメータ化された定式化は、損失関数が最小化される集合の外側に配置されるスプリアス平衡の集合を導入することを示す。
論文 参考訳(メタデータ) (2023-05-17T02:26:34Z) - Theoretical Characterization of the Generalization Performance of
Overfitted Meta-Learning [70.52689048213398]
本稿では,ガウス的特徴を持つ線形回帰モデルの下で,過剰適合型メタラーニングの性能について検討する。
シングルタスク線形回帰には存在しない新しい興味深い性質が見つかる。
本分析は,各訓練課題における基礎的真理のノイズや多様性・変動が大きい場合には,良心過剰がより重要かつ容易に観察できることを示唆する。
論文 参考訳(メタデータ) (2023-04-09T20:36:13Z) - Regression as Classification: Influence of Task Formulation on Neural
Network Features [16.239708754973865]
ニューラルネットワークは、勾配に基づく手法を用いて2乗損失を最小限に抑えることにより、回帰問題を解決するために訓練することができる。
実践者は、しばしば回帰を分類問題として再編成し、クロスエントロピー損失のトレーニングがより良いパフォーマンスをもたらすことを観察する。
2層ReLUネットワークに着目して、勾配に基づく最適化によって引き起こされる暗黙のバイアスが、この現象を部分的に説明できるかを検討する。
論文 参考訳(メタデータ) (2022-11-10T15:13:23Z) - Perturbation Analysis of Neural Collapse [24.94449183555951]
分類のためのディープニューラルネットワークのトレーニングには、ゼロトレーニングエラー点を超えるトレーニング損失を最小限にすることが含まれる。
最近の研究は、全ての最小化器が正確な崩壊を示す理想化された制約のない特徴モデルを通して、この挙動を分析している。
本稿では,この現象を,予め定義された特徴行列の近傍に留まらせることで,よりリッチなモデルを提案する。
論文 参考訳(メタデータ) (2022-10-29T17:46:03Z) - Neural Collapse with Normalized Features: A Geometric Analysis over the
Riemannian Manifold [30.3185037354742]
分類タスクのための正規化されたディープネットワーク上でのトレーニングでは、学習された特徴はいわゆる「神経崩壊」現象を示す。
特徴正規化により、より良い表現をより早く学習できることが示される。
論文 参考訳(メタデータ) (2022-09-19T17:26:32Z) - On Convergence of Training Loss Without Reaching Stationary Points [62.41370821014218]
ニューラルネットワークの重み変数は、損失関数の勾配が消える定常点に収束しないことを示す。
エルゴード理論の力学系に基づく新しい視点を提案する。
論文 参考訳(メタデータ) (2021-10-12T18:12:23Z) - Deep learning: a statistical viewpoint [120.94133818355645]
ディープラーニングは、理論的観点からいくつかの大きな驚きを明らかにしました。
特に、簡単な勾配法は、最適でないトレーニング問題に対するほぼ完全な解決策を簡単に見つけます。
我々はこれらの現象を具体的原理で補うと推測する。
論文 参考訳(メタデータ) (2021-03-16T16:26:36Z) - Gradient Starvation: A Learning Proclivity in Neural Networks [97.02382916372594]
グラディエント・スターベーションは、タスクに関連する機能のサブセットのみをキャプチャすることで、クロスエントロピー損失を最小化するときに発生する。
この研究は、ニューラルネットワークにおけるそのような特徴不均衡の出現に関する理論的説明を提供する。
論文 参考訳(メタデータ) (2020-11-18T18:52:08Z) - Implicit Bias of Gradient Descent for Wide Two-layer Neural Networks
Trained with the Logistic Loss [0.0]
勾配に基づく手法によるロジスティック(クロスエントロピー)損失を最小限に抑えるために訓練されたニューラルネットワークは、多くの教師付き分類タスクでうまく機能する。
我々は、均一な活性化を伴う無限に広い2層ニューラルネットワークのトレーニングと一般化の挙動を解析する。
論文 参考訳(メタデータ) (2020-02-11T15:42:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。