論文の概要: Heavy-Tailed Class Imbalance and Why Adam Outperforms Gradient Descent on Language Models
- arxiv url: http://arxiv.org/abs/2402.19449v2
- Date: Fri, 12 Jul 2024 05:10:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-16 05:07:34.855049
- Title: Heavy-Tailed Class Imbalance and Why Adam Outperforms Gradient Descent on Language Models
- Title(参考訳): 重機型クラス不均衡とAdamが言語モデルでグラディエント・ダイスを上回る理由
- Authors: Frederik Kunstner, Robin Yadav, Alan Milligan, Mark Schmidt, Alberto Bietti,
- Abstract要約: Adamは、他のタスクよりも大きなマージンで、大きな言語モデルでの勾配勾配よりも優れていることが示されている。
この性能ギャップの重要な要因は、言語タスクで見られる重み付きクラス不均衡であることを示す。
- 参考スコア(独自算出の注目度): 23.520679217713685
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Adam has been shown to outperform gradient descent on large language models by a larger margin than on other tasks, but it is unclear why. We show that a key factor in this performance gap is the heavy-tailed class imbalance found in language tasks. When trained with gradient descent, the loss of infrequent words decreases more slowly than the loss of frequent ones. This leads to a slow decrease on the average loss as most samples come from infrequent words. On the other hand, Adam and sign-based methods are less sensitive to this problem. To establish that this behavior is caused by class imbalance, we show empirically that it can be reproduced across architectures and data types, on language transformers, vision CNNs, and linear models. On a linear model with cross-entropy loss, we show that class imbalance leads to imbalanced, correlated gradients and Hessians that have been hypothesized to benefit Adam. We also prove that, in continuous time, gradient descent converges slowly on low-frequency classes while sign descent does not.
- Abstract(参考訳): Adamは、他のタスクよりも大きなマージンで、大きな言語モデルでの勾配勾配よりも優れていることが示されているが、なぜかは定かではない。
この性能ギャップの重要な要因は、言語タスクで見られる重み付きクラス不均衡であることを示す。
勾配降下法で訓練すると、頻度の低い単語の損失は、頻繁な単語の損失よりも遅くなる。
これは、ほとんどのサンプルが頻度の低い単語から来ているため、平均的な損失が緩やかに減少する。
一方、Adamと手話に基づく手法はこの問題にはあまり敏感ではない。
この動作がクラス不均衡によって引き起こされることを示すために、アーキテクチャやデータタイプ、言語変換器、視覚CNN、線形モデル上で再現できることを実証的に示す。
クロスエントロピー損失を持つ線形モデルにおいて、クラス不均衡はアダムに利益をもたらすと仮定された不均衡な相関勾配とヘッセン性をもたらすことを示す。
また、連続時間において、勾配降下は低周波のクラスにゆっくりと収束するが、符号降下は必ずしも収束しないことを示す。
関連論文リスト
- The Implicit Bias of Adam on Separable Data [27.451499849532176]
トレーニングデータが線形分離可能である場合、Adamは学習率の低下を達成する線形勾配に収束することを示す。
我々の結果は、アダムと(確率的な)子孫の違いを理論的観点から明らかにした。
論文 参考訳(メタデータ) (2024-06-15T14:39:37Z) - Class Instance Balanced Learning for Long-Tailed Classification [0.0]
ロングテール画像分類タスクは、トレーニングデータのクラス周波数における大きな不均衡を扱う。
従来のアプローチでは、クロスエントロピーとコントラスト学習を組み合わせることで、長いタスクのパフォーマンスが向上することが示されている。
学習バッチにおけるクラスインスタンスの頻度の関数として,クロスエントロピーと対照的な損失の相対的寄与を重み付けする新しいクラスインスタンス平衡損失(CIBL)を提案する。
論文 参考訳(メタデータ) (2023-07-11T15:09:10Z) - Meta-Learning Online Adaptation of Language Models [88.8947656843812]
大規模言語モデルは、そのパラメータにおける驚くほど広い世界の知識を符号化する。
しかし、静的言語モデルの知識は時代遅れになり、モデルの効果的な「シェルフライフ」が制限される。
論文 参考訳(メタデータ) (2023-05-24T11:56:20Z) - The Equalization Losses: Gradient-Driven Training for Long-tailed Object
Recognition [84.51875325962061]
本稿では,長距離問題に対処するための勾配駆動型学習機構を提案する。
我々は、勾配駆動損失関数の新たなファミリー、すなわち等化損失を導入する。
我々の手法は一貫してベースラインモデルより優れています。
論文 参考訳(メタデータ) (2022-10-11T16:00:36Z) - A Theoretical Analysis of the Learning Dynamics under Class Imbalance [0.10231119246773925]
本研究では,少数クラスと多数クラスの学習曲線が,勾配に基づく学習において,準最適軌跡に従うことを示す。
この減速は不均衡比に関連しており、異なるクラスの最適化の競合に遡ることができる。
GDはクラスごとの損失を減らすことは保証されていないが、勾配のクラスごとの正規化を行うことでこの問題に対処できる。
論文 参考訳(メタデータ) (2022-07-01T12:54:38Z) - Neural Collapse Inspired Attraction-Repulsion-Balanced Loss for
Imbalanced Learning [97.81549071978789]
勾配の異なる成分のバランスをとるために,Attraction-Repulsion-Balanced Loss (ARB-Loss)を提案する。
大規模分類とセグメンテーションデータセットの実験を行い、ARB-Lossは最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-04-19T08:23:23Z) - Rebalanced Siamese Contrastive Mining for Long-Tailed Recognition [120.80038161330623]
教師付きコントラスト学習は、元のバッチレベルとシームズバッチレベルの両方において、二重クラス不均衡の問題に悩まされていることを示す。
コントラスト計算のための情報的ペアを抽出し,表現学習を改善するために,教師付き強正・負のペアマイニングを提案する。
論文 参考訳(メタデータ) (2022-03-22T07:30:38Z) - Understanding the Generalization of Adam in Learning Neural Networks
with Proper Regularization [118.50301177912381]
我々は,重力減衰グローバリゼーションにおいても,目的の異なる解に確実に異なる誤差で収束できることを示す。
凸と重み減衰正則化を用いると、Adamを含む任意の最適化アルゴリズムは同じ解に収束することを示す。
論文 参考訳(メタデータ) (2021-08-25T17:58:21Z) - Distributional Robustness Loss for Long-tail Learning [20.800627115140465]
現実世界のデータはしばしばアンバランスで長尾ですが、深いモデルは頻繁なクラスの存在下でまれなクラスを認識するのに苦労します。
ディープネットワークの特徴抽出器部分は,このバイアスに大きく悩まされていることを示す。
モデルが頭と尾の両方のクラスで高品質の表現を学ぶことを奨励するロバストネス理論に基づく新しい損失を提案します。
論文 参考訳(メタデータ) (2021-04-07T11:34:04Z) - Understanding self-supervised Learning Dynamics without Contrastive
Pairs [72.1743263777693]
自己監視学習(SSL)に対する対照的アプローチは、同じデータポイントの2つの拡張ビュー間の距離を最小限にすることで表現を学習する。
BYOLとSimSiamは、負のペアなしで素晴らしいパフォーマンスを示す。
単純線形ネットワークにおける非コントラストSSLの非線形学習ダイナミクスについて検討する。
論文 参考訳(メタデータ) (2021-02-12T22:57:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。