論文の概要: Heavy-Tailed Class Imbalance and Why Adam Outperforms Gradient Descent
on Language Models
- arxiv url: http://arxiv.org/abs/2402.19449v1
- Date: Thu, 29 Feb 2024 18:47:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-01 13:28:45.653919
- Title: Heavy-Tailed Class Imbalance and Why Adam Outperforms Gradient Descent
on Language Models
- Title(参考訳): 重機型クラス不均衡とAdamが言語モデルでグラディエント・ダイスを上回る理由
- Authors: Frederik Kunstner, Robin Yadav, Alan Milligan, Mark Schmidt, Alberto
Bietti
- Abstract要約: 言語モデリングタスクで見られる重み付きクラス不均衡は、最適化のダイナミクスに困難をもたらすことを示す。
アダムとサインベースの手法はこの問題に悩まされず、全てのクラスの予測を改善する。
- 参考スコア(独自算出の注目度): 25.234065536725957
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Adam has been shown to outperform gradient descent in optimizing large
language transformers empirically, and by a larger margin than on other tasks,
but it is unclear why this happens. We show that the heavy-tailed class
imbalance found in language modeling tasks leads to difficulties in the
optimization dynamics. When training with gradient descent, the loss associated
with infrequent words decreases slower than the loss associated with frequent
ones. As most samples come from relatively infrequent words, the average loss
decreases slowly with gradient descent. On the other hand, Adam and sign-based
methods do not suffer from this problem and improve predictions on all classes.
To establish that this behavior is indeed caused by class imbalance, we show
empirically that it persist through different architectures and data types, on
language transformers, vision CNNs, and linear models. We further study this
phenomenon on a linear classification with cross-entropy loss, showing that
heavy-tailed class imbalance leads to ill-conditioning, and that the
normalization used by Adam can counteract it.
- Abstract(参考訳): アダムは、大きな言語変換器を経験的に最適化し、他のタスクよりも大きなマージンで勾配勾配よりも優れていることが示されているが、なぜそうなるのかは不明である。
言語モデリングタスクで見られる重み付きクラス不均衡は、最適化のダイナミクスに困難をもたらすことを示す。
勾配降下訓練では、頻度の低い単語による損失は、頻繁な単語による損失よりも遅くなる。
ほとんどのサンプルは、比較的低い単語から来るため、平均損失は勾配降下とともにゆっくりと減少する。
一方、Adamと手話に基づく手法はこの問題に悩まされず、全てのクラスの予測を改善する。
この振る舞いが実際にクラスの不均衡によって引き起こされることを示すために、言語トランスフォーマー、視覚cnn、線形モデルにおいて、異なるアーキテクチャとデータ型を通して持続することを示す。
さらに,クロスエントロピー損失を伴う線形分類におけるこの現象について検討し,重鎖クラス不均衡が悪条件化を招き,adamが使用する正規化がそれと反作用することを示した。
関連論文リスト
- The Implicit Bias of Adam on Separable Data [27.451499849532176]
トレーニングデータが線形分離可能である場合、Adamは学習率の低下を達成する線形勾配に収束することを示す。
我々の結果は、アダムと(確率的な)子孫の違いを理論的観点から明らかにした。
論文 参考訳(メタデータ) (2024-06-15T14:39:37Z) - Class Instance Balanced Learning for Long-Tailed Classification [0.0]
ロングテール画像分類タスクは、トレーニングデータのクラス周波数における大きな不均衡を扱う。
従来のアプローチでは、クロスエントロピーとコントラスト学習を組み合わせることで、長いタスクのパフォーマンスが向上することが示されている。
学習バッチにおけるクラスインスタンスの頻度の関数として,クロスエントロピーと対照的な損失の相対的寄与を重み付けする新しいクラスインスタンス平衡損失(CIBL)を提案する。
論文 参考訳(メタデータ) (2023-07-11T15:09:10Z) - Meta-Learning Online Adaptation of Language Models [88.8947656843812]
大規模言語モデルは、そのパラメータにおける驚くほど広い世界の知識を符号化する。
しかし、静的言語モデルの知識は時代遅れになり、モデルの効果的な「シェルフライフ」が制限される。
論文 参考訳(メタデータ) (2023-05-24T11:56:20Z) - The Equalization Losses: Gradient-Driven Training for Long-tailed Object
Recognition [84.51875325962061]
本稿では,長距離問題に対処するための勾配駆動型学習機構を提案する。
我々は、勾配駆動損失関数の新たなファミリー、すなわち等化損失を導入する。
我々の手法は一貫してベースラインモデルより優れています。
論文 参考訳(メタデータ) (2022-10-11T16:00:36Z) - A Theoretical Analysis of the Learning Dynamics under Class Imbalance [0.10231119246773925]
本研究では,少数クラスと多数クラスの学習曲線が,勾配に基づく学習において,準最適軌跡に従うことを示す。
この減速は不均衡比に関連しており、異なるクラスの最適化の競合に遡ることができる。
GDはクラスごとの損失を減らすことは保証されていないが、勾配のクラスごとの正規化を行うことでこの問題に対処できる。
論文 参考訳(メタデータ) (2022-07-01T12:54:38Z) - Neural Collapse Inspired Attraction-Repulsion-Balanced Loss for
Imbalanced Learning [97.81549071978789]
勾配の異なる成分のバランスをとるために,Attraction-Repulsion-Balanced Loss (ARB-Loss)を提案する。
大規模分類とセグメンテーションデータセットの実験を行い、ARB-Lossは最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-04-19T08:23:23Z) - Rebalanced Siamese Contrastive Mining for Long-Tailed Recognition [120.80038161330623]
教師付きコントラスト学習は、元のバッチレベルとシームズバッチレベルの両方において、二重クラス不均衡の問題に悩まされていることを示す。
コントラスト計算のための情報的ペアを抽出し,表現学習を改善するために,教師付き強正・負のペアマイニングを提案する。
論文 参考訳(メタデータ) (2022-03-22T07:30:38Z) - Understanding the Generalization of Adam in Learning Neural Networks
with Proper Regularization [118.50301177912381]
我々は,重力減衰グローバリゼーションにおいても,目的の異なる解に確実に異なる誤差で収束できることを示す。
凸と重み減衰正則化を用いると、Adamを含む任意の最適化アルゴリズムは同じ解に収束することを示す。
論文 参考訳(メタデータ) (2021-08-25T17:58:21Z) - Distributional Robustness Loss for Long-tail Learning [20.800627115140465]
現実世界のデータはしばしばアンバランスで長尾ですが、深いモデルは頻繁なクラスの存在下でまれなクラスを認識するのに苦労します。
ディープネットワークの特徴抽出器部分は,このバイアスに大きく悩まされていることを示す。
モデルが頭と尾の両方のクラスで高品質の表現を学ぶことを奨励するロバストネス理論に基づく新しい損失を提案します。
論文 参考訳(メタデータ) (2021-04-07T11:34:04Z) - Understanding self-supervised Learning Dynamics without Contrastive
Pairs [72.1743263777693]
自己監視学習(SSL)に対する対照的アプローチは、同じデータポイントの2つの拡張ビュー間の距離を最小限にすることで表現を学習する。
BYOLとSimSiamは、負のペアなしで素晴らしいパフォーマンスを示す。
単純線形ネットワークにおける非コントラストSSLの非線形学習ダイナミクスについて検討する。
論文 参考訳(メタデータ) (2021-02-12T22:57:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。