論文の概要: Heavy-Tailed Class Imbalance and Why Adam Outperforms Gradient Descent
on Language Models
- arxiv url: http://arxiv.org/abs/2402.19449v1
- Date: Thu, 29 Feb 2024 18:47:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-01 13:28:45.653919
- Title: Heavy-Tailed Class Imbalance and Why Adam Outperforms Gradient Descent
on Language Models
- Title(参考訳): 重機型クラス不均衡とAdamが言語モデルでグラディエント・ダイスを上回る理由
- Authors: Frederik Kunstner, Robin Yadav, Alan Milligan, Mark Schmidt, Alberto
Bietti
- Abstract要約: 言語モデリングタスクで見られる重み付きクラス不均衡は、最適化のダイナミクスに困難をもたらすことを示す。
アダムとサインベースの手法はこの問題に悩まされず、全てのクラスの予測を改善する。
- 参考スコア(独自算出の注目度): 25.234065536725957
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Adam has been shown to outperform gradient descent in optimizing large
language transformers empirically, and by a larger margin than on other tasks,
but it is unclear why this happens. We show that the heavy-tailed class
imbalance found in language modeling tasks leads to difficulties in the
optimization dynamics. When training with gradient descent, the loss associated
with infrequent words decreases slower than the loss associated with frequent
ones. As most samples come from relatively infrequent words, the average loss
decreases slowly with gradient descent. On the other hand, Adam and sign-based
methods do not suffer from this problem and improve predictions on all classes.
To establish that this behavior is indeed caused by class imbalance, we show
empirically that it persist through different architectures and data types, on
language transformers, vision CNNs, and linear models. We further study this
phenomenon on a linear classification with cross-entropy loss, showing that
heavy-tailed class imbalance leads to ill-conditioning, and that the
normalization used by Adam can counteract it.
- Abstract(参考訳): アダムは、大きな言語変換器を経験的に最適化し、他のタスクよりも大きなマージンで勾配勾配よりも優れていることが示されているが、なぜそうなるのかは不明である。
言語モデリングタスクで見られる重み付きクラス不均衡は、最適化のダイナミクスに困難をもたらすことを示す。
勾配降下訓練では、頻度の低い単語による損失は、頻繁な単語による損失よりも遅くなる。
ほとんどのサンプルは、比較的低い単語から来るため、平均損失は勾配降下とともにゆっくりと減少する。
一方、Adamと手話に基づく手法はこの問題に悩まされず、全てのクラスの予測を改善する。
この振る舞いが実際にクラスの不均衡によって引き起こされることを示すために、言語トランスフォーマー、視覚cnn、線形モデルにおいて、異なるアーキテクチャとデータ型を通して持続することを示す。
さらに,クロスエントロピー損失を伴う線形分類におけるこの現象について検討し,重鎖クラス不均衡が悪条件化を招き,adamが使用する正規化がそれと反作用することを示した。
関連論文リスト
- Topological Augmentation for Class-Imbalanced Node Classification [64.20437487896343]
探索下トポロジ中心の視点から,クラス不均衡バイアスの源泉について検討した。
そこで我々は, アンビバシアン/ディスタントメッセージパッシングの影響を受けやすいノードを動的に修正する, 軽量なトポロジカル拡張手法TOBAを考案した。
ToBAはモデルに依存しない、効率的で多用途なソリューションであり、シームレスに組み合わせて、他の不均衡処理技術をさらに促進することができる。
論文 参考訳(メタデータ) (2023-08-27T19:01:29Z) - Class Instance Balanced Learning for Long-Tailed Classification [0.0]
ロングテール画像分類タスクは、トレーニングデータのクラス周波数における大きな不均衡を扱う。
従来のアプローチでは、クロスエントロピーとコントラスト学習を組み合わせることで、長いタスクのパフォーマンスが向上することが示されている。
学習バッチにおけるクラスインスタンスの頻度の関数として,クロスエントロピーと対照的な損失の相対的寄与を重み付けする新しいクラスインスタンス平衡損失(CIBL)を提案する。
論文 参考訳(メタデータ) (2023-07-11T15:09:10Z) - Meta-Learning Online Adaptation of Language Models [88.8947656843812]
大規模言語モデルは、そのパラメータにおける驚くほど広い世界の知識を符号化する。
しかし、静的言語モデルの知識は時代遅れになり、モデルの効果的な「シェルフライフ」が制限される。
論文 参考訳(メタデータ) (2023-05-24T11:56:20Z) - Delving into Semantic Scale Imbalance [45.30062061215943]
クラスの特徴的多様性を測定するために使用されるクラスの意味的スケールを定義し,定量化する。
本稿では、一般的な損失改善スキームと動的再重み付けトレーニングフレームワークを含む意味尺度バランス学習を提案する。
総合的な実験により、動的セマンティック・スケール・バランス・ラーニングにより、大規模で長い尾を持つ非長い尾を持つ自然および医学的なデータセットにおいて、モデルが優れたパフォーマンスを発揮することが示されている。
論文 参考訳(メタデータ) (2022-12-30T09:40:09Z) - The Equalization Losses: Gradient-Driven Training for Long-tailed Object
Recognition [84.51875325962061]
本稿では,長距離問題に対処するための勾配駆動型学習機構を提案する。
我々は、勾配駆動損失関数の新たなファミリー、すなわち等化損失を導入する。
我々の手法は一貫してベースラインモデルより優れています。
論文 参考訳(メタデータ) (2022-10-11T16:00:36Z) - A Theoretical Analysis of the Learning Dynamics under Class Imbalance [0.10231119246773925]
本研究では,少数クラスと多数クラスの学習曲線が,勾配に基づく学習において,準最適軌跡に従うことを示す。
この減速は不均衡比に関連しており、異なるクラスの最適化の競合に遡ることができる。
GDはクラスごとの損失を減らすことは保証されていないが、勾配のクラスごとの正規化を行うことでこの問題に対処できる。
論文 参考訳(メタデータ) (2022-07-01T12:54:38Z) - Neural Collapse Inspired Attraction-Repulsion-Balanced Loss for
Imbalanced Learning [97.81549071978789]
勾配の異なる成分のバランスをとるために,Attraction-Repulsion-Balanced Loss (ARB-Loss)を提案する。
大規模分類とセグメンテーションデータセットの実験を行い、ARB-Lossは最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-04-19T08:23:23Z) - Understanding the Generalization of Adam in Learning Neural Networks
with Proper Regularization [118.50301177912381]
我々は,重力減衰グローバリゼーションにおいても,目的の異なる解に確実に異なる誤差で収束できることを示す。
凸と重み減衰正則化を用いると、Adamを含む任意の最適化アルゴリズムは同じ解に収束することを示す。
論文 参考訳(メタデータ) (2021-08-25T17:58:21Z) - Reinforcement Based Learning on Classification Task Could Yield Better
Generalization and Adversarial Accuracy [0.0]
画像分類タスクを用いて深層学習モデルを訓練する新しい手法を提案する。
強化学習におけるバニラポリシー勾配法に類似した報酬に基づく最適化関数を用いる。
論文 参考訳(メタデータ) (2020-12-08T11:03:17Z) - MTAdam: Automatic Balancing of Multiple Training Loss Terms [95.99508450208813]
複数の損失項を扱うためにAdam最適化アルゴリズムを一般化する。
新たな手法によるトレーニングは, 最適初期損失重み付けの早期回復につながることを示す。
論文 参考訳(メタデータ) (2020-06-25T20:27:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。