Fugu-MT 論文翻訳(概要): Heavy-Tailed Class Imbalance and Why Adam Outperforms Gradient Descent on Language Models

論文の概要: Heavy-Tailed Class Imbalance and Why Adam Outperforms Gradient Descent on Language Models

arxiv url: http://arxiv.org/abs/2402.19449v1
Date: Thu, 29 Feb 2024 18:47:52 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-01 13:28:45.653919
Title: Heavy-Tailed Class Imbalance and Why Adam Outperforms Gradient Descent on Language Models
Title（参考訳）: 重機型クラス不均衡とAdamが言語モデルでグラディエント・ダイスを上回る理由
Authors: Frederik Kunstner, Robin Yadav, Alan Milligan, Mark Schmidt, Alberto Bietti
Abstract要約: 言語モデリングタスクで見られる重み付きクラス不均衡は、最適化のダイナミクスに困難をもたらすことを示す。アダムとサインベースの手法はこの問題に悩まされず、全てのクラスの予測を改善する。
参考スコア（独自算出の注目度）: 25.234065536725957
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Adam has been shown to outperform gradient descent in optimizing large language transformers empirically, and by a larger margin than on other tasks, but it is unclear why this happens. We show that the heavy-tailed class imbalance found in language modeling tasks leads to difficulties in the optimization dynamics. When training with gradient descent, the loss associated with infrequent words decreases slower than the loss associated with frequent ones. As most samples come from relatively infrequent words, the average loss decreases slowly with gradient descent. On the other hand, Adam and sign-based methods do not suffer from this problem and improve predictions on all classes. To establish that this behavior is indeed caused by class imbalance, we show empirically that it persist through different architectures and data types, on language transformers, vision CNNs, and linear models. We further study this phenomenon on a linear classification with cross-entropy loss, showing that heavy-tailed class imbalance leads to ill-conditioning, and that the normalization used by Adam can counteract it.
Abstract（参考訳）: アダムは、大きな言語変換器を経験的に最適化し、他のタスクよりも大きなマージンで勾配勾配よりも優れていることが示されているが、なぜそうなるのかは不明である。言語モデリングタスクで見られる重み付きクラス不均衡は、最適化のダイナミクスに困難をもたらすことを示す。勾配降下訓練では、頻度の低い単語による損失は、頻繁な単語による損失よりも遅くなる。ほとんどのサンプルは、比較的低い単語から来るため、平均損失は勾配降下とともにゆっくりと減少する。一方、Adamと手話に基づく手法はこの問題に悩まされず、全てのクラスの予測を改善する。この振る舞いが実際にクラスの不均衡によって引き起こされることを示すために、言語トランスフォーマー、視覚cnn、線形モデルにおいて、異なるアーキテクチャとデータ型を通して持続することを示す。さらに,クロスエントロピー損失を伴う線形分類におけるこの現象について検討し,重鎖クラス不均衡が悪条件化を招き,adamが使用する正規化がそれと反作用することを示した。

関連論文リスト

Is your batch size the problem? Revisiting the Adam-SGD gap in language modeling [36.106114687828395]
言語モデルでは、AdamはGradient Descent(SGD)よりもはるかに優れていることが知られている。我々は,SGDとAdamのギャップに運動量,勾配クリッピング,バッチサイズがどのような影響を及ぼすか,徹底的に検討した。
論文参考訳（メタデータ） (2025-06-14T15:37:31Z)
Training Dynamics Underlying Language Model Scaling Laws: Loss Deceleration and Zero-Sum Learning [14.227982314368116]
この研究は、スケーリングが言語モデルをどのように改善するか、特にトレーニングダイナミクスの観点から理解することを目的としている。学習の早い段階では、言語モデルが損失減少を経験し、損失改善率の急激な低下により、ログ空間における損失曲線の分別線形な挙動がもたらされることが判明した。ゼロサム学習(ZSL)と呼ばれる訓練力学の種類による損失減少の要因について検討する。 ZSLでは、サンプルごとの勾配が体系的に対立し、サンプルごとの損失の変化に破壊的な干渉をもたらす。
論文参考訳（メタデータ） (2025-06-05T15:18:35Z)
The Implicit Bias of Adam on Separable Data [27.451499849532176]
トレーニングデータが線形分離可能である場合、Adamは学習率の低下を達成する線形勾配に収束することを示す。我々の結果は、アダムと(確率的な)子孫の違いを理論的観点から明らかにした。
論文参考訳（メタデータ） (2024-06-15T14:39:37Z)
Clipping Improves Adam-Norm and AdaGrad-Norm when the Noise Is Heavy-Tailed [83.8485684139678]
AdaGradやAdamのような適応的なステップサイズを持つ手法は、現代のディープラーニングモデルのトレーニングに不可欠である。 AdaGrad/Adam はノイズが重く、高い確率収束性を有することを示す。
論文参考訳（メタデータ） (2024-06-06T18:49:10Z)
Class Instance Balanced Learning for Long-Tailed Classification [0.0]
ロングテール画像分類タスクは、トレーニングデータのクラス周波数における大きな不均衡を扱う。従来のアプローチでは、クロスエントロピーとコントラスト学習を組み合わせることで、長いタスクのパフォーマンスが向上することが示されている。学習バッチにおけるクラスインスタンスの頻度の関数として,クロスエントロピーと対照的な損失の相対的寄与を重み付けする新しいクラスインスタンス平衡損失(CIBL)を提案する。
論文参考訳（メタデータ） (2023-07-11T15:09:10Z)
Meta-Learning Online Adaptation of Language Models [88.8947656843812]
大規模言語モデルは、そのパラメータにおける驚くほど広い世界の知識を符号化する。しかし、静的言語モデルの知識は時代遅れになり、モデルの効果的な「シェルフライフ」が制限される。
論文参考訳（メタデータ） (2023-05-24T11:56:20Z)
The Equalization Losses: Gradient-Driven Training for Long-tailed Object Recognition [84.51875325962061]
本稿では,長距離問題に対処するための勾配駆動型学習機構を提案する。我々は、勾配駆動損失関数の新たなファミリー、すなわち等化損失を導入する。我々の手法は一貫してベースラインモデルより優れています。
論文参考訳（メタデータ） (2022-10-11T16:00:36Z)
A Theoretical Analysis of the Learning Dynamics under Class Imbalance [0.10231119246773925]
本研究では,少数クラスと多数クラスの学習曲線が,勾配に基づく学習において,準最適軌跡に従うことを示す。この減速は不均衡比に関連しており、異なるクラスの最適化の競合に遡ることができる。 GDはクラスごとの損失を減らすことは保証されていないが、勾配のクラスごとの正規化を行うことでこの問題に対処できる。
論文参考訳（メタデータ） (2022-07-01T12:54:38Z)
Neural Collapse Inspired Attraction-Repulsion-Balanced Loss for Imbalanced Learning [97.81549071978789]
勾配の異なる成分のバランスをとるために,Attraction-Repulsion-Balanced Loss (ARB-Loss)を提案する。大規模分類とセグメンテーションデータセットの実験を行い、ARB-Lossは最先端の性能を実現する。
論文参考訳（メタデータ） (2022-04-19T08:23:23Z)
Rebalanced Siamese Contrastive Mining for Long-Tailed Recognition [120.80038161330623]
教師付きコントラスト学習は、元のバッチレベルとシームズバッチレベルの両方において、二重クラス不均衡の問題に悩まされていることを示す。コントラスト計算のための情報的ペアを抽出し,表現学習を改善するために,教師付き強正・負のペアマイニングを提案する。
論文参考訳（メタデータ） (2022-03-22T07:30:38Z)
Understanding the Generalization of Adam in Learning Neural Networks with Proper Regularization [118.50301177912381]
我々は,重力減衰グローバリゼーションにおいても,目的の異なる解に確実に異なる誤差で収束できることを示す。凸と重み減衰正則化を用いると、Adamを含む任意の最適化アルゴリズムは同じ解に収束することを示す。
論文参考訳（メタデータ） (2021-08-25T17:58:21Z)
Distributional Robustness Loss for Long-tail Learning [20.800627115140465]
現実世界のデータはしばしばアンバランスで長尾ですが、深いモデルは頻繁なクラスの存在下でまれなクラスを認識するのに苦労します。ディープネットワークの特徴抽出器部分は,このバイアスに大きく悩まされていることを示す。モデルが頭と尾の両方のクラスで高品質の表現を学ぶことを奨励するロバストネス理論に基づく新しい損失を提案します。
論文参考訳（メタデータ） (2021-04-07T11:34:04Z)
Understanding self-supervised Learning Dynamics without Contrastive Pairs [72.1743263777693]
自己監視学習(SSL)に対する対照的アプローチは、同じデータポイントの2つの拡張ビュー間の距離を最小限にすることで表現を学習する。 BYOLとSimSiamは、負のペアなしで素晴らしいパフォーマンスを示す。単純線形ネットワークにおける非コントラストSSLの非線形学習ダイナミクスについて検討する。
論文参考訳（メタデータ） (2021-02-12T22:57:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。