Fugu-MT 論文翻訳(概要): GradPower: Powering Gradients for Faster Language Model Pre-Training

論文の概要: GradPower: Powering Gradients for Faster Language Model Pre-Training

arxiv url: http://arxiv.org/abs/2505.24275v1
Date: Fri, 30 May 2025 06:49:57 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-02 19:47:52.814908
Title: GradPower: Powering Gradients for Faster Language Model Pre-Training
Title（参考訳）: GradPower: より高速な言語モデル事前トレーニングのためのGradientsのパワー
Authors: Mingze Wang, Jinbo Wang, Jiaqi Zhang, Wei Wang, Peng Pei, Xunliang Cai, Weinan E, Lei Wu,
Abstract要約: GradPowerは、言語モデルの事前トレーニングを加速するための軽量な変換技術である。たった1行のコードの変更だけで、ベースの内部ロジックを変更する必要はない。多様なアーキテクチャで終端損失を継続的に減少させる。
参考スコア（独自算出の注目度）: 15.650619834236789
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We propose GradPower, a lightweight gradient-transformation technique for accelerating language model pre-training. Given a gradient vector $g=(g_i)_i$, GradPower first applies the elementwise sign-power transformation: $\varphi_p(g)=({\rm sign}(g_i)|g_i|^p)_{i}$ for a fixed $p>0$, and then feeds the transformed gradient into a base optimizer. Notably, GradPower requires only a single-line code change and no modifications to the base optimizer's internal logic, including the hyperparameters. When applied to Adam (termed AdamPower), GradPower consistently achieves lower terminal loss across diverse architectures (LLaMA, Qwen2MoE), parameter scales (66M to 2B), datasets (C4, OpenWebText), and learning-rate schedules (cosine, warmup-stable-decay). The most pronounced gains are observed when training modern mixture-of-experts models with warmup-stable-decay schedules. GradPower also integrates seamlessly with other state-of-the-art optimizers, such as Muon, yielding further improvements. Finally, we provide theoretical analyses that reveal the underlying mechanism of GradPower and highlights the influence of gradient noise.
Abstract（参考訳）: 言語モデルの事前学習を高速化する軽量な勾配変換手法であるGradPowerを提案する。勾配ベクトル $g=(g_i)_i$ が与えられたとき、GradPower はまず要素単位の符号パワー変換を適用する: $\varphi_p(g)=({\rm sign}(g_i)|g_i|^p)_{i}$ for a fixed $p>0$。特に、GradPowerは1行のコードの変更だけで、ハイパーパラメータを含むベースオプティマイザの内部ロジックの変更は不要である。 Adam (Termed AdamPower) に適用された GradPower は,さまざまなアーキテクチャ (LLaMA, Qwen2MoE),パラメータスケール (66Mから2B),データセット (C4, OpenWebText),学習速度スケジュール (cosine, warmup-stable-decay) にわたって,終端損失の低減を実現している。最も顕著な利得は、ウォームアップ・スタブル・デカイスケジュールによる現代の混合専門家モデルのトレーニング時に観測される。 GradPowerはまた、Muonのような最先端のオプティマイザとシームレスに統合し、さらなる改善をもたらす。最後に,GradPowerの基盤となるメカニズムを明らかにする理論解析を行い,勾配雑音の影響を明らかにする。

関連論文リスト

GradMetaNet: An Equivariant Architecture for Learning on Gradients [18.350495600116712]
勾配学習のための新しいアーキテクチャであるGradMetaNetを紹介する。また,GradMetaNet に対して,従来の手法では自然勾配関数を近似できないことを示す。次に,GradMetaNetの有効性を,勾配に基づくタスクの多種多様なセットで実証する。
論文参考訳（メタデータ） (2025-07-02T12:22:39Z)
Can Gradient Descent Simulate Prompting? [56.60154660021178]
勾配は新しい情報に対する条件付けの効果を更新する。勾配降下訓練は、引き起こされたモデルパフォーマンスのいくつか(時には全て)を回復する。長文モデリングのための新しい道のりを示唆する。
論文参考訳（メタデータ） (2025-06-26T04:06:20Z)
ELRA: Exponential learning rate adaption gradient descent optimization method [83.88591755871734]
我々は, 高速(指数率), ab initio(超自由)勾配に基づく適応法を提案する。本手法の主な考え方は,状況認識による$alphaの適応である。これは任意の次元 n の問題に適用でき、線型にしかスケールできない。
論文参考訳（メタデータ） (2023-09-12T14:36:13Z)
Gradient Sparsification For Masked Fine-Tuning of Transformers [6.936564049727831]
調整済みの自己教師型言語モデルが下流タスクへの変換学習に広く採用されている。緩やかな凍結は、トレーニング中に層全体の勾配を徐々に解凍することで両者のトレードオフをもたらす。徐々に凍結する層が、緩やかに変化して徐々に凍結する層に比べて、トレーニング全体を通して徐々に凍結する層が最適であるかどうかは不明である。
論文参考訳（メタデータ） (2023-07-19T16:13:13Z)
Gradient Correction beyond Gradient Descent [63.33439072360198]
勾配補正は明らかに、ニューラルネットワークのトレーニングにおいて、最も重要な側面である。勾配補正を行うためのフレームワーク(textbfGCGD)を導入する。実験結果から, 勾配補正フレームワークは, トレーニングエポックスを$sim$20%削減し, ネットワーク性能を向上させることができることがわかった。
論文参考訳（メタデータ） (2022-03-16T01:42:25Z)
Privacy-Preserving Logistic Regression Training with A Faster Gradient Variant [0.0]
プライバシー保護のロジスティック回帰トレーニングのために、$quadratic$ $gradient$と呼ばれる効率的な勾配を導入する。実験結果から,改良アルゴリズムは収束速度を大幅に向上することが示された。二次勾配法は、一階勾配降下法と二階ニュートン・ラフソン法を統合できる可能性が高い。
論文参考訳（メタデータ） (2022-01-26T09:44:13Z)
Primer: Searching for Efficient Transformers for Language Modeling [79.2677566332444]
大型トランスフォーマーモデルのトレーニングと推論コストは急速に増加し、高価になっている。ここでは、より効率的な変種を探すことにより、トランスフォーマーのコストを削減することを目的とする。私たちは、オリジナルのTransformerよりもトレーニングコストの少ないPrimerというアーキテクチャを特定します。
論文参考訳（メタデータ） (2021-09-17T17:50:39Z)
Tom: Leveraging trend of the observed gradients for faster convergence [0.0]
TomはAdamの新しい変種であり、ニューラルネットワークによって渡される損失の風景の勾配の傾向を考慮に入れている。 Tomは両方の精度でAdagrad、Adadelta、RMSProp、Adamを上回り、より早く収束する。
論文参考訳（メタデータ） (2021-09-07T20:19:40Z)
Adapting Stepsizes by Momentumized Gradients Improves Optimization and Generalization [89.66571637204012]
textscAdaMomentum on vision, and achieves state-the-art results on other task including language processing。 textscAdaMomentum on vision, and achieves state-the-art results on other task including language processing。 textscAdaMomentum on vision, and achieves state-the-art results on other task including language processing。
論文参考訳（メタデータ） (2021-06-22T03:13:23Z)
GradInit: Learning to Initialize Neural Networks for Stable and Efficient Training [59.160154997555956]
ニューラルネットワークを初期化するための自動化およびアーキテクチャ手法であるgradinitを提案する。各ネットワーク層の分散は、SGDまたはAdamの単一ステップが最小の損失値をもたらすように調整される。また、学習率のウォームアップを伴わずに、オリジナルのPost-LN Transformerを機械翻訳用にトレーニングすることもできる。
論文参考訳（メタデータ） (2021-02-16T11:45:35Z)
Towards Better Understanding of Adaptive Gradient Algorithms in Generative Adversarial Nets [71.05306664267832]
適応アルゴリズムは勾配の歴史を用いて勾配を更新し、深層ニューラルネットワークのトレーニングにおいてユビキタスである。本稿では,非コンケーブ最小値問題に対するOptimisticOAアルゴリズムの変種を解析する。実験の結果,適応型GAN非適応勾配アルゴリズムは経験的に観測可能であることがわかった。
論文参考訳（メタデータ） (2019-12-26T22:10:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。