論文の概要: FOCUS: First Order Concentrated Updating Scheme
- arxiv url: http://arxiv.org/abs/2501.12243v1
- Date: Tue, 21 Jan 2025 16:03:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-22 14:24:05.396257
- Title: FOCUS: First Order Concentrated Updating Scheme
- Title(参考訳): FOCUS: 1次集中更新方式
- Authors: Yizhou Liu, Ziming Liu, Jeff Gore,
- Abstract要約: 大規模言語モデル(LLM)は目覚ましいパフォーマンスを示し、事前トレーニングプロセスを改善することが、その機能をさらに強化する鍵であるようだ。
勾配問合せノイズが谷の鋭さに比例して高い場合、AdamのパフォーマンスはSignumよりも劣る。
FOCUSは,移動平均パラメータに対するアトラクションを取り入れて,より大きなステップサイズを維持しつつ,ノイズをよりよく扱えるようにすることで,シグナブルを向上する。
- 参考スコア(独自算出の注目度): 9.278468089636547
- License:
- Abstract: Large language models (LLMs) demonstrate remarkable performance, and improving their pre-training process appears to be key to enhancing their capabilities further. Based on the documented success of Adam, learning rate decay, and weight decay, we hypothesize that the pre-training loss landscape features a narrowing valley structure. Through experiments with synthetic loss functions, we discover that when gradient query noise is high relative to the valley's sharpness, Adam's performance falls behind that of Signum because Adam reduces the effective step size too drastically. This observation led us to develop FOCUS, an optimizer that enhances Signum by incorporating attraction toward moving averaged parameters, allowing it to handle noise better while maintaining larger step sizes. In training GPT-2, FOCUS proves to be more stable than Signum and faster than Adam. These results suggest that gradient noise may be an underappreciated limiting factor in LLM training, and FOCUS offers promising solutions.
- Abstract(参考訳): 大規模言語モデル(LLM)は目覚ましいパフォーマンスを示し、事前トレーニングプロセスを改善することが、その機能をさらに強化する鍵であるようだ。
我々は,アダムの成功,学習速度の低下,体重の減少を資料として,事前学習による損失景観は狭い谷構造を特徴としていると仮定した。
合成損失関数を用いた実験により、勾配問合せノイズが谷の鋭さに比例して高い場合、アダムの性能はシグナムよりも劣ることがわかった。
この観測結果から,移動平均パラメータに対するアトラクションを取り入れて,より大きなステップサイズを維持しつつ,より優れたノイズ処理を実現し,シグナブルを向上するFOCUSを開発した。
GPT-2の訓練において、FOCUSはシグナムよりも安定であり、アダムより高速であることが証明された。
これらの結果から, 勾配雑音はLLMトレーニングにおいて未承認の制限因子である可能性が示唆され, FOCUSは有望な解を提供する。
関連論文リスト
- An Early FIRST Reproduction and Improvements to Single-Token Decoding for Fast Listwise Reranking [50.81324768683995]
FIRSTは、学習からランクへの目的を統合し、最初の生成されたトークンのみのロジットを活用する新しいアプローチである。
我々は、FIRSTの評価をTRECディープラーニングデータセット(DL19-22)に拡張し、様々な領域でその堅牢性を検証する。
我々の実験は、単一トークンの高速リランクは、ドメイン外リランクの品質を損なうものではないことを確認した。
論文 参考訳(メタデータ) (2024-11-08T12:08:17Z) - Fira: Can We Achieve Full-rank Training of LLMs Under Low-rank Constraint? [40.94505326255136]
低ランクトレーニングは、大規模言語モデルのトレーニングにおいて、メモリ使用量を減らすための有望なアプローチとして登場した。
本研究では,この目標を達成するための最初の試みとして,Firaと呼ばれるLLM用のプラグイン・アンド・プレイ・トレーニング・フレームワークを提案する。
FiraはLoRAとGaLoreのどちらよりも優れており、フルランクトレーニングに匹敵する、あるいはそれ以上のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2024-10-02T14:58:27Z) - Efficient Continual Pre-training by Mitigating the Stability Gap [68.49269649759005]
本研究では,Large Language Models (LLM) の継続事前学習における挙動について検討する。
固定された計算予算内でのLLM性能を向上させるための3つの効果的な戦略を提案する。
当社の戦略は,OpenLlama-3Bモデルの平均医療タスク性能を36.2%から40.7%に改善し,当初のトレーニング予算の40%に過ぎなかった。
論文 参考訳(メタデータ) (2024-06-21T02:28:37Z) - AdamL: A fast adaptive gradient method incorporating loss function [1.6025685183216696]
本稿では,Adamの新たな変種であるAdamLを提案する。
我々は,Adam,EAdam,AdaBeliefと比較して,AdamLが最速収束あるいは最小目標関数値を達成することを示す。
バニラ畳み込みニューラルネットワークの場合、AdamLは他のAdamの変種とは違い、トレーニングの後半段階では学習率を手動で調整する必要がなくなる。
論文 参考訳(メタデータ) (2023-12-23T16:32:29Z) - Accelerating LLaMA Inference by Enabling Intermediate Layer Decoding via
Instruction Tuning with LITE [62.13435256279566]
大規模言語モデル(LLM)は、様々な自然言語タスクで顕著なパフォーマンスを実現している。
しかし、その大きなサイズは推論を遅く、計算的に高価にする。
最終層の生成能力に影響を与えることなく、これらの層が「良い」生成能力を得ることができることを示す。
論文 参考訳(メタデータ) (2023-10-28T04:07:58Z) - StochGradAdam: Accelerating Neural Networks Training with Stochastic Gradient Sampling [0.0]
我々はAdamアルゴリズムの新たな拡張であるStochGradAdamを紹介し、勾配サンプリング手法を取り入れた。
StochGradAdamは、イテレーション毎の勾配更新が少ない場合でも、Adamに匹敵する、あるいは優れたパフォーマンスを実現している。
その結果,このアプローチは大規模モデルやデータセットに特に有効であることが示唆された。
論文 参考訳(メタデータ) (2023-10-25T22:45:31Z) - Noise Is Not the Main Factor Behind the Gap Between SGD and Adam on
Transformers, but Sign Descent Might Be [16.170888329408353]
大規模なバッチを持つAdamの挙動は、運動量を持つ符号降下と類似していることが示される。
我々は,SGDとAdamのパフォーマンスギャップにおいて,重み付けノイズと重み付けノイズが重要な要因ではないことを示す。
論文 参考訳(メタデータ) (2023-04-27T05:41:13Z) - Noise Augmentation Is All You Need For FGSM Fast Adversarial Training:
Catastrophic Overfitting And Robust Overfitting Require Different
Augmentation [72.87038663276554]
敵対的訓練(AT)とその変種は、敵対的頑健なモデルを得るための最も効果的なアプローチである。
本研究は,1ステップのF GSMATが過去の作業ラインで示唆されたほど難しくないことを示す。
論文 参考訳(メタデータ) (2022-02-11T07:37:55Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z) - The Break-Even Point on Optimization Trajectories of Deep Neural
Networks [64.7563588124004]
この軌道上の「破滅的な」点の存在を論じる。
トレーニングの初期段階での大きな学習率を用いることで、勾配のばらつきが軽減されることを示す。
また, バッチ正規化層を有するニューラルネットワークにおいても, 低学習率を用いることで損失面の条件が悪くなることを示す。
論文 参考訳(メタデータ) (2020-02-21T22:55:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。