論文の概要: Taming LLMs by Scaling Learning Rates with Gradient Grouping
- arxiv url: http://arxiv.org/abs/2506.01049v1
- Date: Sun, 01 Jun 2025 15:30:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:33.908304
- Title: Taming LLMs by Scaling Learning Rates with Gradient Grouping
- Title(参考訳): グラディエントグルーピングによる学習率のスケーリングによるLCMのモデリング
- Authors: Siyuan Li, Juanxi Tian, Zedong Wang, Xin Jin, Zicheng Liu, Wentao Zhang, Dan Xu,
- Abstract要約: 大きな言語モデル(LLM)のトレーニングは、その大規模で異質なアーキテクチャのため、課題を提起する。
SGG(Scaling with Gradient Grouping)は、動的グルーピングとグループ固有のスケーリングによる適応的な学習率推定を改善するグラデーションラッパーである。
- 参考スコア(独自算出の注目度): 49.91587150497186
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training large language models (LLMs) poses challenges due to their massive scale and heterogeneous architectures. While adaptive optimizers like AdamW help address gradient variations, they still struggle with efficient and effective parameter-wise learning rate estimation, resulting in training instability, slow convergence, and poor compatibility with parameter-efficient fine-tuning (PEFT) techniques. This work introduces Scaling with Gradient Grouping (SGG), an optimizer wrapper that improves adaptive learning rate estimation by dynamic grouping and group-specific scaling. SGG first groups gradient statistics in each layer into clusters and then applies cluster-specific scaling to calibrate learning rates for each parameter, thus imposing collective group-wise constraints while maintaining precise per-parameter adaptation. Experiments on diverse (M)LLM benchmarks show that SGG integrates seamlessly with existing optimizers, and offers consistent gains and faster convergence over baselines, with various model sizes. Its stability across varying batch sizes and learning rates establishes SGG as a robust choice for LLM optimization.
- Abstract(参考訳): 大きな言語モデル(LLM)のトレーニングは、その大規模で異質なアーキテクチャのため、課題を提起する。
AdamWのような適応型オプティマイザは勾配変化に対処するのに役立ち、効率的かつ効果的なパラメータワイド学習率推定に苦慮しているため、トレーニングの不安定性、緩やかな収束、パラメータ効率のよい微調整(PEFT)技術との互換性が低い。
SGG(Scaling with Gradient Grouping)は、動的グルーピングとグループ固有のスケーリングによる適応的な学習率推定を改善するオプティマイザラッパーである。
SGGはまず各層における勾配統計をクラスタにグループ化し、次にクラスタ固有のスケーリングを適用して各パラメータの学習率を調整し、正確なパラメータごとの適応を維持しながら集団的な制約を課す。
多様な(M)LLMベンチマークの実験では、SGGは既存のオプティマイザとシームレスに統合され、ベースラインよりも一貫したゲインとより高速な収束を提供する。
様々なバッチサイズと学習速度の安定性は、SGGをLLM最適化の堅牢な選択として確立する。
関連論文リスト
- ESSA: Evolutionary Strategies for Scalable Alignment [2.589791058467358]
本稿では,進化的戦略(ES)を用いて大規模言語モデル(LLM)を効率的に整合させる新しいフレームワークであるESSAを紹介する。
ESは、高い並列化性、メモリ効率、スパース報酬に対する堅牢性、収束に必要なデータサンプルの少ないなど、LCMアライメントに適している。
我々はESを勾配に基づくアライメントに代わる有望でスケーラブルな代替品として確立し、大規模言語モデルの効率的な後学習の道を開いた。
論文 参考訳(メタデータ) (2025-07-06T16:23:07Z) - Beyond First-Order: Training LLMs with Stochastic Conjugate Subgradients and AdamW [2.028622227373579]
勾配に基づく降下(SGD)は、長い間、大きな言語モデル(LLM)の訓練の中心であった。
本稿では,LLMを学習するための適応サンプリングとともに,共役下次法を提案する。
論文 参考訳(メタデータ) (2025-07-01T23:30:15Z) - Large Language Model Enhanced Particle Swarm Optimization for Hyperparameter Tuning for Deep Learning Models [2.3949320404005436]
Particle Swarm Optimization and Large Language Models (LLM) は、最適化とディープラーニングに個別に適用されている。
本研究は,モデル評価の低減と収束性向上のため,PLMをPSOに統合することで,このギャップに対処する。
提案手法は, 探索空間の探索を最適化し, 粒子配置を最適化する手法である。
論文 参考訳(メタデータ) (2025-04-19T00:54:59Z) - Architect Your Landscape Approach (AYLA) for Optimizations in Deep Learning [0.0]
グラディエントDescent(DSG)とその変種(ADAMなど)はディープラーニングの最適化の基礎となっている。
本稿では適応性と効率性を向上する新しい最適化手法であるAYLAを紹介する。
論文 参考訳(メタデータ) (2025-04-02T16:31:39Z) - Gradient Correction in Federated Learning with Adaptive Optimization [19.93709245766609]
クライアント-ドリフト補償を適応最適化に組み込む最初のアルゴリズムである tt FAdamGC を提案する。
tt FAdamGCは、様々なレベルのデータの通信とコストにおいて、既存の手法よりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2025-02-04T21:21:30Z) - HAFLQ: Heterogeneous Adaptive Federated LoRA Fine-tuned LLM with Quantization [55.972018549438964]
LLM(Federated Fine-tuning of Pre-trained Large Language Models)は、さまざまなデータセットにまたがるタスク固有の適応を可能にすると同時に、プライバシの保護を可能にする。
本研究では, HAFLQ (Heterogeneous Adaptive Federated Low-Rank Adaptation Fine-tuned LLM with Quantization) を提案する。
テキスト分類タスクの実験結果から,HAFLQはメモリ使用量を31%削減し,通信コストを49%削減し,精度を50%向上し,ベースライン法よりも高速な収束を実現している。
論文 参考訳(メタデータ) (2024-11-10T19:59:54Z) - Less is More: Extreme Gradient Boost Rank-1 Adaption for Efficient Finetuning of LLMs [75.11449420928139]
微調整型大規模言語モデル(LLM)は、訓練済みモデルを下流タスクに適応させる上で重要な技術となっている。
Low-Rank Adaptation (LoRA) は有望な解決法として登場したが、低ランク適応の実用性能と理論的最適性の間にはギャップがある。
本稿では,このギャップを埋める新しいフレームワークであるeXtreme Gradient Boosting LoRAを提案する。
論文 参考訳(メタデータ) (2024-10-25T17:07:13Z) - Achieving Byzantine-Resilient Federated Learning via Layer-Adaptive Sparsified Model Aggregation [7.200910949076064]
フェデレートラーニング(FL)は、複数のクライアントがローカルデータを共有せずに、協調的にモデルをトレーニングすることを可能にする。
しかし、FLシステムは、悪質なモデルの更新をアップロードすることでモデルのトレーニングプロセスを妨害することを目的とした、よく設計されたByzantine攻撃に対して脆弱である。
本稿では,階層的適応アグリゲーションと事前アグリゲーション・スパリフィケーションを組み合わせたLayer-Adaptive Sparsified Model Aggregation(LASA)手法を提案する。
論文 参考訳(メタデータ) (2024-09-02T19:28:35Z) - LLM as a Complementary Optimizer to Gradient Descent: A Case Study in Prompt Tuning [69.95292905263393]
グラデーションベースとハイレベルなLLMは、協調最適化フレームワークを効果的に組み合わせることができることを示す。
本稿では,これらを相互に補完し,組み合わせた最適化フレームワークを効果的に連携させることができることを示す。
論文 参考訳(メタデータ) (2024-05-30T06:24:14Z) - Orthogonally Initiated Particle Swarm Optimization with Advanced Mutation for Real-Parameter Optimization [0.04096453902709291]
本稿では,多角形PSO(orthogonal PSO with Mutation,OPSO-m)と呼ばれる拡張粒子群(PSO)を紹介する。
PSOのための改良された初期Swarmを育むための配列ベースの学習手法を提案し、Swarmベースの最適化アルゴリズムの適応性を大幅に向上させた。
この記事はさらに、人口を正規グループとエリートグループに分割する、アーカイブベースの自己適応学習戦略を提示する。
論文 参考訳(メタデータ) (2024-05-21T07:16:20Z) - Scaling Sparse Fine-Tuning to Large Language Models [67.59697720719672]
大きな言語モデル(LLM)は、パラメータの数が多いため、完全な微調整が難しい。
本研究では,パラメータの配列とパラメータのデルタを事前学習した値に対して保持する新しいスパース微調整法SpIELを提案する。
提案手法は,LoRAのようなパラメータ効率の高い微調整法よりも性能が優れ,実行時間も同等であることを示す。
論文 参考訳(メタデータ) (2024-01-29T18:43:49Z) - AdaLomo: Low-memory Optimization with Adaptive Learning Rate [59.64965955386855]
大規模言語モデルに対する適応学習率(AdaLomo)を用いた低メモリ最適化を提案する。
AdaLomoはAdamWと同等の結果を得ると同時に、メモリ要件を大幅に削減し、大きな言語モデルをトレーニングするためのハードウェア障壁を低くする。
論文 参考訳(メタデータ) (2023-10-16T09:04:28Z) - Adaptive Optimizers with Sparse Group Lasso for Neural Networks in CTR Prediction [19.08180531016811]
深層学習における適応の族にスパース群ラッソの正規化子を追加する新しいフレームワークを開発する。
理論的に凸な設定では,収束保証が確立される。
提案手法は, 極めて優れた性能, 高い競争性能を達成できる。
論文 参考訳(メタデータ) (2021-07-30T05:33:43Z) - Adaptive Gradient Method with Resilience and Momentum [120.83046824742455]
レジリエンスとモメンタム(AdaRem)を用いた適応勾配法を提案する。
AdaRemは、過去の1つのパラメータの変化方向が現在の勾配の方向と一致しているかどうかに応じてパラメータワイズ学習率を調整する。
本手法は,学習速度とテスト誤差の観点から,従来の適応学習率に基づくアルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2020-10-21T14:49:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。