論文の概要: Omni-Masked Gradient Descent: Memory-Efficient Optimization via Mask Traversal with Improved Convergence
- arxiv url: http://arxiv.org/abs/2603.05960v2
- Date: Tue, 10 Mar 2026 11:15:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-11 12:59:12.930533
- Title: Omni-Masked Gradient Descent: Memory-Efficient Optimization via Mask Traversal with Improved Convergence
- Title(参考訳): Omni-Masked Gradient Descent: コンバージェンスを改善したマスクトラバーサルによるメモリ効率の最適化
- Authors: Hui Yang, Tao Ren, Jinyang Jiang, Wan Tian, Yijie Peng,
- Abstract要約: メモリ効率の最適化手法は近年,GPUメモリボトルネック下での大規模言語モデルのフルチューニングに注目が集まっている。
我々は,Omni-O-Masked Descent (OMGD) をメモリ効率トレーニングのアプローチとして提案する。
- 参考スコア(独自算出の注目度): 5.683382109687174
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Memory-efficient optimization methods have recently gained increasing attention for scaling full-parameter training of large language models under the GPU-memory bottleneck. Existing approaches either lack clear convergence guarantees, or only achieve the standard ${\mathcal{O}}(ε^{-4})$ iteration complexity in the nonconvex settings. We propose Omni-Masked Gradient Descent (OMGD), an optimization method based on mask traversal for memory efficient training, and provide a nonconvex convergence analysis that establishes a strictly improved iteration complexity of $\tilde{\mathcal{O}}(ε^{-3})$ for finding an $ε$-approximate stationary point. Empirically, OMGD is a lightweight, plug-and-play approach that integrates seamlessly into most mainstream optimizers, yielding consistent improvements over competitive baselines in both fine-tuning and pre-training tasks.
- Abstract(参考訳): メモリ効率の最適化手法は近年,GPUメモリボトルネック下での大規模言語モデルのフルパラメータトレーニングに注目が集まっている。
既存のアプローチには明確な収束保証がないか、あるいは標準の${\mathcal{O}}(ε^{-4})$イテレーションの複雑さを非凸設定でしか達成できない。
我々は,Omni-Masked Gradient Descent (OMGD)を提案する。Omni-Masked Gradient Descent (OMGD)は,メモリ効率向上のためのマスクトラバースに基づく最適化手法であり,ε$-approximate 定常点を求めるために$\tilde{\mathcal{O}}(ε^{-3})$の厳密に改良された反復複雑性を確立する非凸収束解析を提供する。
経験的に、OMGDは軽量でプラグ&プレイのアプローチで、ほとんどのメインストリームのオプティマイザにシームレスに統合され、微調整と事前学習の両方のタスクにおいて、競争ベースラインよりも一貫した改善をもたらす。
関連論文リスト
- Evolution Strategies at the Hyperscale [57.75314521465674]
本稿では,大集団にバックプロップフリーな最適化を拡大するための進化戦略(ES)アルゴリズムEGGROLLを紹介する。
ESは、微分不可能またはノイズの多い目的を処理できる強力なブラックボックス最適化手法のセットである。
EGGROLLはランダム行列を$Ain mathbbRmtimes r, Bin mathbbRntimes r$ with $rll min(m,n)$ とすることでこれらのボトルネックを克服し、低ランク行列摂動を$A Btop$とする。
論文 参考訳(メタデータ) (2025-11-20T18:56:05Z) - VAMO: Efficient Zeroth-Order Variance Reduction for SGD with Faster Convergence [6.574641780732972]
大規模非問題はディープラーニングでは一般的である。
ファーストオーダー(FO)は今日のベースラインとして機能する。
ZOアルゴリズムは計算量とメモリコストを減らす。
VAMOは、より少ない動的メモリ要求でこれらのゲインを達成する。
論文 参考訳(メタデータ) (2025-05-20T05:31:15Z) - Memory-Reduced Meta-Learning with Guaranteed Convergence [7.306367313570251]
本稿では,履歴パラメータ/勾配の使用を回避し,各イテレーションにおけるメモリコストを大幅に削減するメタ学習アルゴリズムを提案する。
メタラーニングベンチマーク実験の結果,提案アルゴリズムの有効性が確認された。
論文 参考訳(メタデータ) (2024-12-16T17:55:55Z) - Simultaneous Computation and Memory Efficient Zeroth-Order Optimizer for Fine-Tuning Large Language Models [33.911521719528686]
微調整は、大きな言語モデルを下流タスクに適応させるには強力だが、多くの場合、大きなメモリ使用量をもたらす。
有望なアプローチはゼロ階勾配 (ZO) を使うことであり、これは第一階勾配 (FO) を置き換えると見積もられている。
本稿では,レイヤワイドスパース計算とメモリ効率の高いZO,LeZOを提案する。
論文 参考訳(メタデータ) (2024-10-13T12:47:37Z) - AdaLomo: Low-memory Optimization with Adaptive Learning Rate [59.64965955386855]
大規模言語モデルに対する適応学習率(AdaLomo)を用いた低メモリ最適化を提案する。
AdaLomoはAdamWと同等の結果を得ると同時に、メモリ要件を大幅に削減し、大きな言語モデルをトレーニングするためのハードウェア障壁を低くする。
論文 参考訳(メタデータ) (2023-10-16T09:04:28Z) - On Convergence of Incremental Gradient for Non-Convex Smooth Functions [63.51187646914962]
機械学習とネットワーク最適化では、ミスの数と優れたキャッシュを最小化するため、シャッフルSGDのようなアルゴリズムが人気である。
本稿では任意のデータ順序付けによる収束特性SGDアルゴリズムについて述べる。
論文 参考訳(メタデータ) (2023-05-30T17:47:27Z) - Unified Convergence Analysis for Adaptive Optimization with Moving Average Estimator [75.05106948314956]
1次モーメントに対する大きな運動量パラメータの増大は適応的スケーリングに十分であることを示す。
また,段階的に減少するステップサイズに応じて,段階的に運動量を増加させるための洞察を与える。
論文 参考訳(メタデータ) (2021-04-30T08:50:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。