Fugu-MT 論文翻訳(概要): Adapprox: Adaptive Approximation in Adam Optimization via Randomized Low-Rank Matrices

論文の概要: Adapprox: Adaptive Approximation in Adam Optimization via Randomized Low-Rank Matrices

arxiv url: http://arxiv.org/abs/2403.14958v1
Date: Fri, 22 Mar 2024 05:23:31 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-25 18:37:30.395974
Title: Adapprox: Adaptive Approximation in Adam Optimization via Randomized Low-Rank Matrices
Title（参考訳）: Adapprox: ランダム化低ランク行列によるアダム最適化における適応近似
Authors: Pengxiang Zhao, Ping Li, Yingjie Gu, Yi Zheng, Stephan Ludger Kölker, Zhefeng Wang, Xiaoming Yuan,
Abstract要約: Adapproxは、Adamの2番目の瞬間をより正確に近似するためにランダム化された低ランク行列近似を利用する新しいアプローチである。 GPT-2のトレーニングとダウンストリームタスクでは、アダポックスは34.5%から49.9%のメモリ節約を達成した。
参考スコア（独自算出の注目度）: 24.319712013824876
License: http://creativecommons.org/licenses/by/4.0/
Abstract: As deep learning models exponentially increase in size, optimizers such as Adam encounter significant memory consumption challenges due to the storage of first and second moment data. Current memory-efficient methods like Adafactor and CAME often compromise accuracy with their matrix factorization techniques. Addressing this, we introduce Adapprox, a novel approach that employs randomized low-rank matrix approximation for a more effective and accurate approximation of Adam's second moment. Adapprox features an adaptive rank selection mechanism, finely balancing accuracy and memory efficiency, and includes an optional cosine similarity guidance strategy to enhance stability and expedite convergence. In GPT-2 training and downstream tasks, Adapprox surpasses AdamW by achieving 34.5% to 49.9% and 33.8% to 49.9% memory savings for the 117M and 345M models, respectively, with the first moment enabled, and further increases these savings without the first moment. Besides, it enhances convergence speed and improves downstream task performance relative to its counterparts.
Abstract（参考訳）: ディープラーニングモデルのサイズが指数関数的に大きくなるにつれて、Adam氏のようなオプティマイザは、第1モーメントと第2モーメントデータの保存によるメモリ消費の問題に遭遇する。 AdafactorやCAMEのような現在のメモリ効率のよい手法は、行列分解技術によって精度を損なうことが多い。これに対応するために,ランダム化低ランク行列近似を用いた新しいアプローチであるAdapproxを導入する。 Adapproxは適応的なランク選択機構を備え、精度とメモリ効率を微妙にバランスさせ、安定性を高め、収束を早めるオプションのコサイン類似性ガイダンス戦略を備えている。 GPT-2のトレーニングとダウンストリームタスクでは、AdapproxはAdamWを34.5%から49.9%、33.8%から49.9%に上回り、117Mモデルと345Mモデルでそれぞれメモリ節約を達成し、最初の瞬間が有効となり、最初の瞬間なしでこれらの節約をさらに増やした。さらにコンバージェンス速度を向上し、ダウンストリームタスクのパフォーマンスも向上する。

関連論文リスト

Pushing the Limits of Low-Bit Optimizers: A Focus on EMA Dynamics [64.62231094774211]
ステートフル(例えばアダム)は、最適収束を達成するために、モデルサイズを2倍も補助情報を維持する。 SOLOにより、アダムスタイルは3ビットまたは2ビットの精度で量子化された状態を維持することができる。したがって、SOLOはAdamスタイルにシームレスに適用でき、精度の低下を最小限に抑えることができる。
論文参考訳（メタデータ） (2025-05-01T06:47:45Z)
Improving Adaptive Moment Optimization via Preconditioner Diagonalization [11.01832755213396]
提案手法は,現代適応法の収束速度を大幅に向上させることができることを示す。 LLaMAのような大きな言語モデルでは、ベースラインであるAdamと比較して2倍のスピードアップが達成できます。
論文参考訳（メタデータ） (2025-02-11T11:48:04Z)
APOLLO: SGD-like Memory, AdamW-level Performance [61.53444035835778]
大規模言語モデル(LLM)は、トレーニング中にメモリ集約的であることで知られている。メモリ使用量を減らすために、様々なメモリ効率のScalが提案されている。 i)コストのかかるSVDオペレーション、(ii)AdamWと比較して大きなパフォーマンストレードオフ、(iii)競争性能を維持する上でのメモリオーバーヘッド、などです。
論文参考訳（メタデータ） (2024-12-06T18:55:34Z)
Efficient Model Compression Techniques with FishLeg [30.69238973086908]
FishLegはFisher-Legendre(FishLeg)に基づく新しい二階刈り法である FishLegの心臓部は、逆FIMの作用を補うメタラーニングアプローチである。 FishLegは,2つの共通ベースラインに対して高い,あるいは同等のパフォーマンスを実現している。
論文参考訳（メタデータ） (2024-12-03T09:42:16Z)
Efficient Adaptive Optimization via Subset-Norm and Subspace-Momentum: Fast, Memory-Reduced Training with Convergence Guarantees [5.399838579600896]
本稿では,メモリ最適化のための2つの補完手法を提案する。 1つのテクニックであるSubset-Normは、運動量状態のメモリフットプリントを低次元のサブスペースで削減する。別の手法であるSubspace-Momentumは、運動量状態のメモリフットプリントを低次元のサブスペースで削減する。
論文参考訳（メタデータ） (2024-11-11T16:48:07Z)
Simultaneous Computation and Memory Efficient Zeroth-Order Optimizer for Fine-Tuning Large Language Models [33.911521719528686]
微調整は、大きな言語モデルを下流タスクに適応させるには強力だが、多くの場合、大きなメモリ使用量をもたらす。有望なアプローチはゼロ階勾配 (ZO) を使うことであり、これは第一階勾配 (FO) を置き換えると見積もられている。本稿では,レイヤワイドスパース計算とメモリ効率の高いZO,LeZOを提案する。
論文参考訳（メタデータ） (2024-10-13T12:47:37Z)
Scaling Exponents Across Parameterizations and Optimizers [94.54718325264218]
本稿では,先行研究における重要な仮定を考察し,パラメータ化の新たな視点を提案する。私たちの経験的調査には、3つの組み合わせでトレーニングされた数万のモデルが含まれています。最高の学習率のスケーリング基準は、以前の作業の仮定から除外されることがよくあります。
論文参考訳（メタデータ） (2024-07-08T12:32:51Z)
Adaptive Preference Scaling for Reinforcement Learning with Human Feedback [103.36048042664768]
人間からのフィードバックからの強化学習(RLHF)は、AIシステムと人間の価値を合わせるための一般的なアプローチである。本稿では,分散ロバスト最適化(DRO)に基づく適応的優先損失を提案する。提案手法は多用途であり,様々な選好最適化フレームワークに容易に適用可能である。
論文参考訳（メタデータ） (2024-06-04T20:33:22Z)
AdaLomo: Low-memory Optimization with Adaptive Learning Rate [59.64965955386855]
大規模言語モデルに対する適応学習率(AdaLomo)を用いた低メモリ最適化を提案する。 AdaLomoはAdamWと同等の結果を得ると同時に、メモリ要件を大幅に削減し、大きな言語モデルをトレーニングするためのハードウェア障壁を低くする。
論文参考訳（メタデータ） (2023-10-16T09:04:28Z)
CAME: Confidence-guided Adaptive Memory Efficient Optimization [20.009302737137787]
適応勾配法は大規模言語モデルの訓練において優れた性能を示した。二次モーメント推定の維持には、メモリオーバーヘッドの増大を高いコストで維持する必要がある。補助メモリ使用量の大幅な削減を実現するために、いくつかのメモリ効率が提案されているが、性能上のペナルティがある。我々は,従来の適応手法のように高速収束,メモリ効率の低い2つの目標を同時に達成するために,CAMEを提案する。
論文参考訳（メタデータ） (2023-07-05T06:05:36Z)
Patch-Level Contrasting without Patch Correspondence for Accurate and Dense Contrastive Representation Learning [79.43940012723539]
ADCLRは、正確で高密度な視覚表現を学習するための自己教師型学習フレームワークである。提案手法は, コントラッシブな手法のための新しい最先端性能を実現する。
論文参考訳（メタデータ） (2023-06-23T07:38:09Z)
Balancing Rates and Variance via Adaptive Batch-Size for Stochastic Optimization Problems [120.21685755278509]
本研究は,ステップサイズの減衰が正確な収束に必要であるという事実と,一定のステップサイズがエラーまでの時間でより速く学習するという事実のバランスをとることを目的とする。ステップサイズのミニバッチを最初から修正するのではなく,パラメータを適応的に進化させることを提案する。
論文参考訳（メタデータ） (2020-07-02T16:02:02Z)
ADAHESSIAN: An Adaptive Second Order Optimizer for Machine Learning [91.13797346047984]
本稿では,2次最適化アルゴリズムであるADAHESSIANを紹介する。 ADAHESSIANは、他の適応最適化手法と比較して、新しい最先端の成果を大きなマージンで達成することを示す。
論文参考訳（メタデータ） (2020-06-01T05:00:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。