Fugu-MT 論文翻訳(概要): CAME: Confidence-guided Adaptive Memory Efficient Optimization

論文の概要: CAME: Confidence-guided Adaptive Memory Efficient Optimization

arxiv url: http://arxiv.org/abs/2307.02047v2
Date: Mon, 7 Aug 2023 06:21:31 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-08 22:21:48.868964
Title: CAME: Confidence-guided Adaptive Memory Efficient Optimization
Title（参考訳）: came: 信頼誘導型適応メモリ効率の最適化
Authors: Yang Luo, Xiaozhe Ren, Zangwei Zheng, Zhuo Jiang, Xin Jiang, Yang You
Abstract要約: 適応勾配法は大規模言語モデルの訓練において優れた性能を示した。二次モーメント推定の維持には、メモリオーバーヘッドの増大を高いコストで維持する必要がある。補助メモリ使用量の大幅な削減を実現するために、いくつかのメモリ効率が提案されているが、性能上のペナルティがある。我々は,従来の適応手法のように高速収束,メモリ効率の低い2つの目標を同時に達成するために,CAMEを提案する。
参考スコア（独自算出の注目度）: 20.009302737137787
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Adaptive gradient methods, such as Adam and LAMB, have demonstrated excellent performance in the training of large language models. Nevertheless, the need for adaptivity requires maintaining second-moment estimates of the per-parameter gradients, which entails a high cost of extra memory overheads. To solve this problem, several memory-efficient optimizers (e.g., Adafactor) have been proposed to obtain a drastic reduction in auxiliary memory usage, but with a performance penalty. In this paper, we first study a confidence-guided strategy to reduce the instability of existing memory efficient optimizers. Based on this strategy, we propose CAME to simultaneously achieve two goals: fast convergence as in traditional adaptive methods, and low memory usage as in memory-efficient methods. Extensive experiments demonstrate the training stability and superior performance of CAME across various NLP tasks such as BERT and GPT-2 training. Notably, for BERT pre-training on the large batch size of 32,768, our proposed optimizer attains faster convergence and higher accuracy compared with the Adam optimizer. The implementation of CAME is publicly available.
Abstract（参考訳）: Adam や LAMB のような適応勾配法は、大規模言語モデルの訓練において優れた性能を示した。それにもかかわらず、適応性の必要性は、パラメータごとの勾配の第二モーメント推定を維持する必要がある。この問題を解決するために、補助メモリ使用量の大幅な削減を実現するために、メモリ効率の良い最適化器(例えば、Adafactor)がいくつか提案されている。本稿では,既存のメモリ効率の最適化手法の不安定性を低減するための信頼度誘導戦略を最初に検討する。この戦略に基づいて,従来の適応手法のような高速収束とメモリ効率の低い手法の2つの目標を同時に達成するCAMEを提案する。 BERT や GPT-2 などの様々な NLP タスクにおける CAME の訓練安定性と優れた性能を実験により実証した。特に,最大バッチサイズ32,768のbertプリトレーニングでは,adamオプティマイザに比べて高速に収束し,高い精度を実現する。 CAMEの実装は一般公開されている。

関連論文リスト

Scalable Parameter and Memory Efficient Pretraining for LLM: Recent Algorithmic Advances and Benchmarking [26.80161478380058]
大規模言語モデル(LLM)は前例のない速度で成長し、最近のモデルには数兆のパラメータを含むものもある。この成長には、特にトレーニングや微調整に必要なメモリと計算資源に関して、かなりの計算上の課題が伴う。パラメーターまたはメモリ効率のよいメソッドは、事前トレーニングの効率を高めつつ、フルモデルトレーニングに匹敵するパフォーマンスを達成することができるだろうか?
論文参考訳（メタデータ） (2025-05-28T22:51:43Z)
COSMOS: A Hybrid Adaptive Optimizer for Memory-Efficient Training of LLMs [81.01082659623552]
大規模言語モデル(LLM)は、様々な領域で顕著な成功を収めている。それらの最適化は、彼らが居住している複雑で高次元のロスランドスケープのために重要な課題である。
論文参考訳（メタデータ） (2025-02-24T18:42:19Z)
Towards Efficient Optimizer Design for LLM via Structured Fisher Approximation with a Low-Rank Extension [16.037614012166063]
本稿では,Fisher InformationMatrix (FIM) のレンズによる効率的な近似の体系設計に向けて一歩進める。我々は、多くの最先端の効率的な近似を(フロベニウスノルムの下で)特定の構造的仮定を持つFIMの解と見なせることを示した。一般性と効率性のバランスをとるための構造的仮定を慎重に選択することを含む,LLMの実用的効率に関する2つの設計勧告を提案する。
論文参考訳（メタデータ） (2025-02-11T18:27:19Z)
A Memory Efficient Randomized Subspace Optimization Method for Training Large Language Models [22.725326215887435]
本稿では,事前学習および微調整を行う大規模言語モデルのためのランダム化部分空間最適化フレームワークを提案する。提案手法は,高次元学習問題を一連の低次元サブプロブレムに分解する。この構造的次元減少により,アクティベーションと状態の両方のメモリ使用量を同時に削減できる。
論文参考訳（メタデータ） (2025-02-11T03:32:10Z)
Breaking Memory Limits: Gradient Wavelet Transform Enhances LLMs Training [45.225732322141994]
大規模言語モデル(LLM)は、さまざまな自然言語処理タスクで優れたパフォーマンスを発揮する。彼らの膨大な数のパラメータは、トレーニング中に大きな記憶障害を引き起こします。既存のメモリ効率のアルゴリズムは、特異値分解プロジェクションや重み凍結のような技術に依存していることが多い。本稿では,グラディエントウェーブレット変換(GWT)と呼ばれる新しい解を提案する。
論文参考訳（メタデータ） (2025-01-13T11:35:09Z)
APOLLO: SGD-like Memory, AdamW-level Performance [61.53444035835778]
大規模言語モデル(LLM)は、トレーニング中にメモリ集約的であることで知られている。メモリ使用量を減らすために、様々なメモリ効率のScalが提案されている。 i)コストのかかるSVDオペレーション、(ii)AdamWと比較して大きなパフォーマンストレードオフ、(iii)競争性能を維持する上でのメモリオーバーヘッド、などです。
論文参考訳（メタデータ） (2024-12-06T18:55:34Z)
Efficient Adaptive Optimization via Subset-Norm and Subspace-Momentum: Fast, Memory-Reduced Training with Convergence Guarantees [5.399838579600896]
本稿では,メモリ最適化のための2つの補完手法を提案する。 1つのテクニックであるSubset-Normは、運動量状態のメモリフットプリントを低次元のサブスペースで削減する。別の手法であるSubspace-Momentumは、運動量状態のメモリフットプリントを低次元のサブスペースで削減する。
論文参考訳（メタデータ） (2024-11-11T16:48:07Z)
Memory-Efficient Optimization with Factorized Hamiltonian Descent [11.01832755213396]
本稿では,この課題に対処するためのメモリ効率因子化手法を取り入れた新しい適応型H-Facを提案する。運動量とスケーリングパラメータ推定器の両方にランク1パラメータ化を適用することで、H-Facはメモリコストをサブ線形レベルに削減する。我々はハミルトン力学から導かれる原理に基づいてアルゴリズムを開発し、最適化力学と収束保証において堅牢な理論的基盤を提供する。
論文参考訳（メタデータ） (2024-06-14T12:05:17Z)
Adaptive Preference Scaling for Reinforcement Learning with Human Feedback [103.36048042664768]
人間からのフィードバックからの強化学習(RLHF)は、AIシステムと人間の価値を合わせるための一般的なアプローチである。本稿では,分散ロバスト最適化(DRO)に基づく適応的優先損失を提案する。提案手法は多用途であり,様々な選好最適化フレームワークに容易に適用可能である。
論文参考訳（メタデータ） (2024-06-04T20:33:22Z)
Time-, Memory- and Parameter-Efficient Visual Adaptation [75.28557015773217]
バックボーンを介して勾配をバックプロパゲートしない適応法を提案する。凍結した、事前訓練されたバックボーンの機能を利用する軽量ネットワークを並列に設計することで、これを実現する。
論文参考訳（メタデータ） (2024-02-05T10:55:47Z)
ROAM: memory-efficient large DNN training via optimized operator ordering and memory layout [8.99065455675796]
本稿では,演算子順序とテンソルメモリレイアウトを最適化したメモリ効率の高い実行計画の導出のために,グラフレベルで動作するROAMを提案する。実験の結果、ROAMはPytorchと2つの最先端手法と比較して35.7%、13.3%、27.2%の大幅なメモリ削減を実現し、53.7倍の高速化を実現している。
論文参考訳（メタデータ） (2023-10-30T06:29:21Z)
Federated Learning of Large Language Models with Parameter-Efficient Prompt Tuning and Adaptive Optimization [71.87335804334616]
フェデレートラーニング(FL)は、分散データとの協調モデルトレーニングを可能にする、有望なパラダイムである。 LLM(Large Language Models)のトレーニングプロセスは一般的に重要なパラメータの更新を引き起こす。本稿では,性能と効率を同時に向上する効率的な部分的プロンプトチューニング手法を提案する。
論文参考訳（メタデータ） (2023-10-23T16:37:59Z)
AdaLomo: Low-memory Optimization with Adaptive Learning Rate [59.64965955386855]
大規模言語モデルに対する適応学習率(AdaLomo)を用いた低メモリ最適化を提案する。 AdaLomoはAdamWと同等の結果を得ると同時に、メモリ要件を大幅に削減し、大きな言語モデルをトレーニングするためのハードウェア障壁を低くする。
論文参考訳（メタデータ） (2023-10-16T09:04:28Z)
Online Convolutional Re-parameterization [51.97831675242173]
2段階のパイプラインであるオンライン畳み込み再パラメータ化(OREPA)は、複雑なトレーニング時間ブロックを単一の畳み込みに絞ることで、巨大なトレーニングオーバーヘッドを低減することを目的としている。最先端のre-paramモデルと比較して、OREPAはトレーニング時間のメモリコストを約70%削減し、トレーニング速度を約2倍向上させることができる。また、オブジェクト検出とセマンティックセグメンテーションの実験を行い、下流タスクに一貫した改善を示す。
論文参考訳（メタデータ） (2022-04-02T09:50:19Z)
Efficient Few-Shot Object Detection via Knowledge Inheritance [62.36414544915032]
Few-shot Object Detection (FSOD) は、未確認のタスクに少ないトレーニングサンプルで適応できるジェネリック検出器を学習することを目的としている。計算量の増加を伴わない効率的なプレトレイン・トランスファー・フレームワーク(PTF)のベースラインを提案する。また,予測された新しいウェイトと事前訓練されたベースウェイトとのベクトル長の不整合を軽減するために,適応長再スケーリング(ALR)戦略を提案する。
論文参考訳（メタデータ） (2022-03-23T06:24:31Z)
Practical tradeoffs between memory, compute, and performance in learned optimizers [46.04132441790654]
我々は、多くの学習や手作業で設計された機能に対して、メモリ、計算、パフォーマンスのトレードオフを特定し、定量化する。分析を活用して、従来の作業よりも速く、より効率的に学習可能なものを構築するのです。
論文参考訳（メタデータ） (2022-03-22T16:36:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。