論文の概要: CAME: Confidence-guided Adaptive Memory Efficient Optimization
- arxiv url: http://arxiv.org/abs/2307.02047v2
- Date: Mon, 7 Aug 2023 06:21:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-08 22:21:48.868964
- Title: CAME: Confidence-guided Adaptive Memory Efficient Optimization
- Title(参考訳): came: 信頼誘導型適応メモリ効率の最適化
- Authors: Yang Luo, Xiaozhe Ren, Zangwei Zheng, Zhuo Jiang, Xin Jiang, Yang You
- Abstract要約: 適応勾配法は大規模言語モデルの訓練において優れた性能を示した。
二次モーメント推定の維持には、メモリオーバーヘッドの増大を高いコストで維持する必要がある。
補助メモリ使用量の大幅な削減を実現するために、いくつかのメモリ効率が提案されているが、性能上のペナルティがある。
我々は,従来の適応手法のように高速収束,メモリ効率の低い2つの目標を同時に達成するために,CAMEを提案する。
- 参考スコア(独自算出の注目度): 20.009302737137787
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Adaptive gradient methods, such as Adam and LAMB, have demonstrated excellent
performance in the training of large language models. Nevertheless, the need
for adaptivity requires maintaining second-moment estimates of the
per-parameter gradients, which entails a high cost of extra memory overheads.
To solve this problem, several memory-efficient optimizers (e.g., Adafactor)
have been proposed to obtain a drastic reduction in auxiliary memory usage, but
with a performance penalty. In this paper, we first study a confidence-guided
strategy to reduce the instability of existing memory efficient optimizers.
Based on this strategy, we propose CAME to simultaneously achieve two goals:
fast convergence as in traditional adaptive methods, and low memory usage as in
memory-efficient methods. Extensive experiments demonstrate the training
stability and superior performance of CAME across various NLP tasks such as
BERT and GPT-2 training. Notably, for BERT pre-training on the large batch size
of 32,768, our proposed optimizer attains faster convergence and higher
accuracy compared with the Adam optimizer. The implementation of CAME is
publicly available.
- Abstract(参考訳): Adam や LAMB のような適応勾配法は、大規模言語モデルの訓練において優れた性能を示した。
それにもかかわらず、適応性の必要性は、パラメータごとの勾配の第二モーメント推定を維持する必要がある。
この問題を解決するために、補助メモリ使用量の大幅な削減を実現するために、メモリ効率の良い最適化器(例えば、Adafactor)がいくつか提案されている。
本稿では,既存のメモリ効率の最適化手法の不安定性を低減するための信頼度誘導戦略を最初に検討する。
この戦略に基づいて,従来の適応手法のような高速収束とメモリ効率の低い手法の2つの目標を同時に達成するCAMEを提案する。
BERT や GPT-2 などの様々な NLP タスクにおける CAME の訓練安定性と優れた性能を実験により実証した。
特に,最大バッチサイズ32,768のbertプリトレーニングでは,adamオプティマイザに比べて高速に収束し,高い精度を実現する。
CAMEの実装は一般公開されている。
関連論文リスト
- Time-, Memory- and Parameter-Efficient Visual Adaptation [75.28557015773217]
バックボーンを介して勾配をバックプロパゲートしない適応法を提案する。
凍結した、事前訓練されたバックボーンの機能を利用する軽量ネットワークを並列に設計することで、これを実現する。
論文 参考訳(メタデータ) (2024-02-05T10:55:47Z) - ROAM: memory-efficient large DNN training via optimized operator
ordering and memory layout [8.99065455675796]
本稿では,演算子順序とテンソルメモリレイアウトを最適化したメモリ効率の高い実行計画の導出のために,グラフレベルで動作するROAMを提案する。
実験の結果、ROAMはPytorchと2つの最先端手法と比較して35.7%、13.3%、27.2%の大幅なメモリ削減を実現し、53.7倍の高速化を実現している。
論文 参考訳(メタデータ) (2023-10-30T06:29:21Z) - Federated Learning of Large Language Models with Parameter-Efficient
Prompt Tuning and Adaptive Optimization [71.87335804334616]
フェデレートラーニング(FL)は、分散データとの協調モデルトレーニングを可能にする、有望なパラダイムである。
LLM(Large Language Models)のトレーニングプロセスは一般的に重要なパラメータの更新を引き起こす。
本稿では,性能と効率を同時に向上する効率的な部分的プロンプトチューニング手法を提案する。
論文 参考訳(メタデータ) (2023-10-23T16:37:59Z) - AdaLomo: Low-memory Optimization with Adaptive Learning Rate [63.99489591661645]
大規模言語モデルに対する適応学習率(AdaLomo)を用いた低メモリ最適化を提案する。
AdaLomoはAdamWと同等の結果を得ると同時に、メモリ要件を大幅に削減し、大きな言語モデルをトレーニングするためのハードウェア障壁を低くする。
論文 参考訳(メタデータ) (2023-10-16T09:04:28Z) - Memory Efficient Mixed-Precision Optimizers [4.295034299713293]
混合精度最適化手法は単精度浮動小数点演算と半精度浮動小数点演算の両方を用いる。
実際には、同じレベルの精度を維持しながら、最大25%のメモリ使用率、15%の高速トレーニングを実現しています。
論文 参考訳(メタデータ) (2023-09-21T13:55:29Z) - Task-oriented Memory-efficient Pruning-Adapter [3.0751447761822903]
本稿では,トレーニングとメモリの高メモリ効率を実現するタスク指向のPruning-Adapter法を提案する。
GLUEタスクの精度は大幅に低下せず、同時にトレーニングと推論の効率が向上した。
論文 参考訳(メタデータ) (2023-03-26T12:18:00Z) - Online Convolutional Re-parameterization [51.97831675242173]
2段階のパイプラインであるオンライン畳み込み再パラメータ化(OREPA)は、複雑なトレーニング時間ブロックを単一の畳み込みに絞ることで、巨大なトレーニングオーバーヘッドを低減することを目的としている。
最先端のre-paramモデルと比較して、OREPAはトレーニング時間のメモリコストを約70%削減し、トレーニング速度を約2倍向上させることができる。
また、オブジェクト検出とセマンティックセグメンテーションの実験を行い、下流タスクに一貫した改善を示す。
論文 参考訳(メタデータ) (2022-04-02T09:50:19Z) - Efficient Few-Shot Object Detection via Knowledge Inheritance [62.36414544915032]
Few-shot Object Detection (FSOD) は、未確認のタスクに少ないトレーニングサンプルで適応できるジェネリック検出器を学習することを目的としている。
計算量の増加を伴わない効率的なプレトレイン・トランスファー・フレームワーク(PTF)のベースラインを提案する。
また,予測された新しいウェイトと事前訓練されたベースウェイトとのベクトル長の不整合を軽減するために,適応長再スケーリング(ALR)戦略を提案する。
論文 参考訳(メタデータ) (2022-03-23T06:24:31Z) - Practical tradeoffs between memory, compute, and performance in learned
optimizers [46.04132441790654]
我々は、多くの学習や手作業で設計された機能に対して、メモリ、計算、パフォーマンスのトレードオフを特定し、定量化する。
分析を活用して、従来の作業よりも速く、より効率的に学習可能なものを構築するのです。
論文 参考訳(メタデータ) (2022-03-22T16:36:36Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。