Fugu-MT 論文翻訳(概要): Memory Efficient Mixed-Precision Optimizers

論文の概要: Memory Efficient Mixed-Precision Optimizers

arxiv url: http://arxiv.org/abs/2309.12381v1
Date: Thu, 21 Sep 2023 13:55:29 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-25 17:21:17.304014
Title: Memory Efficient Mixed-Precision Optimizers
Title（参考訳）: メモリ効率のよい混合精度オプティマイザ
Authors: Basile Lewandowski and Atli Kosson
Abstract要約: 混合精度最適化手法は単精度浮動小数点演算と半精度浮動小数点演算の両方を用いる。実際には、同じレベルの精度を維持しながら、最大25%のメモリ使用率、15%の高速トレーニングを実現しています。
参考スコア（独自算出の注目度）: 4.295034299713293
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Traditional optimization methods rely on the use of single-precision floating point arithmetic, which can be costly in terms of memory size and computing power. However, mixed precision optimization techniques leverage the use of both single and half-precision floating point arithmetic to reduce memory requirements while maintaining model accuracy. We provide here an algorithm to further reduce memory usage during the training of a model by getting rid of the floating point copy of the parameters, virtually keeping only half-precision numbers. We also explore the benefits of getting rid of the gradient's value by executing the optimizer step during the back-propagation. In practice, we achieve up to 25% lower peak memory use and 15% faster training while maintaining the same level of accuracy.
Abstract（参考訳）: 従来の最適化手法は単精度浮動小数点演算に頼っており、メモリサイズと計算能力の点でコストがかかる。しかし、混合精度最適化技術では、単精度と半精度の浮動小数点演算を併用し、モデル精度を維持しながらメモリ要求を削減する。ここでは、パラメータの浮動小数点コピーを取り除き、半精度数のみを事実上保持することにより、モデルのトレーニング中のメモリ使用量をさらに削減するアルゴリズムを提供する。また,バックプロパゲーション中にオプティマイザステップを実行することで,勾配値を取り除くメリットについても検討する。実際には、同じレベルの精度を維持しながら、最大25%のピークメモリ使用率、15%の高速トレーニングを実現しています。

関連論文リスト

FOAM: Blocked State Folding for Memory-Efficient LLM Training [41.8909496809588]
大規模言語モデル (LLM) は, パラメータ数と広範囲なトレーニングデータにより, 顕著な性能を示した。しかしながら、これらのスケールは、特にAdamのようなメモリ集約型を使用する場合、トレーニング中に大きなメモリボトルネックを引き起こす。本稿では,ブロックワイズ方式で状態を圧縮し,勾配補正を組み込んで損失情報を復元するFolded with Approximate Moment (FOAM)を提案する。
論文参考訳（メタデータ） (2025-12-08T02:48:27Z)
Pushing the Limits of Low-Bit Optimizers: A Focus on EMA Dynamics [64.62231094774211]
ステートフル(例えばアダム)は、最適収束を達成するために、モデルサイズを2倍も補助情報を維持する。 SOLOにより、アダムスタイルは3ビットまたは2ビットの精度で量子化された状態を維持することができる。したがって、SOLOはAdamスタイルにシームレスに適用でき、精度の低下を最小限に抑えることができる。
論文参考訳（メタデータ） (2025-05-01T06:47:45Z)
HOT: Hadamard-based Optimized Training [7.193483612237862]
メモリ使用量と計算オーバーヘッドを減らすためにバックプロパゲーションを最適化することがますます重要になっている。本稿では,トレーニングコストの最大部分を占める行列乗法に着目し,そのバックプロパゲーションを詳細に分析する。そこで本研究では,アダマールをベースとしたオプティマイズトレーニング手法を提案する。このアプローチでは、Hadamard量子化やHadamard低ランク近似などのHadamardに基づく最適化を適用する。我々の広範な分析によると、HOTは75%のメモリ節約と2.6倍の加速を実現している。
論文参考訳（メタデータ） (2025-03-27T08:37:24Z)
COAP: Memory-Efficient Training with Correlation-Aware Gradient Projection [17.54863041098623]
トレーニング性能を維持しながら計算オーバーヘッドを最小限に抑えるメモリ効率の高いCOAPを提案する。 LLaMA-1Bでは、メモリをわずか2%追加で61%削減し、AdamWと同じPPLを実現する。 8ビット量子化により、COAPはメモリを81%削減し、LLaVA-v1.5-7BファインチューニングのためにGaLoreを4倍高速化する。
論文参考訳（メタデータ） (2024-11-26T03:50:52Z)
AlignedKV: Reducing Memory Access of KV-Cache with Precision-Aligned Quantization [5.572159724234467]
混合精度量子化は重要なパラメータと重要でないパラメータを区別する。既存の手法は定性的分析と手動実験によってのみ重要なパラメータを識別できる。本稿では,パラメータの重要性を総合的に評価する定量的枠組みを構築するために,いわゆる「精度アライメント」という新しい基準を提案する。
論文参考訳（メタデータ） (2024-09-25T01:39:02Z)
AdaLomo: Low-memory Optimization with Adaptive Learning Rate [59.64965955386855]
大規模言語モデルに対する適応学習率(AdaLomo)を用いた低メモリ最適化を提案する。 AdaLomoはAdamWと同等の結果を得ると同時に、メモリ要件を大幅に削減し、大きな言語モデルをトレーニングするためのハードウェア障壁を低くする。
論文参考訳（メタデータ） (2023-10-16T09:04:28Z)
Memory Efficient Optimizers with 4-bit States [22.605392665667136]
我々は、第1モーメントと第2モーメントの詳細な実験分析を通して、状態のビット幅を4ビットまで押し下げる。ブロックサイズを小さくし,行次情報と列次情報の両方を用いて量子化を改善することを提案する。我々の4ビットは、自然言語理解、機械翻訳、画像分類、インストラクションチューニングなど、様々なベンチマークで評価されている。
論文参考訳（メタデータ） (2023-09-04T10:27:17Z)
Guaranteed Approximation Bounds for Mixed-Precision Neural Operators [83.64404557466528]
我々は、ニューラル演算子学習が本質的に近似誤差を誘導する直感の上に構築する。提案手法では,GPUメモリ使用量を最大50%削減し,スループットを58%向上する。
論文参考訳（メタデータ） (2023-07-27T17:42:06Z)
CAME: Confidence-guided Adaptive Memory Efficient Optimization [20.009302737137787]
適応勾配法は大規模言語モデルの訓練において優れた性能を示した。二次モーメント推定の維持には、メモリオーバーヘッドの増大を高いコストで維持する必要がある。補助メモリ使用量の大幅な削減を実現するために、いくつかのメモリ効率が提案されているが、性能上のペナルティがある。我々は,従来の適応手法のように高速収束,メモリ効率の低い2つの目標を同時に達成するために,CAMEを提案する。
論文参考訳（メタデータ） (2023-07-05T06:05:36Z)
Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of Language Model [89.8764435351222]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文参考訳（メタデータ） (2023-05-24T15:52:08Z)
Training with Mixed-Precision Floating-Point Assignments [8.5323697848377]
より少ないメモリを使用する畳み込みニューラルネットワークの精度割当を生成する。 CIFAR-10, CIFAR-100, ImageNet上で, 畳み込みネットワークを訓練し, 画像分類タスクの評価を行った。
論文参考訳（メタデータ） (2023-01-31T08:01:35Z)
Quantized Neural Networks for Low-Precision Accumulation with Guaranteed Overflow Avoidance [68.8204255655161]
本稿では,推定時のアキュムレータの精度を下げる際に,数値オーバーフローを回避する量子化学習アルゴリズムを提案する。本手法は,浮動小数点点ベースラインに対するモデル精度を維持しつつ,アキュムレータの精度を低減できることを示す。
論文参考訳（メタデータ） (2023-01-31T02:46:57Z)
Mesa: A Memory-saving Training Framework for Transformers [58.78933015299703]
本稿では,トランスフォーマーのためのメモリ節約トレーニングフレームワークであるMesaを紹介する。 Mesaは、フォワードパス中に正確なアクティベーションを使用し、低精度のアクティベーションを格納することで、トレーニング中のメモリ消費を減らす。 ImageNet、CIFAR-100、ADE20Kの実験は、Mesaがトレーニング中にメモリフットプリントの半分を削減できることを示した。
論文参考訳（メタデータ） (2021-11-22T11:23:01Z)
8-bit Optimizers via Block-wise Quantization [57.25800395197516]
ステートフルズは、例えば過去の値の指数的滑らかな和(運動量付きSGD)や2乗和(アダム)など、時間の経過とともに統計を維持している。この状態は、通常の勾配降下よりも最適化を加速するために使用することができるが、そうでなければモデルパラメータに割り当てられる可能性のあるメモリを使用する。本稿では,32ビットの勾配状態を用いた場合の性能レベルを維持しながら,8ビット統計を用いた第1次勾配法を開発する。
論文参考訳（メタデータ） (2021-10-06T15:43:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。