論文の概要: FlashOptim: Optimizers for Memory Efficient Training
- arxiv url: http://arxiv.org/abs/2602.23349v1
- Date: Thu, 26 Feb 2026 18:52:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-27 18:41:22.858063
- Title: FlashOptim: Optimizers for Memory Efficient Training
- Title(参考訳): FlashOptim: メモリ効率向上のための最適化ツール
- Authors: Jose Javier Gonzalez Ortiz, Abhay Gupta, Chris Renard, Davis Blalock,
- Abstract要約: 70億のパラメーターモデルのトレーニングでさえ、100GB未満のアクセラレーターメモリを持つ研究者にとって現実的ではない。
FlashOptimは、モデルの品質とAPIの互換性を保ちながら、パラメータ単位のメモリを50%以上削減する最適化スイートです。
- 参考スコア(独自算出の注目度): 4.024850952459759
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Standard mixed-precision training of neural networks requires many bytes of accelerator memory for each model parameter. These bytes reflect not just the parameter itself, but also its gradient and one or more optimizer state variables. With each of these values typically requiring 4 bytes, training even a 7 billion parameter model can be impractical for researchers with less than 100GB of accelerator memory. We introduce FlashOptim, a suite of optimizations that reduces per-parameter memory by over 50% while preserving model quality and API compatibility. Our approach introduces two key techniques. First, we improve master weight splitting by finding and exploiting a tight bound on its quantization error. Second, we design companding functions that greatly reduce the error in 8-bit optimizer state quantization. Together with 16-bit gradients, these techniques reduce AdamW memory from 16 bytes to 7 bytes per parameter, or 5 bytes with gradient release. They also cut model checkpoint sizes by more than half. Experiments with FlashOptim applied to SGD, AdamW, and Lion show no measurable quality degradation on any task from a collection of standard vision and language benchmarks, including Llama-3.1-8B finetuning.
- Abstract(参考訳): ニューラルネットワークの標準的な混合精度トレーニングは、各モデルパラメータに対して多くのアクセラレータメモリを必要とする。
これらのバイトはパラメータ自身だけでなく、勾配や1つ以上の最適化状態変数も反映する。
これらの値には通常4バイトを必要とするため、100GB未満のアクセラレータメモリを持つ研究者にとって、70億のパラメータモデルのトレーニングは現実的ではない。
FlashOptimは、モデルの品質とAPI互換性を保ちながら、パラメータ単位のメモリを50%以上削減する最適化スイートです。
このアプローチは2つの重要なテクニックを導入します。
まず、量子化誤差の厳密な境界を見つけ、活用することにより、マスターウェイト分割を改善する。
第2に、8ビットオプティマイザ状態量子化における誤差を大幅に低減するコンパイル関数を設計する。
16ビットの勾配とともに、これらの技術はAdamWメモリを16バイトから7バイトに縮小する。
また、モデルチェックポイントのサイズを半分以上削減した。
FlashOptimをSGD、AdamW、Lionに適用した実験では、標準ビジョンとLlama-3.1-8Bファインタニングを含む言語ベンチマークのコレクションから得られるあらゆるタスクの計測可能な品質劣化は示されていない。
関連論文リスト
- HiFT: A Hierarchical Full Parameter Fine-Tuning Strategy [55.17502828915191]
本稿では,各学習段階におけるパラメータのサブセットのみを更新する,新しい非独立なエンドツーエンドの階層的微調整戦略であるHiFTを提案する。
この結果から,HiFTはパラメータ効率の高いファインチューニングと標準のフルパラメータファインチューニングに匹敵する性能を達成できることが示された。
論文 参考訳(メタデータ) (2024-01-26T21:14:32Z) - AdaLomo: Low-memory Optimization with Adaptive Learning Rate [59.64965955386855]
大規模言語モデルに対する適応学習率(AdaLomo)を用いた低メモリ最適化を提案する。
AdaLomoはAdamWと同等の結果を得ると同時に、メモリ要件を大幅に削減し、大きな言語モデルをトレーニングするためのハードウェア障壁を低くする。
論文 参考訳(メタデータ) (2023-10-16T09:04:28Z) - Memory Efficient Optimizers with 4-bit States [22.605392665667136]
我々は、第1モーメントと第2モーメントの詳細な実験分析を通して、状態のビット幅を4ビットまで押し下げる。
ブロックサイズを小さくし,行次情報と列次情報の両方を用いて量子化を改善することを提案する。
我々の4ビットは、自然言語理解、機械翻訳、画像分類、インストラクションチューニングなど、様々なベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-09-04T10:27:17Z) - Full Parameter Fine-tuning for Large Language Models with Limited Resources [55.794732214059806]
大規模言語モデル(LLM)は自然言語処理(NLP)に革命をもたらしたが、トレーニングには大量のGPUリソースを必要としている。
我々は,メモリ使用量を削減するために,勾配とパラメータの更新を1ステップで融合する新しい計算,LOMO(LOw-Memory Optimization)を提案する。
論文 参考訳(メタデータ) (2023-06-16T11:37:15Z) - QLoRA: Efficient Finetuning of Quantized LLMs [66.58009990713134]
我々は,48GBのGPU上で65Bパラメータモデルを微調整するのに十分なメモリ使用量を削減する,効率的な微調整手法QLoRAを提案する。
QLoRAは凍結した4ビット量子化事前学習言語モデルを通して低ランクアダプタ(LoRA)に逆伝搬する
最高のモデルファミリであるGuanacoは、Vicunaベンチマークでリリースされたすべてのモデルより優れています。
論文 参考訳(メタデータ) (2023-05-23T17:50:33Z) - The case for 4-bit precision: k-bit Inference Scaling Laws [75.4335600212427]
量子化法は、モデル内の各パラメータを表すために必要なビット数を減少させる。
最終的なモデルサイズは、元のモデルのパラメータの数と圧縮率の両方に依存する。
我々は16ビットの入力とkビットのパラメータを持つ35,000以上のゼロショット実験を行い、どの量子化手法が3ビットから8ビットの精度でスケーリングを改善するかを検証した。
論文 参考訳(メタデータ) (2022-12-19T18:48:33Z) - 8-bit Optimizers via Block-wise Quantization [57.25800395197516]
ステートフルズは、例えば過去の値の指数的滑らかな和(運動量付きSGD)や2乗和(アダム)など、時間の経過とともに統計を維持している。
この状態は、通常の勾配降下よりも最適化を加速するために使用することができるが、そうでなければモデルパラメータに割り当てられる可能性のあるメモリを使用する。
本稿では,32ビットの勾配状態を用いた場合の性能レベルを維持しながら,8ビット統計を用いた第1次勾配法を開発する。
論文 参考訳(メタデータ) (2021-10-06T15:43:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。