論文の概要: Memory-Efficient Backpropagation for Fine-Tuning LLMs on Resource-Constrained Mobile Devices
- arxiv url: http://arxiv.org/abs/2510.03425v1
- Date: Fri, 03 Oct 2025 18:36:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.036816
- Title: Memory-Efficient Backpropagation for Fine-Tuning LLMs on Resource-Constrained Mobile Devices
- Title(参考訳): 資源拘束型モバイルデバイス上での微調整LDMのメモリ効率向上
- Authors: Congzheng Song, Xinyu Tang,
- Abstract要約: バックプロパゲーションのtextemdashを使った微調整された大きな言語モデル(LLM)は、推論よりもはるかにメモリ消費が大きい。
本稿では,メモリ使用量と計算時間とのトレードオフを改善するために,モバイル機器上でのバックプロパゲーション(MeBP)のメモリ効率向上実装を提案する。
- 参考スコア(独自算出の注目度): 5.747073544547447
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fine-tuning large language models (LLMs) with backpropagation\textemdash even for a subset of parameters such as LoRA\textemdash can be much more memory-consuming than inference and is often deemed impractical for resource-constrained mobile devices. Alternative methods, such as zeroth-order optimization (ZO), can greatly reduce the memory footprint but come at the cost of significantly slower model convergence (10$\times$ to 100$\times$ more steps than backpropagation). We propose a memory-efficient implementation of backpropagation (MeBP) on mobile devices that provides better trade-off between memory usage and compute time, while converging faster and achieving better performance than the ZO baseline. We verify the effectiveness of MeBP on an iPhone 15 Pro Max and show that various LLMs, ranging from 0.5B to 4B parameters, can be fine-tuned using less than 1GB of memory. We release an example of the MeBP implementation at https://github.com/apple/ml-mebp.
- Abstract(参考訳): LoRA\textemdashのようなパラメータのサブセットであっても、バックプロパゲーション\textemdashを使った微調整された大きな言語モデル(LLM)は、推論よりもはるかにメモリ消費が高く、リソースに制約のあるモバイルデバイスでは実用的ではないとみなされることが多い。
ゼロ階最適化(ZO)のような代替手法はメモリフットプリントを大幅に削減するが、モデル収束が大幅に遅くなる(バックプロパゲーションよりも10$\times$から100$\times$)。
本稿では,ZOベースラインよりも高速に収束し,優れた性能を実現するとともに,メモリ使用量と計算時間とのトレードオフを向上する,モバイルデバイス上でのメモリ効率の高いバックプロパゲーション(MeBP)の実装を提案する。
我々は,iPhone 15 Pro Max における MeBP の有効性を検証するとともに,0.5B から 4B までの様々な LLM が 1GB 以下のメモリで微調整可能であることを示す。
私たちはMeBP実装の例をhttps://github.com/apple/ml-mebp.comでリリースします。
関連論文リスト
- MOM: Memory-Efficient Offloaded Mini-Sequence Inference for Long Context Language Models [72.61076288351201]
メモリ効率の良いオフロードミニシーケンス推論(MOM)を提案する。
MOMは重要なレイヤを小さな“ミニシーケンス”に分割し、KVキャッシュのオフロードとシームレスに統合する。
Meta-Llama-3.2-8Bでは、単一のA100 80GB GPU上での最大コンテキスト長を155kから455kに拡張する。
論文 参考訳(メタデータ) (2025-04-16T23:15:09Z) - APOLLO: SGD-like Memory, AdamW-level Performance [61.53444035835778]
大規模言語モデル(LLM)は、トレーニング中にメモリ集約的であることで知られている。
メモリ使用量を減らすために、様々なメモリ効率のScalが提案されている。
i)コストのかかるSVDオペレーション、(ii)AdamWと比較して大きなパフォーマンストレードオフ、(iii)競争性能を維持する上でのメモリオーバーヘッド、などです。
論文 参考訳(メタデータ) (2024-12-06T18:55:34Z) - Reducing Fine-Tuning Memory Overhead by Approximate and Memory-Sharing Backpropagation [29.139579820699495]
この研究は、活性化関数と層正規化の観点から微調整におけるメモリオーバーヘッドを低減することを目的としている。
提案手法をバックプロパゲーショントレーニングに適用し,GELUおよびSiLU活性化関数のメモリ効率の代替を導出する。
さらに、メモリ共有バックプロパゲーション戦略を導入し、アクティベーションメモリを2つの隣接層で共有できるようにする。
論文 参考訳(メタデータ) (2024-06-24T03:09:15Z) - Scalable MatMul-free Language Modeling [9.048532540945086]
MatMul操作は、大きな言語モデルから除外できる。
最大2.7BパラメータのモデルでテストされるMatMulフリーモデルは、最先端のトレーニング済みトランスフォーマーに匹敵する。
論文 参考訳(メタデータ) (2024-06-04T17:50:34Z) - Sparse MeZO: Less Parameters for Better Performance in Zeroth-Order LLM
Fine-Tuning [67.44661423463927]
本稿では,ZOをパラメータの慎重に選択したサブセットにのみ適用するメモリ効率のゼロ階最適化手法であるSparse MeZOを紹介する。
その結果,Sparse-MeZO はオーバーヘッドを伴わずに,MeZO 上での性能と収束速度を安定的に向上することを示した。
論文 参考訳(メタデータ) (2024-02-24T07:22:04Z) - AdaLomo: Low-memory Optimization with Adaptive Learning Rate [59.64965955386855]
大規模言語モデルに対する適応学習率(AdaLomo)を用いた低メモリ最適化を提案する。
AdaLomoはAdamWと同等の結果を得ると同時に、メモリ要件を大幅に削減し、大きな言語モデルをトレーニングするためのハードウェア障壁を低くする。
論文 参考訳(メタデータ) (2023-10-16T09:04:28Z) - Full Parameter Fine-tuning for Large Language Models with Limited Resources [55.794732214059806]
大規模言語モデル(LLM)は自然言語処理(NLP)に革命をもたらしたが、トレーニングには大量のGPUリソースを必要としている。
我々は,メモリ使用量を削減するために,勾配とパラメータの更新を1ステップで融合する新しい計算,LOMO(LOw-Memory Optimization)を提案する。
論文 参考訳(メタデータ) (2023-06-16T11:37:15Z) - SPARTAN: Sparse Hierarchical Memory for Parameter-Efficient Transformers [29.721162097790646]
SPARTANは、エッジデバイスのためのパラメータ効率(PE)と計算的に高速なアーキテクチャである。
トランスフォーマー層の後、階層的に整理されたスパースメモリを追加する。
数ショット設定で34%高速にトレーニングでき、アダプタの0.9ポイント以内で実行することができる。
論文 参考訳(メタデータ) (2022-11-29T23:59:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。