論文の概要: Memory-Efficient Structured Backpropagation for On-Device LLM Fine-Tuning
- arxiv url: http://arxiv.org/abs/2602.13069v1
- Date: Fri, 13 Feb 2026 16:24:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-16 23:37:54.032364
- Title: Memory-Efficient Structured Backpropagation for On-Device LLM Fine-Tuning
- Title(参考訳): オンデバイスLDMファインチューニングのためのメモリ効率の良い構造化バックプロパゲーション
- Authors: Juneyoung Park, Yuri Hong, Seongwan Kim, Jaeho Lee,
- Abstract要約: デバイス上での微調整により、大きな言語モデルのプライバシ保護によるパーソナライズが可能になる。
モバイルデバイスは、すべてのワークロード間で共有される6~12GBの厳しいメモリ制約を課す。
メモリ効率のよい構造化バックプロパゲーション(MeSP)を提案する。
MeSPはピークメモリを361MBから136MBのQwen2.5-0.5Bに減らし、これまで不可能だった微調整シナリオを実現する。
- 参考スコア(独自算出の注目度): 10.913120072779193
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: On-device fine-tuning enables privacy-preserving personalization of large language models, but mobile devices impose severe memory constraints, typically 6--12GB shared across all workloads. Existing approaches force a trade-off between exact gradients with high memory (MeBP) and low memory with noisy estimates (MeZO). We propose Memory-efficient Structured Backpropagation (MeSP), which bridges this gap by manually deriving backward passes that exploit LoRA's low-rank structure. Our key insight is that the intermediate projection $h = xA$ can be recomputed during backward at minimal cost since rank $r \ll d_{in}$, eliminating the need to store it. MeSP achieves 49\% average memory reduction compared to MeBP on Qwen2.5 models (0.5B--3B) while computing mathematically identical gradients. Our analysis also reveals that MeZO's gradient estimates show near-zero correlation with true gradients (cosine similarity $\approx$0.001), explaining its slow convergence. MeSP reduces peak memory from 361MB to 136MB for Qwen2.5-0.5B, enabling fine-tuning scenarios previously infeasible on memory-constrained devices.
- Abstract(参考訳): デバイス上での微調整により、大きな言語モデルのプライバシ保護によるパーソナライゼーションが可能になるが、モバイルデバイスは、すべてのワークロードで共有される6~12GBの厳しいメモリ制約を課す。
既存のアプローチでは、高メモリの正確な勾配(MeBP)とノイズ推定の低メモリ(MeZO)のトレードオフを余儀なくされている。
メモリ効率のよい構造化バックプロパゲーション(MeSP)を提案し,ロラの低ランク構造を利用する逆方向パスを手動で導出することで,このギャップを橋渡しする。
我々の重要な洞察は、中間射影 $h = xA$ は、$r \ll d_{in}$ から最小限のコストで逆向きに計算でき、保存する必要がなくなることである。
MeSP は Qwen2.5 モデル (0.5B--3B) の MeBP と比較して 49 % のメモリ削減を実現している。
我々の分析は、メゾの勾配推定が真の勾配(コサイン類似度$\approx$0.001)とほぼゼロの相関を示し、その緩やかな収束を説明することも示している。
MeSPはピークメモリを361MBから136MBのQwen2.5-0.5Bに減らし、メモリ制限されたデバイスでは従来不可能だった微調整シナリオを実現する。
関連論文リスト
- On-Device Fine-Tuning via Backprop-Free Zeroth-Order Optimization [27.237134457089194]
メモリ効率のゼロオーダー最適化(MeZO)はこのボトルネックを軽減する。
本稿ではまず,BPおよびMeZOトレーニングで適用可能な相対モデルサイズを理論的に推定する。
次に,メモリ上の制約下で,MeZOが精度上の優位性を示すことを示す。
論文 参考訳(メタデータ) (2025-11-14T14:46:29Z) - Memory-Efficient Backpropagation for Fine-Tuning LLMs on Resource-Constrained Mobile Devices [5.747073544547447]
バックプロパゲーションのtextemdashを使った微調整された大きな言語モデル(LLM)は、推論よりもはるかにメモリ消費が大きい。
本稿では,メモリ使用量と計算時間とのトレードオフを改善するために,モバイル機器上でのバックプロパゲーション(MeBP)のメモリ効率向上実装を提案する。
論文 参考訳(メタデータ) (2025-10-03T18:36:21Z) - A Universal Framework for Compressing Embeddings in CTR Prediction [68.27582084015044]
本稿では,事前学習した埋め込みを定量化することにより,埋め込みテーブルを圧縮するモデル非依存型埋め込み圧縮(MEC)フレームワークを提案する。
まず、高頻度特徴と低周波特徴のバランスをとるために、人気重み付け正規化を適用します。
3つのデータセットの実験により,提案手法はメモリ使用量を50倍以上削減し,レコメンデーション性能を維持・改善する。
論文 参考訳(メタデータ) (2025-02-21T10:12:34Z) - Breaking the Memory Barrier: Near Infinite Batch Size Scaling for Contrastive Loss [59.835032408496545]
本稿では, コントラスト損失計算を任意の小ブロックに分割するタイルベースの戦略を提案する。
分散システムの階層構造を活用するためのマルチレベルタイリング戦略も導入する。
SOTAメモリ効率のソリューションと比較すると、同等の速度を維持しながら、メモリの2桁の削減を実現している。
論文 参考訳(メタデータ) (2024-10-22T17:59:30Z) - Reducing Fine-Tuning Memory Overhead by Approximate and Memory-Sharing Backpropagation [29.139579820699495]
この研究は、活性化関数と層正規化の観点から微調整におけるメモリオーバーヘッドを低減することを目的としている。
提案手法をバックプロパゲーショントレーニングに適用し,GELUおよびSiLU活性化関数のメモリ効率の代替を導出する。
さらに、メモリ共有バックプロパゲーション戦略を導入し、アクティベーションメモリを2つの隣接層で共有できるようにする。
論文 参考訳(メタデータ) (2024-06-24T03:09:15Z) - Thinking Forward: Memory-Efficient Federated Finetuning of Language Models [21.438831528354513]
連合学習環境における大規模言語モデル(LLM)の微調整には、リソース制約のあるデバイスに対して過剰なメモリを必要とする。
本稿では,LLMのトレーニング可能な重みをクライアント間で分割するFLアルゴリズムであるSpryを紹介する。
Spryはメモリフットプリントが低く、精度が高く、高速な収束を実現している。
論文 参考訳(メタデータ) (2024-05-24T13:37:48Z) - Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of Language Model [89.8764435351222]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。
我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文 参考訳(メタデータ) (2023-05-24T15:52:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。