論文の概要: LCSB: Layer-Cyclic Selective Backpropagation for Memory-Efficient On-Device LLM Fine-Tuning
- arxiv url: http://arxiv.org/abs/2602.13073v1
- Date: Fri, 13 Feb 2026 16:32:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-16 23:37:54.035579
- Title: LCSB: Layer-Cyclic Selective Backpropagation for Memory-Efficient On-Device LLM Fine-Tuning
- Title(参考訳): LCSB: メモリ効率の良いオンデバイスLCM微細調整のための層状回路選択バックプロパゲーション
- Authors: Juneyoung Park, Eunbeen Yoon, Seongwan Kim. Jaeho Lee,
- Abstract要約: メモリ効率のよいバックプロパゲーション(MeBP)により、1GB未満のメモリを持つモバイルデバイス上での大規模言語モデル(LLM)の1次微調整が可能になった。
本稿では,ステップごとのレイヤのサブセットのみの勾配を計算するLCSB(Layer-Cyclic Selective Backpropagation)を提案する。
- 参考スコア(独自算出の注目度): 3.179758551591901
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Memory-efficient backpropagation (MeBP) has enabled first-order fine-tuning of large language models (LLMs) on mobile devices with less than 1GB memory. However, MeBP requires backward computation through all transformer layers at every step, where weight decompression alone accounts for 32--42% of backward time. We propose Layer-Cyclic Selective Backpropagation (LCSB), which computes gradients for only a subset of layers per step. Our key insight is that residual connections guarantee gradient flow through identity paths, while AdamW momentum provides implicit updates for non-selected layers. We interpret LCSB as Block Coordinate Descent on the LoRA parameter space, providing theoretical justification for convergence. LCSB achieves up to 1.40$\times$ speedup with less than 2\% quality degradation across five models and three tasks. Surprisingly, in 4-bit quantized settings, LCSB exhibits superior stability: a 3B model that completely diverges under full backpropagation converges smoothly with LCSB, suggesting an implicit regularization effect from selective gradient computation.
- Abstract(参考訳): メモリ効率のよいバックプロパゲーション(MeBP)により、1GB未満のメモリを持つモバイルデバイス上での大規模言語モデル(LLM)の1次微調整が可能になった。
しかし、MeBPは全てのステップで全ての変圧器層を通して逆方向の計算を必要とし、重量減圧だけで32~42%の逆方向の時間を消費する。
本稿では,ステップごとのレイヤのサブセットのみの勾配を計算するLCSB(Layer-Cyclic Selective Backpropagation)を提案する。
私たちのキーとなる洞察は、残余接続はアイデンティティパスの勾配フローを保証するのに対して、AdamWモメンタは非選択層に対して暗黙の更新を提供する、ということです。
我々は LCSB を LoRA パラメータ空間上のブロック座標 Descent と解釈し、収束の理論的正当化を与える。
LCSBは最大1.40$\times$のスピードアップを実現し、5つのモデルと3つのタスクで2\%以下の品質劣化を実現している。
驚くべきことに、LCSBは4ビット量子化設定において優れた安定性を示し、完全なバックプロパゲーションの下で完全に分岐する3BモデルはLCSBと滑らかに収束し、選択的勾配計算から暗黙の正規化効果が示唆される。
関連論文リスト
- Memory-Efficient Structured Backpropagation for On-Device LLM Fine-Tuning [10.913120072779193]
デバイス上での微調整により、大きな言語モデルのプライバシ保護によるパーソナライズが可能になる。
モバイルデバイスは、すべてのワークロード間で共有される6~12GBの厳しいメモリ制約を課す。
メモリ効率のよい構造化バックプロパゲーション(MeSP)を提案する。
MeSPはピークメモリを361MBから136MBのQwen2.5-0.5Bに減らし、これまで不可能だった微調整シナリオを実現する。
論文 参考訳(メタデータ) (2026-02-13T16:24:33Z) - RaBiT: Residual-Aware Binarization Training for Accurate and Efficient LLMs [5.782015253162346]
残留バイナライゼーションは、バイナリ層を積み重ねることで、マットルフリーな推論を可能にする。
本稿では,残差階層をアルゴリズム的に強制することでコダプタ化を解決する新しい量子化フレームワークであるRaBiTを提案する。
RaBiTは最先端のパフォーマンスを実現し、ハードウェア集約型ベクトル量子化(VQ)の手法と競合する。
論文 参考訳(メタデータ) (2026-02-05T06:41:11Z) - Breaking the Blocks: Continuous Low-Rank Decomposed Scaling for Unified LLM Quantization and Adaptation [46.34608916687127]
低ランク分解スケーリング(LoRDS)は、この低ランク分解を通じて量子化の粒度を再考する統一フレームワークである。
空間的制約の「ブロックを壊す」ことで、LoRDSはシームレスな効率ライフサイクルを確立する。
LoRDSは、量子化タスクと下流細調整タスクの両方において、さまざまなモデルファミリの最先端のベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2026-01-30T08:46:02Z) - Winning the Pruning Gamble: A Unified Approach to Joint Sample and Token Pruning for Efficient Supervised Fine-Tuning [71.30276778807068]
サンプルプルーニングとトークンプルーニングを戦略的に協調する統合フレームワークを提案する。
Q-Tuningは、トレーニングデータの12.5%しか使用せず、全データSFTベースラインに対する平均38%の改善を実現している。
論文 参考訳(メタデータ) (2025-09-28T13:27:38Z) - IMPQ: Interaction-Aware Layerwise Mixed Precision Quantization for LLMs [4.655407920049974]
混合精度量子化は説得力のある解であるが、従来の方法では平均精度が4ビット以下に低下する。
本稿では,これらの制約に対処する2つのイノベーションを提案する。
まず,混合精度量子化問題を階層間の協調ゲームとして構成し,Shapley-based Progressive Quantization Estimation (SPQE)を導入する。
次に、これらのShapley推定値を2次最適化形式に変換する対話型混合精度量子化(IMPQ)を提案する。
論文 参考訳(メタデータ) (2025-09-18T21:59:40Z) - GAQAT: gradient-adaptive quantization-aware training for domain generalization [54.31450550793485]
そこで本研究では,DGのためのGAQAT(Gradient-Adaptive Quantization-Aware Training)フレームワークを提案する。
我々のアプローチは、低精度量子化におけるスケール・グラディエント・コンフリクト問題を特定することから始まる。
GAQATフレームワークの有効性を実験により検証した。
論文 参考訳(メタデータ) (2024-12-07T06:07:21Z) - HAFLQ: Heterogeneous Adaptive Federated LoRA Fine-tuned LLM with Quantization [55.972018549438964]
LLM(Federated Fine-tuning of Pre-trained Large Language Models)は、さまざまなデータセットにまたがるタスク固有の適応を可能にすると同時に、プライバシの保護を可能にする。
本研究では, HAFLQ (Heterogeneous Adaptive Federated Low-Rank Adaptation Fine-tuned LLM with Quantization) を提案する。
テキスト分類タスクの実験結果から,HAFLQはメモリ使用量を31%削減し,通信コストを49%削減し,精度を50%向上し,ベースライン法よりも高速な収束を実現している。
論文 参考訳(メタデータ) (2024-11-10T19:59:54Z) - Fast Matrix Multiplications for Lookup Table-Quantized LLMs [58.11584672945781]
FLUTEはLUT量子化LLM用のフレキシブルなルックアップテーブルエンジンである。
バッチサイズ32と量子化グループサイズ128では、FLUTEカーネルは既存のGEMMカーネルよりも2〜4倍高速である。
論文 参考訳(メタデータ) (2024-07-15T17:55:42Z) - Bypass Back-propagation: Optimization-based Structural Pruning for Large Language Models via Policy Gradient [57.9629676017527]
本研究では,プルーンドモデルの損失を最適化することにより,確率空間におけるプルーニングマスクを直接学習する最適化に基づく構造的プルーニングを提案する。
我々は、基底となるベルヌーイ分布をサンプルのバイナリ・プルーニングマスクに学習することでこれを実現する。
LLaMA, LLaMA-2, LLaMA-3, Vicuna, Mistral モデルによる実験により, 本手法の有効性と有効性を示すことができた。
論文 参考訳(メタデータ) (2024-06-15T09:31:03Z) - Thinking Forward: Memory-Efficient Federated Finetuning of Language Models [21.438831528354513]
連合学習環境における大規模言語モデル(LLM)の微調整には、リソース制約のあるデバイスに対して過剰なメモリを必要とする。
本稿では,LLMのトレーニング可能な重みをクライアント間で分割するFLアルゴリズムであるSpryを紹介する。
Spryはメモリフットプリントが低く、精度が高く、高速な収束を実現している。
論文 参考訳(メタデータ) (2024-05-24T13:37:48Z) - SliM-LLM: Salience-Driven Mixed-Precision Quantization for Large Language Models [63.118592279833656]
後学習量子化(PTQ)は,大規模言語モデル(LLM)の圧縮に有効な手法である
本稿では,SliM-LLMを提案する。SliM-LLMは,グループ単位でビット幅を割り当てるサリエンス駆動の混合精度量子化フレームワークである。
実験により、SliM-LLMは低ビット幅の様々なLLMにおいて優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-05-23T16:21:48Z) - CBQ: Cross-Block Quantization for Large Language Models [66.82132832702895]
ポストトレーニング量子化(PTQ)は、超低コストで大規模言語モデル(LLM)を圧縮する上で重要な役割を果たしている。
LLMのためのクロスブロック再構成に基づくPTQ手法CBQを提案する。
CBQはリコンストラクションスキームを使用してクロスブロック依存関係を採用し、エラーの蓄積を最小限に抑えるために複数のブロックにまたがる長距離依存関係を確立する。
論文 参考訳(メタデータ) (2023-12-13T07:56:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。