論文の概要: Parameter Efficiency Is Not Memory Efficiency: Rethinking Fine-Tuning for On-Device LLM Adaptation
- arxiv url: http://arxiv.org/abs/2604.22783v1
- Date: Fri, 03 Apr 2026 17:05:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-04 02:32:14.177935
- Title: Parameter Efficiency Is Not Memory Efficiency: Rethinking Fine-Tuning for On-Device LLM Adaptation
- Title(参考訳): パラメータ効率はメモリ効率ではない:オンデバイスLDM適応のための微調整を再考する
- Authors: Irene Tenison, Stella Ahn, Miriam Kim, Ebtisam Alshehri, Lalana Kagal,
- Abstract要約: LARS(Low-Memory Activation-Rank Subspace)は、シーケンス長からメモリ消費を分離する新しい適応フレームワークである。
LARSは、推論、理解、長文データセットにわたるLoRAと比較して、GPUで平均33.54%、CPUで51.95%のメモリフットプリントを削減している。
- 参考スコア(独自算出の注目度): 1.2559585990041289
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Parameter-Efficient Fine-Tuning (PEFT) has become the standard for adapting large language models (LLMs). In this work we challenge the wide-spread assumption that parameter efficiency equates memory efficiency and on-device adaptability. We show that this is not true - while methods like LoRA and IA3 significantly reduce trainable parameters, they remain bound by intermediate tensors that scale linearly with sequence length, often triggering out-of-memory errors on-device. In this work, we introduce LARS (Low-memory Activation-Rank Subspace), a novel adaptation framework that decouples memory consumption from sequence length. While prior PEFT methods apply low-rank constraints to model parameters, LARS instead constrains the activation subspace used during training, directly targeting the dominant source of memory consumption and fundamentally flattening the memory growth rate. LARS reduces the memory footprint by an average of 33.54% on GPUs and 51.95% on CPUs in comparison to LoRA across reasoning, understanding and long-context datasets using different models while maintaining competitive accuracy and throughput. Besides GPUs, we deploy on Raspberry Pi and consumer-grade CPUs to demonstrate that LARS provides a scalable path for sophisticated LLM personalization on resource-constrained hardware and edge devices.
- Abstract(参考訳): パラメータ効率のよいファインチューニング(PEFT)は、大規模言語モデル(LLM)の標準となっている。
本研究では,パラメータ効率がメモリ効率とオンデバイス適応性に等しいという広い範囲の仮定に挑戦する。
LoRAやIA3のようなメソッドはトレーニング可能なパラメータを著しく削減するが、シーケンス長と線形にスケールする中間テンソルによって束縛され、しばしばメモリ外エラーをデバイス上で引き起こす。
本稿では,シーケンス長からメモリ消費を分離する新しい適応フレームワークであるLARS(Low-Memory Activation-Rank Subspace)を紹介する。
従来のPEFT法はモデルパラメータに低ランク制約を適用していたが、LARSは代わりにトレーニング中に使用されるアクティベーションサブスペースを制約し、メモリ消費の優位な源を直接ターゲットとし、メモリ増加率を根本的にフラットにする。
LARSはメモリフットプリントをGPUで平均33.54%、CPUで51.95%削減する。
GPU以外にも、Raspberry PiやコンシューマグレードのCPUにデプロイして、LARSがリソース制約のあるハードウェアやエッジデバイス上で、高度なLLMパーソナライズのためのスケーラブルなパスを提供することを示す。
関連論文リスト
- MeKi: Memory-based Expert Knowledge Injection for Efficient LLM Scaling [29.784396745475835]
大規模言語モデル(LLM)のスケーリングは通常、パフォーマンスを高めるためにパラメータやテスト時間計算の数を増やすことに依存する。
MeKi(メモリベースエキスパートナレッジインジェクション)は、FLOPではなくストレージ空間を介してLLM容量をスケールする新しいシステムである。
MeKiは、同一の推論速度で高密度LLMベースラインを著しく上回る。
論文 参考訳(メタデータ) (2026-02-03T10:32:04Z) - Ladder Up, Memory Down: Low-Cost Fine-Tuning With Side Nets [3.7972358681579377]
細調整された大型言語モデル(LLM)は、しばしばコモディティGPUで利用可能なメモリによって制限される。
ピークメモリを50%カットしながら,ラダーサイドチューニング(LST)がQLoRAの計算スケーリングスロープと一致することを示す。
また,LSTがQLoRAと同様のスケールを示すスケーリング法則を確立した。
論文 参考訳(メタデータ) (2025-12-16T09:47:34Z) - Mixture-of-Channels: Exploiting Sparse FFNs for Efficient LLMs Pre-Training and Inference [16.71963410333802]
大規模言語モデル(LLM)は、多様な人工知能タスクで顕著な成功を収めている。
MoCは、事前トレーニング中のアクティベーションメモリを大幅に削減する。
MoCは、競合モデルのパフォーマンスを維持しながら、メモリの大幅な節約とスループットの向上を提供する。
論文 参考訳(メタデータ) (2025-11-12T13:30:57Z) - MobiZO: Enabling Efficient LLM Fine-Tuning at the Edge via Inference Engines [28.18421624702502]
本稿では,大規模言語モデル(LLM)のための資源効率の高い微調整フレームワークであるMobiZOを紹介する。
MobiZOは、微調整精度を向上しつつ、実行時の大幅な高速化とメモリ節約を実現する。
MobiZOは、微調整精度を向上しつつ、実行時の大幅なスピードアップとメモリ節約を実現している。
論文 参考訳(メタデータ) (2024-09-23T20:14:09Z) - SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。
初期経路では、中間出力は反冗長動作によって統合される。
遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文 参考訳(メタデータ) (2024-07-10T10:22:35Z) - LaMDA: Large Model Fine-Tuning via Spectrally Decomposed Low-Dimensional Adaptation [7.788139145984213]
低ランク適応(LoRA)は、ファインチューン大言語モデル(LLM)のデフォルトのアプローチとなっている。
我々はスペクトル分解低次元適応(LaMDA)による大型モデル微調整を導入する。
LaMDAはトレーニング可能なパラメータとピークGPUメモリフットプリントを大幅に削減する。
論文 参考訳(メタデータ) (2024-06-18T17:52:59Z) - Scaling Sparse Fine-Tuning to Large Language Models [67.59697720719672]
大きな言語モデル(LLM)は、パラメータの数が多いため、完全な微調整が難しい。
本研究では,パラメータの配列とパラメータのデルタを事前学習した値に対して保持する新しいスパース微調整法SpIELを提案する。
提案手法は,LoRAのようなパラメータ効率の高い微調整法よりも性能が優れ,実行時間も同等であることを示す。
論文 参考訳(メタデータ) (2024-01-29T18:43:49Z) - Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of Language Model [89.8764435351222]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。
我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文 参考訳(メタデータ) (2023-05-24T15:52:08Z) - TinyTL: Reduce Activations, Not Trainable Parameters for Efficient
On-Device Learning [78.80707950262214]
デバイス上での学習により、エッジデバイスはAIモデルを新しいデータに継続的に適応できる。
既存の作業は、トレーニング可能なパラメータの数を減らすことで、この問題を解決する。
メモリ効率の高いオンデバイス学習のためのTiny-Transfer-Learning(TinyTL)を提案する。
論文 参考訳(メタデータ) (2020-07-22T18:39:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。