論文の概要: Ladder Up, Memory Down: Low-Cost Fine-Tuning With Side Nets
- arxiv url: http://arxiv.org/abs/2512.14237v1
- Date: Tue, 16 Dec 2025 09:47:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-17 16:49:26.668001
- Title: Ladder Up, Memory Down: Low-Cost Fine-Tuning With Side Nets
- Title(参考訳): ラダーアップ、メモリダウン:サイドネット付き低コストファインチューニング
- Authors: Estelle Zheng, Nathan Cerisara, Sébastien Warichet, Emmanuel Helbert, Christophe Cerisara,
- Abstract要約: 細調整された大型言語モデル(LLM)は、しばしばコモディティGPUで利用可能なメモリによって制限される。
ピークメモリを50%カットしながら,ラダーサイドチューニング(LST)がQLoRAの計算スケーリングスロープと一致することを示す。
また,LSTがQLoRAと同様のスケールを示すスケーリング法則を確立した。
- 参考スコア(独自算出の注目度): 3.7972358681579377
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fine-tuning large language models (LLMs) is often limited by the memory available on commodity GPUs. Parameter-efficient fine-tuning (PEFT) methods such as QLoRA reduce the number of trainable parameters, yet still incur high memory usage induced by the backward pass in the full model. We revisit Ladder Side Tuning (LST), a rarely explored PEFT technique that adds a lightweight side network, and show that it matches QLoRA's compute scaling slope while cutting peak memory by 50\%. Across different downstream benchmarks spanning natural language understanding, mathematical and LLM-critic tasks, LST has competitive performance with QLoRA's accuracy on average while being much more memory-efficient. This efficiency enables fine-tuning of 7B-parameter models on a single 12 GB consumer GPU with 2k-token contexts, requiring no gradient checkpointing\textemdash conditions under which QLoRA exhausts memory. Beyond memory efficiency, we also establish scaling laws showing that LST scales similarly to QLoRA. We exploit Ladder's architectural flexibility by introducing xLadder, a depth-extended variant that increases effective depth via cross-connections and shortens chain-of-thought (CoT) at fixed parameter count. Ladder is strong when memory is the bottleneck; xLadder builds on this by enabling deeper reasoning without additional memory overhead.
- Abstract(参考訳): 細調整された大型言語モデル(LLM)は、しばしばコモディティGPUで利用可能なメモリによって制限される。
QLoRAのようなパラメータ効率のよい微細チューニング(PEFT)手法は、トレーニング可能なパラメータの数を減らすが、完全なモデルでの後方パスによって引き起こされるメモリ使用量が少なくなる。
軽量なサイドネットワークを付加するPEFT技術であるLadder Side Tuning (LST)を再検討し、ピークメモリを50%カットしながらQLoRAの計算スケーリングスロープと一致することを示す。
自然言語理解、数学的タスク、LLM批判タスクにまたがるさまざまなダウンストリームベンチマークにおいて、LSTはQLoRAの精度と平均的に競合する性能を持ち、メモリ効率ははるかに高い。
この効率は、QLoRAがメモリを消費する勾配チェックポイント\textemdash条件を必要とせず、単一の12GBのコンシューマGPU上で7Bパラメータモデルの微調整を可能にする。
また、メモリ効率以外にも、LSTがQLoRAと同様のスケールを示すスケーリング法則を定めています。
ラダーのアーキテクチャの柔軟性を生かしてxLadderを導入する。これは、相互接続による効果的な深度を高め、固定パラメータ数でチェーン・オブ・シント(CoT)を短縮する、奥行き拡張型である。
xLadderは、メモリオーバーヘッドを増やすことなく、より深い推論を可能にすることによって、この上に構築されている。
関連論文リスト
- SparseLoRA: Accelerating LLM Fine-Tuning with Contextual Sparsity [52.88892280536302]
SparseLoRAは,コンテキスト空間の空間的分散によって微調整を高速化する手法である。
SparseLoRAは計算コストを最大2.2倍、測定速度を最大1.6倍に削減する。
論文 参考訳(メタデータ) (2025-06-19T17:53:34Z) - Memory Layers at Scale [67.00854080570979]
この研究はメモリ層を概念実証以上のものにし、現代の規模でその有用性を証明している。
ダウンストリームタスクでは、改善されたメモリ層で強化された言語モデルは、予算の2倍以上の高密度モデルよりも優れており、計算とパラメータの両方にマッチする場合の熟練モデルの混合も優れている。
最大128Bのメモリパラメータを持つスケーリング法則を1兆トークンまで事前訓練し,最大8Bパラメータを持つベースモデルと比較した,完全な並列化可能なメモリレイヤの実装を提供する。
論文 参考訳(メタデータ) (2024-12-12T23:56:57Z) - Q-GaLore: Quantized GaLore with INT4 Projection and Layer-Adaptive Low-Rank Gradients [86.40635601953446]
量子化と低ランク投影を組み合わせることでメモリ使用量を大幅に削減する新しい手法であるQ-Galoreを導入する。
本稿では,Q-Galoreがメモリ効率に優れた競合性能を実現することを実証する。
論文 参考訳(メタデータ) (2024-07-11T08:42:58Z) - VeLoRA: Memory Efficient Training using Rank-1 Sub-Token Projections [35.133698935322634]
大規模言語モデル(LLM)は、最近、多くの言語処理タスクに対処するための強力なツールとして登場した。
勾配勾配勾配を用いた効率的なモデル収束に必要な重要な成分を同定し,特徴付ける。
この結果から, 微調整と事前学習の両方のための, 安価かつメモリ効率のよいアルゴリズムが得られた。
論文 参考訳(メタデータ) (2024-05-28T09:23:14Z) - Sparse Matrix in Large Language Model Fine-tuning [1.9874264019909988]
本稿では,PEFTとフル微調整性能の差を最小限に抑えるために,スパースサブ行列を選択する手法を提案する。
実験では,本手法が他のPEFTベースラインを一貫して上回ることを示した。
また,訓練可能なパラメータの数が増加するにつれて,LoRAとDoRAの性能が低下する傾向を示す。
論文 参考訳(メタデータ) (2024-05-24T13:12:14Z) - LoRAPrune: Structured Pruning Meets Low-Rank Parameter-Efficient Fine-Tuning [56.88751562302793]
低ランク適応 (LoRA) が大型言語モデル (LLM) に登場した。
LoRAPruneは、高度にメモリ効率の良い正確な構造化プルーンドモデルを提供する新しいフレームワークである。
LoRAPruneはWikiText2では4.81、TBでは3.46、メモリ使用量は52.6%減少している。
論文 参考訳(メタデータ) (2023-05-28T15:15:48Z) - LST: Ladder Side-Tuning for Parameter and Memory Efficient Transfer
Learning [82.93130407930762]
大規模な事前訓練されたモデルのパラメータセット全体を更新するのはコストがかかる。
PETL技術は、トレーニング済みのバックボーンネットワーク内のパラメータの小さなサブセットを更新して、新しいタスクを実行できる。
本稿では,学習用メモリの必要量を大幅に削減するPETL技術であるLadder Side-Tuning (LST)を提案する。
論文 参考訳(メタデータ) (2022-06-13T23:51:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。