論文の概要: Memory-Efficient LLM Training with Online Subspace Descent
- arxiv url: http://arxiv.org/abs/2408.12857v1
- Date: Fri, 23 Aug 2024 05:54:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-26 15:59:33.657537
- Title: Memory-Efficient LLM Training with Online Subspace Descent
- Title(参考訳): オンラインサブスペース Descent を用いたメモリ効率の良い LLM トレーニング
- Authors: Kaizhao Liang, Bo Liu, Lizhang Chen, Qiang Liu,
- Abstract要約: 特異値分解を伴わない新しいサブスペース降下系である Online Subspace Descent を提案する。
Online Subspace Descentは柔軟性があり、トレーニングに最小限のオーバーヘッドしか導入しない。
C4データセット上の60Mから7BパラメータのLLaMAモデルを事前学習するタスクにおいて、オンラインサブスペースDescentは低いパープレキシティと下流タスクのパフォーマンス向上を実現する。
- 参考スコア(独自算出の注目度): 8.393403749426097
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, a wide range of memory-efficient LLM training algorithms have gained substantial popularity. These methods leverage the low-rank structure of gradients to project optimizer states into a subspace using projection matrix found by singular value decomposition (SVD). However, convergence of these algorithms is highly dependent on the update rules of their projection matrix. In this work, we provide the \emph{first} convergence guarantee for arbitrary update rules of projection matrix. This guarantee is generally applicable to optimizers that can be analyzed with Hamiltonian Descent, including most common ones, such as LION, Adam. Inspired by our theoretical understanding, we propose Online Subspace Descent, a new family of subspace descent optimizer without SVD. Instead of updating the projection matrix with eigenvectors, Online Subspace Descent updates the projection matrix with online PCA. Online Subspace Descent is flexible and introduces only minimum overhead to training. We show that for the task of pretraining LLaMA models ranging from 60M to 7B parameters on the C4 dataset, Online Subspace Descent achieves lower perplexity and better downstream tasks performance than state-of-the-art low-rank training methods across different settings and narrows the gap with full-rank baselines.
- Abstract(参考訳): 近年,メモリ効率のよいLLMトレーニングアルゴリズムが広く普及している。
これらの手法は勾配の低ランク構造を利用して、特異値分解(SVD)によって発見された射影行列を用いて、最適化状態が部分空間に射影される。
しかし、これらのアルゴリズムの収束はプロジェクション行列の更新規則に大きく依存している。
本研究では、射影行列の任意の更新規則に対して \emph{first} 収束保証を与える。
この保証は一般的に、LIONやAdamといった一般的なものを含むハミルトンのDescentで分析できる最適化器に適用できる。
理論的な理解から着想を得て,SVDのない新しいサブスペース降下オプティマイザである Online Subspace Descent を提案する。
プロジェクションマトリックスを固有ベクトルで更新する代わりに、Online Subspace DescentはプロジェクションマトリックスをオンラインPCAで更新する。
Online Subspace Descentは柔軟性があり、トレーニングに最小限のオーバーヘッドしか導入しない。
C4 データセット上で 60M から 7B までの LLaMA モデルを事前訓練するタスクにおいて,オンラインサブスペース Descent は様々な設定で最先端の低ランクトレーニング手法よりも低いパープレキシティとダウンストリームタスク性能を実現し,そのギャップをフルランクベースラインで狭めることを示す。
関連論文リスト
- Efficient Adaptation of Pre-trained Vision Transformer via Householder Transformation [53.88562288388169]
一般的な戦略である。
事前訓練された視覚変換器(ViT)のPEFT(Efficient Fine-Tuning)は、下流タスクにモデルを適応させる。
適応行列を表現するために,Singular Value Decomposition (SVD) にインスパイアされた新しいPEFT手法を提案する。
SVDは行列を左ユニタリ行列、スケーリング値の対角行列、右ユニタリ行列の積に分解する。
論文 参考訳(メタデータ) (2024-10-30T12:08:30Z) - Zeroth-Order Fine-Tuning of LLMs in Random Subspaces [66.27334633749734]
言語モデルのサイズが大きくなるにつれて、バックプロパゲーションに対するメモリ要求が増加する。
Zeroth-order (ZOZO) 最適化手法はメモリ効率の代替手段を提供する。
本稿では,SubZeroがファインチューニングを強化し,通常のZOZO手法と比較して高速な結果が得られることを示す。
論文 参考訳(メタデータ) (2024-10-11T17:01:43Z) - From GaLore to WeLore: How Low-Rank Weights Non-uniformly Emerge from Low-Rank Gradients [86.40635601953446]
現代大規模言語モデルの様々な層にまたがる低ランク構造の出現について検討する。
WeLore(Weight Low-Rank Projection)を提案する。
論文 参考訳(メタデータ) (2024-07-15T21:05:20Z) - Bypass Back-propagation: Optimization-based Structural Pruning for Large Language Models via Policy Gradient [57.9629676017527]
大規模言語モデルを用いた最適化に基づく構造解析手法を提案する。
我々は,プルーニングモデルの損失を最適化することにより,確率空間におけるプルーニングマスクを直接学習する。
A100 GPUで13Bモデルに対して約35GBのメモリで2.7時間動作させる。
論文 参考訳(メタデータ) (2024-06-15T09:31:03Z) - MiLoRA: Harnessing Minor Singular Components for Parameter-Efficient LLM Finetuning [16.67302585857681]
重み行列の小さな特異成分のみを更新する単純なLLM微調整手法であるMiLoRAを提案する。
主行列は重要な知識を含むのに対し、マイナー行列はノイズ情報またはロングテール情報に対応することが観察された。
微調整の間、MiLoRAはラベル付きデータセットを学習するために最適化されていないサブスペースを最大限に活用する。
論文 参考訳(メタデータ) (2024-06-13T12:30:02Z) - Dynamic Sparse No Training: Training-Free Fine-tuning for Sparse LLMs [67.38165028487242]
そこで我々は,DSnoT(Dynamic Sparse No Training, 動的スパース・ノー・トレーニング)を導入した。
動的スパーストレーニングにインスパイアされたDSnoTは、密度とスパースLLM間の再構成誤差を最小限に抑える。
本稿は, LLMのスパースを, 効率的なトレーニング自由な方法で微調整し, 新たな会場をオープンして, LLMの空間性に大きな可能性を拡大する方法について, 新たな知見を提供する。
論文 参考訳(メタデータ) (2023-10-13T07:38:52Z) - Mode-wise Principal Subspace Pursuit and Matrix Spiked Covariance Model [13.082805815235975]
行列データに対して行次元と列次元の両方に隠れたバリエーションを抽出するために,モードワイド・プリンシパル・サブスペース・スーツ (MOP-UP) と呼ばれる新しいフレームワークを導入する。
提案フレームワークの有効性と実用性は、シミュレーションと実データの両方の実験を通して実証される。
論文 参考訳(メタデータ) (2023-07-02T13:59:47Z) - Unfolding Projection-free SDP Relaxation of Binary Graph Classifier via
GDPA Linearization [59.87663954467815]
アルゴリズムの展開は、モデルベースのアルゴリズムの各イテレーションをニューラルネットワーク層として実装することにより、解釈可能で類似のニューラルネットワークアーキテクチャを生成する。
本稿では、Gershgorin disc perfect alignment (GDPA)と呼ばれる最近の線形代数定理を利用して、二進グラフの半定値プログラミング緩和(SDR)のためのプロジェクションフリーアルゴリズムをアンロールする。
実験結果から,我々の未学習ネットワークは純粋モデルベースグラフ分類器よりも優れ,純粋データ駆動ネットワークに匹敵する性能を示したが,パラメータははるかに少なかった。
論文 参考訳(メタデータ) (2021-09-10T07:01:15Z) - Online high rank matrix completion [39.570686604641836]
行列補完の最近の進歩は、低次元(非線形)潜在構造を利用して、フルランク行列におけるデータ計算を可能にする。
我々は,高階行列補完のための新しいモデルと,そのモデルとサンプル外拡張に適合するバッチおよびオンライン手法を開発した。
論文 参考訳(メタデータ) (2020-02-20T18:31:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。