論文の概要: Riemannian Preconditioned LoRA for Fine-Tuning Foundation Models
- arxiv url: http://arxiv.org/abs/2402.02347v2
- Date: Wed, 7 Feb 2024 06:17:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-08 11:57:30.736201
- Title: Riemannian Preconditioned LoRA for Fine-Tuning Foundation Models
- Title(参考訳): ファインチューニング基礎モデルのためのリーマン事前条件付きLORA
- Authors: Fangzhao Zhang, Mert Pilanci
- Abstract要約: 各ステップで$rtimes r$ preconditionerを導入します。
プレコンディショナーでは,SGDとAdamWの収束と信頼性を大幅に向上させることができる。
- 参考スコア(独自算出の注目度): 54.01594785269913
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work we study the enhancement of Low Rank Adaptation (LoRA)
fine-tuning procedure by introducing a Riemannian preconditioner in its
optimization step. Specifically, we introduce an $r\times r$ preconditioner in
each gradient step where $r$ is the LoRA rank. This preconditioner requires a
small change to existing optimizer code and creates virtually minuscule storage
and runtime overhead. Our experimental results with both large language models
and text-to-image diffusion models show that with our preconditioner, the
convergence and reliability of SGD and AdamW can be significantly enhanced.
Moreover, the training process becomes much more robust to hyperparameter
choices such as learning rate. Theoretically, we show that fine-tuning a
two-layer ReLU network in the convex paramaterization with our preconditioner
has convergence rate independent of condition number of the data matrix. This
new Riemannian preconditioner, previously explored in classic low-rank matrix
recovery, is introduced to deep learning tasks for the first time in our work.
We release our code at
https://github.com/pilancilab/Riemannian_Preconditioned_LoRA.
- Abstract(参考訳): 本研究では,Riemann プレコンディショナーを最適化ステップに導入することにより,ローランク適応(LoRA)微調整手順の強化について検討する。
具体的には、各勾配ステップに$r\times r$ preconditionerを導入し、$r$はLoRAランクである。
このプリコンディショナーは既存のオプティマイザコードに小さな変更を要し、事実上最小のストレージと実行時のオーバーヘッドを生成する。
大規模言語モデルとテキスト・画像拡散モデルの両方による実験結果から,SGDとAdamWの収束性と信頼性が著しく向上できることが示唆された。
さらに、トレーニングプロセスは、学習率などのハイパーパラメータ選択に対して、より堅牢になる。
理論的には、凸並列化における2層ReLUネットワークの微調整は、データ行列の条件数に依存しない収束率を持つことを示す。
この新しいリーマン型プリコンディショナーは、従来の低ランクマトリックスリカバリで研究され、我々の仕事で初めてディープラーニングタスクに導入されました。
コードをhttps://github.com/pilancilab/Riemannian_Preconditioned_LoRAでリリースします。
関連論文リスト
- ConvLoRA and AdaBN based Domain Adaptation via Self-Training [4.006331916849688]
マルチターゲットドメイン適応のための畳み込み低ランク適応(ConvLoRA)を提案する。
ConvLoRAはトレーニング済みのモデルウェイトを凍結し、畳み込み層にトレーニング可能な低ランク分解行列を追加し、勾配をバックプロパゲートする。
提案手法はトレーニング可能なパラメータを少なくし,大規模独立微調整ネットワークと同等あるいは同等に動作する。
論文 参考訳(メタデータ) (2024-02-07T15:43:50Z) - Curvature-Informed SGD via General Purpose Lie-Group Preconditioners [6.760212042305871]
曲率情報を利用して勾配降下(SGD)を加速する新しい手法を提案する。
提案手法は,行列フリープレコンディショナーと低ランクプレコンディショナーの2つのプレコンディショナーを含む。
プレコンディショニングされたSGD(PSGD)は、ビジョン、NLP、RLタスクにおいてSoTAよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-02-07T03:18:00Z) - Flora: Low-Rank Adapters Are Secretly Gradient Compressors [33.96967104979137]
低ランク適応(LoRA)は、少ないパラメータをトレーニングすることで最適化状態を低減するために提案される。
LoRAは全体の重量更新行列を低ランクに制限し、モデル性能を制限している。
本稿では,プロジェクション行列を再サンプリングすることで高階更新を実現する Flora を提案する。
論文 参考訳(メタデータ) (2024-02-05T18:50:39Z) - Sparse Low-rank Adaptation of Pre-trained Language Models [79.74094517030035]
本稿では,適応過程における固有ランクの動的調整を可能にする疎低ランク適応(SoRA)を提案する。
提案手法は,LoRAを高いランクで初期化すると同時に,一時的に増大するパラメータを効率的に利用することにより,LoRAの表現力を向上する。
実験の結果,SoRAは70%の保持パラメータと70%のトレーニング時間でも,他のベースラインよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-11-20T11:56:25Z) - Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of
Language Model [92.55145016562867]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。
我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文 参考訳(メタデータ) (2023-05-24T15:52:08Z) - A Stable, Fast, and Fully Automatic Learning Algorithm for Predictive
Coding Networks [65.34977803841007]
予測符号化ネットワークは、ベイズ統計学と神経科学の両方にルーツを持つ神経科学にインスパイアされたモデルである。
シナプス重みに対する更新規則の時間的スケジュールを変更するだけで、元の規則よりもずっと効率的で安定したアルゴリズムが得られることを示す。
論文 参考訳(メタデータ) (2022-11-16T00:11:04Z) - WARPd: A linearly convergent first-order method for inverse problems
with approximate sharpness conditions [0.0]
シャープネス条件は1次法のリスタートスキームのリカバリ性能を直接制御する。
重み付き, 加速度付き, 再起動されたプリマルデュアル(WARPd)の1次手法を提案する。
一般的な近似的シャープネス条件の下では、WARPd は所望のベクトルに対して安定な線形収束を達成する。
本稿では、WARPdが専門的な最先端手法と比較し、大規模問題の解決に最適であることを示す。
論文 参考訳(メタデータ) (2021-10-24T13:19:41Z) - Autoregressive Score Matching [113.4502004812927]
自動回帰条件スコアモデル(AR-CSM)を提案する。
AR-CSMモデルでは、このデータ分布とモデル分布のばらつきを効率的に計算し、最適化することができ、高価なサンプリングや対向訓練を必要としない。
本研究では,合成データに対する密度推定,画像生成,画像復調,暗黙エンコーダを用いた潜在変数モデルの訓練に応用できることを示す。
論文 参考訳(メタデータ) (2020-10-24T07:01:24Z) - Bayesian Sparse learning with preconditioned stochastic gradient MCMC
and its applications [5.660384137948734]
提案アルゴリズムは, 温和な条件下で, 制御可能なバイアスで正しい分布に収束する。
提案アルゴリズムは, 温和な条件下で, 制御可能なバイアスで正しい分布に収束可能であることを示す。
論文 参考訳(メタデータ) (2020-06-29T20:57:20Z) - A Generic Network Compression Framework for Sequential Recommender
Systems [71.81962915192022]
シークエンシャルレコメンデーションシステム(SRS)は,ユーザの動的関心を捉え,高品質なレコメンデーションを生成する上で重要な技術となっている。
CpRecと呼ばれる圧縮されたシーケンシャルレコメンデーションフレームワークを提案する。
大規模なアブレーション研究により、提案したCpRecは実世界のSRSデータセットにおいて最大4$sim$8倍の圧縮速度を達成できることを示した。
論文 参考訳(メタデータ) (2020-04-21T08:40:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。