論文の概要: Sparse High Rank Adapters
- arxiv url: http://arxiv.org/abs/2406.13175v1
- Date: Wed, 19 Jun 2024 03:13:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-21 23:28:56.400609
- Title: Sparse High Rank Adapters
- Title(参考訳): Sparse High Rank Adapters
- Authors: Kartikeya Bhardwaj, Nilesh Prasad Pandey, Sweta Priyadarshi, Viswanath Ganapathy, Rafael Esteves, Shreya Kadambi, Shubhankar Borse, Paul Whatmough, Risheek Garrepalli, Mart Van Baalen, Harris Teague, Markus Nagel,
- Abstract要約: ローランク適応(LoRA)は、最近の生成AI研究で大きな注目を集めている。
提案するSparse High Rank Adapters (SHiRA) は,推論オーバーヘッドを伴わず,高速な切り替えが可能で,概念の損失を大幅に低減する新しいパラダイムである。
- 参考スコア(独自算出の注目度): 16.160749645651567
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Low Rank Adaptation (LoRA) has gained massive attention in the recent generative AI research. One of the main advantages of LoRA is its ability to be fused with pretrained models adding no overhead during inference. However, from a mobile deployment standpoint, we can either avoid inference overhead in the fused mode but lose the ability to switch adapters rapidly, or suffer significant (up to 30% higher) inference latency while enabling rapid switching in the unfused mode. LoRA also exhibits concept-loss when multiple adapters are used concurrently. In this paper, we propose Sparse High Rank Adapters (SHiRA), a new paradigm which incurs no inference overhead, enables rapid switching, and significantly reduces concept-loss. Specifically, SHiRA can be trained by directly tuning only 1-2% of the base model weights while leaving others unchanged. This results in a highly sparse adapter which can be switched directly in the fused mode. We further provide theoretical and empirical insights on how high sparsity in SHiRA can aid multi-adapter fusion by reducing concept loss. Our extensive experiments on LVMs and LLMs demonstrate that finetuning only a small fraction of the parameters in the base model is sufficient for many tasks while enabling both rapid switching and multi-adapter fusion. Finally, we provide a latency- and memory-efficient SHiRA implementation based on Parameter-Efficient Finetuning (PEFT) Library. This implementation trains at nearly the same speed as LoRA while consuming lower peak GPU memory, thus making SHiRA easy to adopt for practical use cases.
- Abstract(参考訳): ローランク適応(LoRA)は、最近の生成AI研究で大きな注目を集めている。
LoRAの主な利点の1つは、推論中にオーバーヘッドを伴わない事前訓練されたモデルと融合できることである。
しかし、モバイルデプロイメントの観点からは、フューズモードでの推論オーバーヘッドを回避できるが、アダプタを迅速に切り替える能力を失うか、未使用モードでの迅速な切り替えを可能にしながら、かなりの(最大30%の)推論遅延に悩まされる可能性がある。
LoRAはまた、複数のアダプタが同時に使用される場合にもコンセプトロスを示す。
本稿では,Sparse High Rank Adapters (SHiRA)を提案する。
具体的には、SHiRAはベースモデルの重量の1-2%を直接調整し、他は変更せずにトレーニングすることができる。
これにより、高度にスパースなアダプタが、融合モードで直接切り替えられるようになる。
さらに、SHiRAの高空間空間が、概念損失を減らすことで、マルチアダプタ融合に役立つかという理論的および実証的な知見を提供する。
LVM と LLM に関する広範な実験により,高速切換とマルチアダプタ融合を両立しながら,基本モデルのパラメータのごく一部のみを微調整することは,多くのタスクに十分であることが示された。
最後に,パラメータ効率の良いファインタニング(PEFT)ライブラリに基づく,レイテンシとメモリ効率のよいSHiRA実装を提案する。
この実装は、低ピークのGPUメモリを消費しながら、LoRAとほぼ同じ速度でトレーニングする。
関連論文リスト
- SLIM: Let LLM Learn More and Forget Less with Soft LoRA and Identity Mixture [7.543093479330315]
下流タスクのためのモデル全体のトレーニングは費用がかかるため、破滅的な忘れ忘れをしがちです。
我々は,Soft LoRA と Identity Mixture (SLIM) をベースとした,新たな専門家(MoE) フレームワークを提案する。
SLIMはLoRAアダプタとスキップ接続間の動的ルーティングを可能にし、忘れの抑制を可能にする。
論文 参考訳(メタデータ) (2024-10-10T09:16:05Z) - Rapid Switching and Multi-Adapter Fusion via Sparse High Rank Adapters [16.160749645651567]
本稿では,標準モデルの重量の1-2%を直接微調整し,その他をそのまま残すSparse High Rank Adapters (SHiRA)を提案する。
この高分散性は、推論オーバーヘッドを発生させることなく、融合モードで直接切り替えることを可能にし、マルチアダプタ融合時の概念損失を著しく低減する。
論文 参考訳(メタデータ) (2024-07-22T22:46:36Z) - SwitchLoRA: Switched Low-Rank Adaptation Can Learn Full-Rank Information [3.6859322366469933]
SwitchLoRAはパラメータ効率のトレーニング手法で、LoRAのトレーニング可能なパラメータを代替パラメータに頻繁にスムーズに置き換える。
以上の結果から,SwitchLoRAはフルランクトレーニングを上回っていることがわかった。
論文 参考訳(メタデータ) (2024-06-03T05:40:34Z) - ResLoRA: Identity Residual Mapping in Low-Rank Adaption [96.59370314485074]
低ランク適応(LoRA)の改良フレームワークであるResLoRAを提案する。
提案手法は,LoRAと比較してトレーニング可能なパラメータや推論コストを必要とせずに,より少ないトレーニングステップでより良い結果を得ることができる。
NLG,NLU,テキスト・ツー・イメージタスクの実験により,本手法の有効性が示された。
論文 参考訳(メタデータ) (2024-02-28T04:33:20Z) - MELoRA: Mini-Ensemble Low-Rank Adapters for Parameter-Efficient Fine-Tuning [71.50432879573614]
低ランク適応 (LoRA) は、適応過程が本質的に低次元であるという考えに基づいている。
我々は、より高階を維持しながらトレーニング可能なパラメータを少なくするミニアンサンブルな低ランクアダプタMELoRAを提案する。
実験結果から, 自然言語理解タスクの8倍のトレーニングパラメータ, 続くタスクの36倍のトレーニングパラメータが得られた。
論文 参考訳(メタデータ) (2024-02-27T07:14:12Z) - DoRA: Weight-Decomposed Low-Rank Adaptation [57.68678247436207]
本稿では,FTとLoRAの相違点を明らかにするために,新しい重み分解解析法を提案する。
本研究は、FTの学習能力に類似することを目的として、重量分解低ランク適応(DoRA)を提案する。
DoRAは、事前訓練された重量を、微調整のための大きさと方向の2つの構成要素に分解する。
論文 参考訳(メタデータ) (2024-02-14T17:59:34Z) - Run LoRA Run: Faster and Lighter LoRA Implementations [50.347242693025336]
LoRAは、線形層に低ランクアダプタを導入することにより、ニューラルネットワーク内のトレーニング可能なパラメータの数を減らすテクニックである。
本稿では,LoRAの効率的な実装のためのRunLoRAフレームワークを提案する。
実験は、言語モデリングネットワーク上で最大28%のスピードアップを示す。
論文 参考訳(メタデータ) (2023-12-06T10:54:34Z) - A Rank Stabilization Scaling Factor for Fine-Tuning with LoRA [0.7252027234425334]
PEFTの一般的な手法はLoRA(Lo-Rank Adapters)であり、選択した層にトレーニング可能な低ランクの"アダプタ"を追加する。
このスケーリング係数は、アダプタをランクの要素で分割するので、ローラの学習が遅くなり、上位のアダプタでスタントのパフォーマンスが低下する。
我々はLoRAを適切なスケーリング係数で修正し、微調整の計算/性能トレードオフを容易に提供します。
論文 参考訳(メタデータ) (2023-11-28T03:23:20Z) - Sparse Low-rank Adaptation of Pre-trained Language Models [79.74094517030035]
本稿では,適応過程における固有ランクの動的調整を可能にする疎低ランク適応(SoRA)を提案する。
提案手法は,LoRAを高いランクで初期化すると同時に,一時的に増大するパラメータを効率的に利用することにより,LoRAの表現力を向上する。
実験の結果,SoRAは70%の保持パラメータと70%のトレーニング時間でも,他のベースラインよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-11-20T11:56:25Z) - S-LoRA: Serving Thousands of Concurrent LoRA Adapters [59.490751234925206]
パラメータ効率のよい微調整法であるLoRA(Lo-Rank Adaptation)は、ベースモデルを複数のタスクに適応させるためによく用いられる。
本稿では,多数のLoRAアダプタのスケーラブルな提供を目的としたシステムであるS-LoRAを提案する。
論文 参考訳(メタデータ) (2023-11-06T17:26:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。