論文の概要: Sparse Low-rank Adaptation of Pre-trained Language Models
- arxiv url: http://arxiv.org/abs/2311.11696v1
- Date: Mon, 20 Nov 2023 11:56:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-21 19:05:31.982971
- Title: Sparse Low-rank Adaptation of Pre-trained Language Models
- Title(参考訳): 事前学習言語モデルの疎低ランク適応
- Authors: Ning Ding, Xingtai Lv, Qiaosen Wang, Yulin Chen, Bowen Zhou, Zhiyuan
Liu, Maosong Sun
- Abstract要約: 本稿では,適応過程における固有ランクの動的調整を可能にする疎低ランク適応(SoRA)を提案する。
提案手法は,LoRAを高いランクで初期化すると同時に,一時的に増大するパラメータを効率的に利用することにより,LoRAの表現力を向上する。
実験の結果,SoRAは70%の保持パラメータと70%のトレーニング時間でも,他のベースラインよりも優れていることがわかった。
- 参考スコア(独自算出の注目度): 79.74094517030035
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Fine-tuning pre-trained large language models in a parameter-efficient manner
is widely studied for its effectiveness and efficiency. The popular method of
low-rank adaptation (LoRA) offers a notable approach, hypothesizing that the
adaptation process is intrinsically low-dimensional. Although LoRA has
demonstrated commendable performance, it is implemented with a fixed and
unalterable intrinsic rank that might not always be the ideal choice.
Recognizing the need for more flexible adaptation, we extend the methodology of
LoRA to an innovative approach we call sparse low-rank adaptation (SoRA) that
enables dynamic adjustments to the intrinsic rank during the adaptation
process. We achieve this through the incorporation of a gate unit optimized
with proximal gradient method in the training stage, controlling the
cardinality of rank under the sparsity of the gate. In the subsequent inference
stage, we eliminate the parameter blocks corresponding to the zeroed-out ranks,
to reduce each SoRA module back to a concise yet rank-optimal LoRA. Our
approach strengthens the representation power of LoRA by initializing it with a
higher rank, while efficiently taming a temporarily increased number of
parameters via updating in a sparse way. We further introduce a sparsifying
scheduler for SoRA, aiming to examine the impact of the number of non-zero
parameters on the model's memorization and generalization. Our experimental
results demonstrate that SoRA can outperform other baselines even with 70%
retained parameters and 70% training time.
- Abstract(参考訳): パラメータ効率の高い学習済み大規模言語モデルの有効性と効率性について検討した。
ローランク適応法(LoRA)は、適応過程が本質的に低次元であることを仮定して、顕著なアプローチを提供する。
LoRAは賞賛できる性能を示してきたが、常に理想的な選択ではないような、固定的で変更不可能な固有のランクで実装されている。
より柔軟な適応の必要性を認識し、loraの方法論をsparse low-rank adaptation(sora)と呼ぶ、適応プロセス中に内在的なランクを動的に調整する革新的なアプローチに拡張します。
学習段階において近位勾配法を最適化したゲートユニットを組み込むことにより,ゲートのスパース性の下でランクの濃度を制御する。
その後の推論段階では、ゼロアウトのランクに対応するパラメータブロックを排除し、それぞれのSoRAモジュールを簡潔で最適のLoRAに還元する。
提案手法はloraの表現力を高階に初期化し,スパース方式で更新することで一時的に増加するパラメータ数を効率的に変更することで強化する。
さらに,モデルの記憶と一般化における非ゼロパラメータ数の影響を調べることを目的とした,soraのスペア化スケジューラについても紹介する。
実験の結果,70%のパラメータと70%のトレーニング時間でsoraが他のベースラインを上回ることが判明した。
関連論文リスト
- ResLoRA: Identity Residual Mapping in Low-Rank Adaption [96.59370314485074]
低ランク適応(LoRA)の改良フレームワークであるResLoRAを提案する。
提案手法は,LoRAと比較してトレーニング可能なパラメータや推論コストを必要とせずに,より少ないトレーニングステップでより良い結果を得ることができる。
NLG,NLU,テキスト・ツー・イメージタスクの実験により,本手法の有効性が示された。
論文 参考訳(メタデータ) (2024-02-28T04:33:20Z) - Mini-Ensemble Low-Rank Adapters for Parameter-Efficient Fine-Tuning [74.58403497789422]
低ランク適応 (LoRA) は、適応過程が本質的に低次元であるという考えに基づいている。
我々は、より高階を維持しながらトレーニング可能なパラメータを少なくするミニアンサンブルな低ランクアダプタMELoRAを提案する。
実験結果から, 自然言語理解タスクの8倍のトレーニングパラメータ, 続くタスクの36倍のトレーニングパラメータが得られた。
論文 参考訳(メタデータ) (2024-02-27T07:14:12Z) - Flora: Low-Rank Adapters Are Secretly Gradient Compressors [33.96967104979137]
低ランク適応(LoRA)は、少ないパラメータをトレーニングすることで最適化状態を低減するために提案される。
LoRAは全体の重量更新行列を低ランクに制限し、モデル性能を制限している。
本稿では,プロジェクション行列を再サンプリングすることで高階更新を実現する Flora を提案する。
論文 参考訳(メタデータ) (2024-02-05T18:50:39Z) - PRILoRA: Pruned and Rank-Increasing Low-Rank Adaptation [65.268245109828]
我々はPRILoRAを導入し、各層ごとに異なるランクを線形に割り当て、トレーニングプロセスを通してプルーニングを行う。
8つのGLUEベンチマークで広範な実験を行い,PRILoRAの有効性を検証する。
論文 参考訳(メタデータ) (2024-01-20T20:25:17Z) - Investigating Training Strategies and Model Robustness of Low-Rank
Adaptation for Language Modeling in Speech Recognition [27.515920408920216]
フリーズドプレトレーニング言語モデル(PLM)を用いたローランク適応(LoRA)は、メモリ制約ハードウェアのための資源効率の高いモデリング手法である。
本研究では,様々なLoRAトレーニング戦略を導入することにより,モデル性能を向上させる方法について検討する。
LoRAに基づく第2パス音声認識モデルの安定性をさらに評価するため,入力摂動に対する検討を行った。
論文 参考訳(メタデータ) (2024-01-19T01:30:16Z) - IncreLoRA: Incremental Parameter Allocation Method for
Parameter-Efficient Fine-tuning [15.964205804768163]
IncreLoRAは、トレーニング中にトレーニング可能なパラメータを適応的に追加するインクリメンタルパラメータ割り当て手法である。
我々は,IncreLoRAの有効性を示すため,GLUEの広範な実験を行った。
論文 参考訳(メタデータ) (2023-08-23T10:08:10Z) - AdaLoRA: Adaptive Budget Allocation for Parameter-Efficient Fine-Tuning [143.23123791557245]
下流タスクで訓練済みの大規模言語モデルを微調整することは、NLPにおいて重要なパラダイムとなっている。
重み行列のパラメータ予算をその重要度に応じて適応的に割り当てるAdaLoRAを提案する。
我々は,AdaLoRAの有効性を検証するために,自然言語処理,質問応答,自然言語生成に関する事前学習モデルを用いた広範囲な実験を行った。
論文 参考訳(メタデータ) (2023-03-18T22:36:25Z) - Low-Precision Reinforcement Learning [63.930246183244705]
教師付き学習における計算時間、メモリフットプリント、エネルギー消費を減らすために、低精度トレーニングが一般的なアプローチになっている。
本稿では,最先端のsacエージェントを用いた継続的制御について検討し,教師あり学習による低精度適応が失敗することを実証する。
論文 参考訳(メタデータ) (2021-02-26T16:16:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。