論文の概要: PRoLoRA: Partial Rotation Empowers More Parameter-Efficient LoRA
- arxiv url: http://arxiv.org/abs/2402.16902v1
- Date: Sat, 24 Feb 2024 13:39:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-28 19:09:50.263692
- Title: PRoLoRA: Partial Rotation Empowers More Parameter-Efficient LoRA
- Title(参考訳): PRoLoRA: 部分回転によりパラメータ効率が良くなるLoRA
- Authors: Sheng Wang, Boyang Xue, Jiacheng Ye, Jiyue Jiang, Liheng Chen,
Lingpeng Kong, Chuan Wu
- Abstract要約: 部分回転付低ランク適応(PRoLoRA)を導入する。
PRoLoRAはその利点にかかわっており、ピアパラメータ共有手法の欠点を効果的に回避している。
実験によりPRoLoRAのパラメータ効率が著しく向上した。
- 参考スコア(独自算出の注目度): 47.660775783954605
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the rapid scaling of large language models (LLMs), serving numerous
LoRAs concurrently has become increasingly impractical, leading to unaffordable
costs and necessitating more parameter-efficient finetuning methods. In this
work, we introduce Partially Rotation-enhanced Low-Rank Adaptation (PRoLoRA),
an intra-layer sharing mechanism comprising four essential components:
broadcast reduction, rotation enhancement, partially-sharing refinement, and
rectified initialization strategy. As a superset of LoRA, PRoLoRA pertains its
advantages, and effectively circumvent the drawbacks of peer parameter-sharing
methods with superior model capacity, practical feasibility, and broad
applicability. Empirical experiments demonstrate the remarkably higher
parameter efficiency of PRoLoRA in both specific parameter budget and
performance target scenarios, and its scalability to larger LLMs. Notably, with
one time less trainable parameters, PRoLoRA still outperforms LoRA on multiple
instruction tuning datasets. Subsequently, an ablation study is conducted to
validate the necessity of individual components and highlight the superiority
of PRoLoRA over three potential variants. Hopefully, the conspicuously higher
parameter efficiency can establish PRoLoRA as a resource-friendly alternative
to LoRA.
- Abstract(参考訳): 大規模言語モデル(LLM)の急激なスケーリングにより、多数のLoRAが同時に機能するようになり、不用意なコストとよりパラメータ効率の良い微調整方法が必要になった。
本研究では,放送低減,回転強化,部分共有化,整流初期化戦略という4つの必須成分からなる層内共有機構である部分的ローランク適応(prolora)を導入する。
loraのスーパーセットとして、proloraはその利点を含み、より優れたモデルキャパシティ、実用性、幅広い適用性を持つピアパラメータ共有法の欠点を効果的に回避している。
実験により、特定のパラメータ予算と性能目標シナリオの両方において、PRoLoRAのパラメータ効率が著しく高く、より大きなLLMへのスケーラビリティを示す。
特に、トレーニング可能なパラメータが1回も少ないPRoLoRAは、複数の命令チューニングデータセットでLoRAを上回っている。
その後、個々の成分の必要性を検証し、3つの潜在的な変異体に対するプロロラの優位性を強調するアブレーション研究を行う。
好ましくは、パラメータ効率が著しく高ければ、PRoLoRAをLoRAに代わるリソースフレンドリーな代替品として確立できる。
関連論文リスト
- LoRA-Mini : Adaptation Matrices Decomposition and Selective Training [2.0670689746336]
Low-Rank Adaptation (LoRA)は、トレーニング可能なパラメータの数を減らし、パラメータ効率の良い微調整を可能にする、有望なソリューションとして登場した。
低ランク行列を4つに分割することでパラメータ効率を向上させるLoRAを最適化したLoRA-Miniを提案する。
このアプローチは、標準のLoRAに匹敵するパフォーマンスレベルを維持しながら、トレーニング可能なパラメータの数に対して、標準のLoRAと比較して最大20倍の削減を実現している。
論文 参考訳(メタデータ) (2024-11-24T12:21:14Z) - MALoRA: Mixture of Asymmetric Low-Rank Adaptation for Enhanced Multi-Task Learning [29.957620178740186]
マルチタスクのシナリオでは、トレーニングの不均衡やシーソー効果といった課題が頻繁に現れます。
フレキシブルな微調整フレームワークとして非対称低ランク適応(MALoRA)の混合を提案する。
MALoRAはトレーニング可能なパラメータの数を30%から48%削減し、トレーニング速度を1.2倍にし、シングルタスクのLoRAモデルの計算効率に匹敵する。
論文 参考訳(メタデータ) (2024-10-30T07:53:52Z) - LoRA Done RITE: Robust Invariant Transformation Equilibration for LoRA Optimization [78.93425154518705]
低ランク適応 (LoRA) は、メモリ要求を低減し、LLMのパラメータ効率の高い微調整法である。
本稿では,LoRA最適化のための適応行列プレコンディショニング手法であるLoRA-RITEを紹介する。
論文 参考訳(メタデータ) (2024-10-27T22:57:12Z) - Less is More: Extreme Gradient Boost Rank-1 Adaption for Efficient Finetuning of LLMs [75.11449420928139]
微調整型大規模言語モデル(LLM)は、訓練済みモデルを下流タスクに適応させる上で重要な技術となっている。
Low-Rank Adaptation (LoRA) は有望な解決法として登場したが、低ランク適応の実用性能と理論的最適性の間にはギャップがある。
本稿では,このギャップを埋める新しいフレームワークであるeXtreme Gradient Boosting LoRAを提案する。
論文 参考訳(メタデータ) (2024-10-25T17:07:13Z) - Randomized Asymmetric Chain of LoRA: The First Meaningful Theoretical Framework for Low-Rank Adaptation [58.288682735160585]
Low-Rank Adaptation (LoRA) は、ファインチューニングモデルの一般的なテクニックである。
LoRAは、フルパラメータの微調整と比較すると、しばしば実行されます。
本稿では,LoRA手法の適応率を厳密に分析するフレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-10T18:51:53Z) - Unlocking the Global Synergies in Low-Rank Adapters [20.32980343066711]
低ランク適応(LoRA)は、大規模言語モデルのためのデファクトパラメータ効率の高い微調整技術である。
本稿では、ゼロコストプロキシを利用して限られたLoRAトレーニングパラメータを割り当てる軽量探索アルゴリズムであるHeteroLoRAを提案する。
実験の結果、HeteroLoRAは同じパラメータのバッジでモデルパフォーマンスを改善することができることがわかった。
論文 参考訳(メタデータ) (2024-06-21T08:10:03Z) - ShareLoRA: Parameter Efficient and Robust Large Language Model Fine-tuning via Shared Low-Rank Adaptation [4.07532985236519]
本研究では,共有低ランク適応(ShareLoRA)を実装することにより,事前学習言語モデル(PLM)に対するPEFT(Efficient Fine Tuning)の最適化手法を提案する。
異なるレイヤにShareLoRAを戦略的にデプロイし、それを自己アテンションレイヤのクエリ、キー、バリューコンポーネントに適用することにより、トレーニングパラメータの数とメモリ使用量を大幅に削減します。
この結果から、ShareLoRAはパラメータ効率を効果的に向上し、異なる言語モデルアーキテクチャにおけるスケーラブルで高品質な性能を確保します。
論文 参考訳(メタデータ) (2024-06-16T02:52:28Z) - MELoRA: Mini-Ensemble Low-Rank Adapters for Parameter-Efficient Fine-Tuning [71.50432879573614]
低ランク適応 (LoRA) は、適応過程が本質的に低次元であるという考えに基づいている。
我々は、より高階を維持しながらトレーニング可能なパラメータを少なくするミニアンサンブルな低ランクアダプタMELoRAを提案する。
実験結果から, 自然言語理解タスクの8倍のトレーニングパラメータ, 続くタスクの36倍のトレーニングパラメータが得られた。
論文 参考訳(メタデータ) (2024-02-27T07:14:12Z) - Sparse Low-rank Adaptation of Pre-trained Language Models [79.74094517030035]
本稿では,適応過程における固有ランクの動的調整を可能にする疎低ランク適応(SoRA)を提案する。
提案手法は,LoRAを高いランクで初期化すると同時に,一時的に増大するパラメータを効率的に利用することにより,LoRAの表現力を向上する。
実験の結果,SoRAは70%の保持パラメータと70%のトレーニング時間でも,他のベースラインよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-11-20T11:56:25Z) - Tied-Lora: Enhancing parameter efficiency of LoRA with weight tying [6.172790376076545]
低ランク適応(LoRA)のパラメータ効率を高めるために、ウェイトタイリングと選択的トレーニングを活用する新しいパラダイムであるTied-LoRAを導入する。
本稿では,パラメータトレーニングと凍結,およびウェイトタイリングを併用して,パラメータの最適トレードオフとトレーニング可能なパラメータの数を推定する。
論文 参考訳(メタデータ) (2023-11-16T05:29:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。