論文の概要: One-for-All: Generalized LoRA for Parameter-Efficient Fine-tuning
- arxiv url: http://arxiv.org/abs/2306.07967v2
- Date: Mon, 16 Oct 2023 15:52:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-17 23:07:09.833277
- Title: One-for-All: Generalized LoRA for Parameter-Efficient Fine-tuning
- Title(参考訳): 一対一:パラメータ効率の良い微調整のための一般化LORA
- Authors: Arnav Chavan and Zhuang Liu and Deepak Gupta and Eric Xing and
Zhiqiang Shen
- Abstract要約: Generalized LoRA (GLoRA) は、汎用パラメータ効率の微調整タスクのための先進的なアプローチである。
一般化されたプロンプトモジュールを使用して、事前訓練されたモデルの重量を最適化し、中間活性化を調整する。
GLoRAは、強力な転送学習、少数ショット学習、ドメイン一般化能力を示す。
- 参考スコア(独自算出の注目度): 34.109808214968176
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present Generalized LoRA (GLoRA), an advanced approach for universal
parameter-efficient fine-tuning tasks. Enhancing Low-Rank Adaptation (LoRA),
GLoRA employs a generalized prompt module to optimize pre-trained model weights
and adjust intermediate activations, providing more flexibility and capability
across diverse tasks and datasets. Moreover, GLoRA facilitates efficient
parameter adaptation by employing a scalable, modular, layer-wise structure
search that learns individual adapter of each layer. Originating from a unified
mathematical formulation, GLoRA exhibits strong transfer learning, few-shot
learning and domain generalization abilities, as it adapts to new tasks through
not only weights but also additional dimensions like activations. Comprehensive
experiments demonstrate that GLoRA outperforms all previous methods in natural,
specialized, and structured vision benchmarks, achieving superior accuracy with
fewer parameters and computations. The proposed method on LLaMA-1 and LLaMA-2
also show considerable enhancements compared to the original LoRA in the
language domain. Furthermore, our structural re-parameterization design ensures
that GLoRA incurs no extra inference cost, rendering it a practical solution
for resource-limited applications. Code and models are available at:
https://github.com/Arnav0400/ViT-Slim/tree/master/GLoRA.
- Abstract(参考訳): 汎用LoRA (GLoRA) は, パラメータ効率の高い微調整タスクのための高度な手法である。
低ランク適応(lora)の強化 gloraは、事前トレーニングされたモデル重みを最適化し、中間アクティベーションを調整し、さまざまなタスクやデータセットにまたがる柔軟性と能力を提供する、汎用的なプロンプトモジュールを採用している。
さらにgloraは、各レイヤのアダプタを個別に学習するスケーラブルでモジュール性のある階層構造探索を使用することで、効率的なパラメータ適応を促進する。
統一数学的定式化から派生したgloraは、重みだけでなくアクティベーションのような追加次元によって新しいタスクに適応するため、強い転送学習、少数ショット学習、ドメイン一般化能力を示す。
包括的な実験により、gloraは従来の全ての手法を自然、特殊、構造化した視覚ベンチマークで上回り、より少ないパラメータと計算で優れた精度を達成することが示されている。
LLaMA-1 と LLaMA-2 の手法も言語領域のオリジナルの LoRA と比較して大幅に拡張された。
さらに、構造的再パラメータ化設計により、GLoRAが余分な推論コストを発生させないことが保証され、リソース制限されたアプリケーションに実用的なソリューションとなる。
コードとモデルは、https://github.com/Arnav0400/ViT-Slim/tree/master/GLoRAで入手できる。
関連論文リスト
- LISA: Layerwise Importance Sampling for Memory-Efficient Large Language Model Fine-Tuning [31.088229461632206]
微調整作業におけるローランド適応 (LoRA) の層間特性について検討し, 異なる層にまたがる重みノルムの非一般的な歪さを観察する。
私たちはLayerwise Importance Sampled AdamW (LISA)と名付けました。
論文 参考訳(メタデータ) (2024-03-26T17:55:02Z) - ALoRA: Allocating Low-Rank Adaptation for Fine-tuning Large Language Models [8.251547772610301]
低ランク適応 (LoRA) の方法論を、低ランク適応 (AloRA) と呼ぶ革新的なアプローチに拡張する。
まず,各ランクの重要度を効果的に推定できる新しい手法であるAB-LoRAを提案する。
第2に、AB-LoRAによって導かれ、我々は徐々にLoRAのランクに多く負の影響を及ぼし、高いランクを必要とする重要なトランスフォーマーモジュールにローラの予算を割り当てる。
論文 参考訳(メタデータ) (2024-03-24T15:09:55Z) - Mini-Ensemble Low-Rank Adapters for Parameter-Efficient Fine-Tuning [74.58403497789422]
低ランク適応 (LoRA) は、適応過程が本質的に低次元であるという考えに基づいている。
我々は、より高階を維持しながらトレーニング可能なパラメータを少なくするミニアンサンブルな低ランクアダプタMELoRAを提案する。
実験結果から, 自然言語理解タスクの8倍のトレーニングパラメータ, 続くタスクの36倍のトレーニングパラメータが得られた。
論文 参考訳(メタデータ) (2024-02-27T07:14:12Z) - PRILoRA: Pruned and Rank-Increasing Low-Rank Adaptation [65.268245109828]
我々はPRILoRAを導入し、各層ごとに異なるランクを線形に割り当て、トレーニングプロセスを通してプルーニングを行う。
8つのGLUEベンチマークで広範な実験を行い,PRILoRAの有効性を検証する。
論文 参考訳(メタデータ) (2024-01-20T20:25:17Z) - Chain of LoRA: Efficient Fine-tuning of Language Models via Residual
Learning [31.036465632204663]
本稿では,Frank-Wolfeアルゴリズムにインスパイアされた反復最適化フレームワークであるLoRAのChainを紹介する。
計算コストやメモリコストを増大させることなく,COLA が LoRA を一貫して上回ることを示す。
論文 参考訳(メタデータ) (2024-01-08T14:26:49Z) - Sparse Low-rank Adaptation of Pre-trained Language Models [79.74094517030035]
本稿では,適応過程における固有ランクの動的調整を可能にする疎低ランク適応(SoRA)を提案する。
提案手法は,LoRAを高いランクで初期化すると同時に,一時的に増大するパラメータを効率的に利用することにより,LoRAの表現力を向上する。
実験の結果,SoRAは70%の保持パラメータと70%のトレーニング時間でも,他のベースラインよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-11-20T11:56:25Z) - MultiLoRA: Democratizing LoRA for Better Multi-Task Learning [20.750808913757396]
LoRAは、特定のタスクにLLMを適用する際に、顕著なリソース効率と同等のパフォーマンスを達成する。
LoRAは少数のトップ特異ベクトルに支配され、微調整はより重要でないユニタリ変換の集合に分解される。
我々は,LoRAで観測されるトップ特異ベクトルの優位性を低減し,マルチタスク適応性を向上するMultiLoRAを提案する。
論文 参考訳(メタデータ) (2023-11-20T02:59:18Z) - Scaling Pre-trained Language Models to Deeper via Parameter-efficient
Architecture [68.13678918660872]
行列積演算子(MPO)に基づくより有能なパラメータ共有アーキテクチャを設計する。
MPO分解はパラメータ行列の情報を再編成し、2つの部分に分解することができる。
私たちのアーキテクチャは、モデルのサイズを減らすために、すべてのレイヤで中央テンソルを共有しています。
論文 参考訳(メタデータ) (2023-03-27T02:34:09Z) - AdaLoRA: Adaptive Budget Allocation for Parameter-Efficient Fine-Tuning [143.23123791557245]
下流タスクで訓練済みの大規模言語モデルを微調整することは、NLPにおいて重要なパラダイムとなっている。
重み行列のパラメータ予算をその重要度に応じて適応的に割り当てるAdaLoRAを提案する。
我々は,AdaLoRAの有効性を検証するために,自然言語処理,質問応答,自然言語生成に関する事前学習モデルを用いた広範囲な実験を行った。
論文 参考訳(メタデータ) (2023-03-18T22:36:25Z) - LoRA: Low-Rank Adaptation of Large Language Models [71.75808607987281]
Low-Rank Adaptation (LoRA)はトレーニング済みモデルの重みを凍結し、トレーニング可能な階数分解をTransformerアーキテクチャの各層に注入する。
GPT-3では、LoRAはトレーニング可能なパラメータの数を1万倍に減らし、計算ハードウェアの要求をフル微調整の3倍に削減できる。
論文 参考訳(メタデータ) (2021-06-17T17:37:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。