論文の概要: LoRA: Low-Rank Adaptation of Large Language Models
- arxiv url: http://arxiv.org/abs/2106.09685v1
- Date: Thu, 17 Jun 2021 17:37:18 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-18 16:16:36.198517
- Title: LoRA: Low-Rank Adaptation of Large Language Models
- Title(参考訳): LoRA: 大規模言語モデルの低ランク適応
- Authors: Edward J. Hu, Yelong Shen, Phillip Wallis, Zeyuan Allen-Zhu, Yuanzhi
Li, Shean Wang, Weizhu Chen
- Abstract要約: Low-Rank Adaptation (LoRA)はトレーニング済みモデルの重みを凍結し、トレーニング可能な階数分解をTransformerアーキテクチャの各層に注入する。
GPT-3では、LoRAはトレーニング可能なパラメータの数を1万倍に減らし、計算ハードウェアの要求をフル微調整の3倍に削減できる。
- 参考スコア(独自算出の注目度): 71.75808607987281
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The dominant paradigm of natural language processing consists of large-scale
pre-training on general domain data and adaptation to particular tasks or
domains. As we pre-train larger models, conventional fine-tuning, which
retrains all model parameters, becomes less feasible. Using GPT-3 175B as an
example, deploying many independent instances of fine-tuned models, each with
175B parameters, is extremely expensive. We propose Low-Rank Adaptation, or
LoRA, which freezes the pre-trained model weights and injects trainable rank
decomposition matrices into each layer of the Transformer architecture, greatly
reducing the number of trainable parameters for downstream tasks. For GPT-3,
LoRA can reduce the number of trainable parameters by 10,000 times and the
computation hardware requirement by 3 times compared to full fine-tuning. LoRA
performs on-par or better than fine-tuning in model quality on both GPT-3 and
GPT-2, despite having fewer trainable parameters, a higher training throughput,
and no additional inference latency. We also provide an empirical investigation
into rank-deficiency in language model adaptations, which sheds light on the
efficacy of LoRA. We release our implementation in GPT-2 at
https://github.com/microsoft/LoRA .
- Abstract(参考訳): 自然言語処理の主要なパラダイムは、一般的なドメインデータに対する大規模な事前学習と、特定のタスクやドメインへの適応である。
大型モデルの事前訓練を行うにつれて、モデルパラメータを再訓練する従来の微調整は実現しにくくなる。
GPT-3 175Bを例として用いて、細調整されたモデルの独立したインスタンスを多数配置する。
本稿では,トレーニング済みモデル重みを凍結し,トレーニング可能な階数分解行列をトランスフォーマーアーキテクチャの各層に注入し,下流タスクのトレーニング可能なパラメータの数を大幅に削減するローランド適応(LoRA)を提案する。
GPT-3では、LoRAはトレーニング可能なパラメータの数を1万倍に減らし、計算ハードウェアの要求をフル微調整の3倍に削減できる。
LoRAは、トレーニング可能なパラメータが少なく、トレーニングのスループットが高く、追加の推論遅延がないにもかかわらず、GPT-3とGPT-2のモデル品質を微調整するより優れている。
また,言語モデル適応におけるランク欠陥に関する実証的研究を行い,LoRAの有効性に光を当てる。
我々はGPT-2の実装をhttps://github.com/microsoft/LoRA でリリースします。
関連論文リスト
- Mini-Ensemble Low-Rank Adapters for Parameter-Efficient Fine-Tuning [74.58403497789422]
低ランク適応 (LoRA) は、適応過程が本質的に低次元であるという考えに基づいている。
我々は、より高階を維持しながらトレーニング可能なパラメータを少なくするミニアンサンブルな低ランクアダプタMELoRAを提案する。
実験結果から, 自然言語理解タスクの8倍のトレーニングパラメータ, 続くタスクの36倍のトレーニングパラメータが得られた。
論文 参考訳(メタデータ) (2024-02-27T07:14:12Z) - PRILoRA: Pruned and Rank-Increasing Low-Rank Adaptation [65.268245109828]
我々はPRILoRAを導入し、各層ごとに異なるランクを線形に割り当て、トレーニングプロセスを通してプルーニングを行う。
8つのGLUEベンチマークで広範な実験を行い,PRILoRAの有効性を検証する。
論文 参考訳(メタデータ) (2024-01-20T20:25:17Z) - NOLA: Networks as Linear Combination of Low Rank Random Basis [24.418919441014985]
我々は、ロラに存在するランク1の下界を克服するNOLAを導入する。
自然言語およびコンピュータビジョンタスクにおける GPT-2 と ViT を用いた適応結果を提案する。
論文 参考訳(メタデータ) (2023-10-04T03:30:24Z) - Low-rank Adaptation Method for Wav2vec2-based Fake Audio Detection [57.537583869961885]
自己教師型音声モデルは、偽音声検出において急速に発展している研究トピックである。
我々は、wav2vec2モデルにローランク適応(LoRA)を適用し、トレーニング済みモデルの重みを凍結し、トランスアーキテクチャの各層にトレーニング可能なランク分解行列を注入する。
317Mのトレーニングパラメータを含むwav2vec2モデルのAdamの微調整と比較して、LoRAはトレーニング可能なパラメータの数を198倍減らして同様の性能を実現した。
論文 参考訳(メタデータ) (2023-06-09T01:43:41Z) - AdaLoRA: Adaptive Budget Allocation for Parameter-Efficient Fine-Tuning [143.23123791557245]
下流タスクで訓練済みの大規模言語モデルを微調整することは、NLPにおいて重要なパラダイムとなっている。
重み行列のパラメータ予算をその重要度に応じて適応的に割り当てるAdaLoRAを提案する。
我々は,AdaLoRAの有効性を検証するために,自然言語処理,質問応答,自然言語生成に関する事前学習モデルを用いた広範囲な実験を行った。
論文 参考訳(メタデータ) (2023-03-18T22:36:25Z) - DyLoRA: Parameter Efficient Tuning of Pre-trained Models using Dynamic
Search-Free Low-Rank Adaptation [18.922066770467914]
ローランクアダプタ(LoRA)は、モデルの主要なトレーニング済み重量を凍結させ、学習可能なSVDモジュールをモデルに導入する。
LoRAブロックはパラメータ効率が高いが、2つの大きな問題に悩まされている。
これら2つの問題を解決するために,動的低ランク適応(DyLoRA)技術を導入する。
論文 参考訳(メタデータ) (2022-10-14T06:29:22Z) - DSEE: Dually Sparsity-embedded Efficient Tuning of Pre-trained Language
Models [152.29364079385635]
事前訓練されたモデルが大きくなればなるほど、微調整のプロセスは時間がかかり、計算コストがかかる可能性がある。
本稿では,重み更新と最終モデルの重み付けに先立って,疎度を活用することで,資源・パラメータ効率の微調整を行うフレームワークを提案する。
提案するフレームワークは,Dually Sparsity-Embeded Efficient Tuning (DSEE)と呼ばれ,パラメータ効率のよい微調整とリソース効率の推論という2つの重要な目標を達成することを目的としている。
論文 参考訳(メタデータ) (2021-10-30T03:29:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。