論文の概要: AdaLoRA: Adaptive Budget Allocation for Parameter-Efficient Fine-Tuning
- arxiv url: http://arxiv.org/abs/2303.10512v2
- Date: Wed, 20 Dec 2023 20:56:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-22 19:20:45.521760
- Title: AdaLoRA: Adaptive Budget Allocation for Parameter-Efficient Fine-Tuning
- Title(参考訳): adalora:パラメータ効率の良い微調整のための適応予算割り当て
- Authors: Qingru Zhang, Minshuo Chen, Alexander Bukharin, Nikos Karampatziakis,
Pengcheng He, Yu Cheng, Weizhu Chen, Tuo Zhao
- Abstract要約: 下流タスクで訓練済みの大規模言語モデルを微調整することは、NLPにおいて重要なパラダイムとなっている。
重み行列のパラメータ予算をその重要度に応じて適応的に割り当てるAdaLoRAを提案する。
我々は,AdaLoRAの有効性を検証するために,自然言語処理,質問応答,自然言語生成に関する事前学習モデルを用いた広範囲な実験を行った。
- 参考スコア(独自算出の注目度): 143.23123791557245
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fine-tuning large pre-trained language models on downstream tasks has become
an important paradigm in NLP. However, common practice fine-tunes all of the
parameters in a pre-trained model, which becomes prohibitive when a large
number of downstream tasks are present. Therefore, many fine-tuning methods are
proposed to learn incremental updates of pre-trained weights in a parameter
efficient way, e.g., low-rank increments. These methods often evenly distribute
the budget of incremental updates across all pre-trained weight matrices, and
overlook the varying importance of different weight parameters. As a
consequence, the fine-tuning performance is suboptimal. To bridge this gap, we
propose AdaLoRA, which adaptively allocates the parameter budget among weight
matrices according to their importance score. In particular, AdaLoRA
parameterizes the incremental updates in the form of singular value
decomposition. Such a novel approach allows us to effectively prune the
singular values of unimportant updates, which is essentially to reduce their
parameter budget but circumvent intensive exact SVD computations. We conduct
extensive experiments with several pre-trained models on natural language
processing, question answering, and natural language generation to validate the
effectiveness of AdaLoRA. Results demonstrate that AdaLoRA manifests notable
improvement over baselines, especially in the low budget settings. Our code is
publicly available at https://github.com/QingruZhang/AdaLoRA .
- Abstract(参考訳): 下流タスクで訓練済みの大規模言語モデルを微調整することは、NLPにおいて重要なパラダイムとなっている。
しかし、多くの下流タスクが存在する場合には、事前訓練されたモデルでパラメータの全てを微調整する。
そのため,事前学習された重みのインクリメンタルな更新をパラメータ効率良く,例えば低ランクのインクリメンタルに学習するために,多くの微調整手法が提案されている。
これらの手法はしばしば、事前訓練された全ての重量行列に漸進的な更新の予算を均等に分配し、異なる重量パラメータの異なる重要性を見落としている。
その結果、微調整性能が準最適となる。
このギャップを埋めるために、重み行列のパラメータ予算をその重要度に応じて適応的に割り当てるAdaLoRAを提案する。
特に、AdaLoRAは特異値分解の形でインクリメンタル更新をパラメータ化する。
このような新しいアプローチにより、重要でない更新の特異値を効果的に創り出すことができ、本質的にはパラメータ予算を削減できるが、正確なSVD計算を回避できる。
adaloraの有効性を検証するために,自然言語処理,質問応答,自然言語生成に関する事前学習モデルをいくつか実施した。
その結果,adaloraは,特に低予算環境において,ベースラインよりも顕著な改善が見られた。
私たちのコードはhttps://github.com/QingruZhang/AdaLoRAで公開されています。
関連論文リスト
- Mini-Ensemble Low-Rank Adapters for Parameter-Efficient Fine-Tuning [74.58403497789422]
低ランク適応 (LoRA) は、適応過程が本質的に低次元であるという考えに基づいている。
我々は、より高階を維持しながらトレーニング可能なパラメータを少なくするミニアンサンブルな低ランクアダプタMELoRAを提案する。
実験結果から, 自然言語理解タスクの8倍のトレーニングパラメータ, 続くタスクの36倍のトレーニングパラメータが得られた。
論文 参考訳(メタデータ) (2024-02-27T07:14:12Z) - PRILoRA: Pruned and Rank-Increasing Low-Rank Adaptation [65.268245109828]
我々はPRILoRAを導入し、各層ごとに異なるランクを線形に割り当て、トレーニングプロセスを通してプルーニングを行う。
8つのGLUEベンチマークで広範な実験を行い,PRILoRAの有効性を検証する。
論文 参考訳(メタデータ) (2024-01-20T20:25:17Z) - Chain of LoRA: Efficient Fine-tuning of Language Models via Residual
Learning [31.036465632204663]
本稿では,Frank-Wolfeアルゴリズムにインスパイアされた反復最適化フレームワークであるLoRAのChainを紹介する。
計算コストやメモリコストを増大させることなく,COLA が LoRA を一貫して上回ることを示す。
論文 参考訳(メタデータ) (2024-01-08T14:26:49Z) - Hyperparameter Optimization for Large Language Model Instruction-Tuning [6.743825167463901]
トレーニング済みLLMをブラックボックスとして微調整と検証を行うパイプライン全体について検討する。
本研究では,提案アルゴリズムを用いて高次パラメータの空間を効率的に探索し,チューニングモデルの性能向上と人為的アライメントを実現する。
論文 参考訳(メタデータ) (2023-12-01T22:03:12Z) - Sparse Low-rank Adaptation of Pre-trained Language Models [79.74094517030035]
本稿では,適応過程における固有ランクの動的調整を可能にする疎低ランク適応(SoRA)を提案する。
提案手法は,LoRAを高いランクで初期化すると同時に,一時的に増大するパラメータを効率的に利用することにより,LoRAの表現力を向上する。
実験の結果,SoRAは70%の保持パラメータと70%のトレーニング時間でも,他のベースラインよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-11-20T11:56:25Z) - IncreLoRA: Incremental Parameter Allocation Method for
Parameter-Efficient Fine-tuning [15.964205804768163]
IncreLoRAは、トレーニング中にトレーニング可能なパラメータを適応的に追加するインクリメンタルパラメータ割り当て手法である。
我々は,IncreLoRAの有効性を示すため,GLUEの広範な実験を行った。
論文 参考訳(メタデータ) (2023-08-23T10:08:10Z) - DSEE: Dually Sparsity-embedded Efficient Tuning of Pre-trained Language
Models [152.29364079385635]
事前訓練されたモデルが大きくなればなるほど、微調整のプロセスは時間がかかり、計算コストがかかる可能性がある。
本稿では,重み更新と最終モデルの重み付けに先立って,疎度を活用することで,資源・パラメータ効率の微調整を行うフレームワークを提案する。
提案するフレームワークは,Dually Sparsity-Embeded Efficient Tuning (DSEE)と呼ばれ,パラメータ効率のよい微調整とリソース効率の推論という2つの重要な目標を達成することを目的としている。
論文 参考訳(メタデータ) (2021-10-30T03:29:47Z) - LoRA: Low-Rank Adaptation of Large Language Models [71.75808607987281]
Low-Rank Adaptation (LoRA)はトレーニング済みモデルの重みを凍結し、トレーニング可能な階数分解をTransformerアーキテクチャの各層に注入する。
GPT-3では、LoRAはトレーニング可能なパラメータの数を1万倍に減らし、計算ハードウェアの要求をフル微調整の3倍に削減できる。
論文 参考訳(メタデータ) (2021-06-17T17:37:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。