論文の概要: DoRA: Weight-Decomposed Low-Rank Adaptation
- arxiv url: http://arxiv.org/abs/2402.09353v1
- Date: Wed, 14 Feb 2024 17:59:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-15 14:06:27.297263
- Title: DoRA: Weight-Decomposed Low-Rank Adaptation
- Title(参考訳): DoRA:重量分解低ランク適応
- Authors: Shih-Yang Liu, Chien-Yi Wang, Hongxu Yin, Pavlo Molchanov, Yu-Chiang
Frank Wang, Kwang-Ting Cheng, Min-Hung Chen
- Abstract要約: 本稿では,FTとLoRAの相違点を明らかにするために,新しい重み分解解析法を提案する。
DoRAは、事前訓練された重量を、微調整のための大きさと方向の2つの構成要素に分解する。
DoRAは、細調整されたLLaMA、LLaVA、VL-BARTにおいて、様々な下流タスクにおいてLoRAより一貫して優れている。
- 参考スコア(独自算出の注目度): 60.57952775326054
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Among the widely used parameter-efficient finetuning (PEFT) methods, LoRA and
its variants have gained considerable popularity because of avoiding additional
inference costs. However, there still often exists an accuracy gap between
these methods and full fine-tuning (FT). In this work, we first introduce a
novel weight decomposition analysis to investigate the inherent differences
between FT and LoRA. Aiming to resemble the learning capacity of FT from the
findings, we propose Weight-Decomposed LowRank Adaptation (DoRA). DoRA
decomposes the pre-trained weight into two components, magnitude and direction,
for fine-tuning, specifically employing LoRA for directional updates to
efficiently minimize the number of trainable parameters. By employing DoRA, we
enhance both the learning capacity and training stability of LoRA while
avoiding any additional inference overhead. DoRA consistently outperforms LoRA
on fine-tuning LLaMA, LLaVA, and VL-BART on various downstream tasks, such as
commonsense reasoning, visual instruction tuning, and image/video-text
understanding.
- Abstract(参考訳): 広く使われているパラメータ効率ファインタニング(PEFT)法の中で、LoRAとその変種は追加の推論コストを避けるためにかなりの人気を得ている。
しかし、これらの手法とフル微調整(FT)の間には精度のギャップがまだ残っている。
本稿では,FTとLoRAの相違点を明らかにするために,新しい重量分解解析法を提案する。
本研究は,FTの学習能力に類似して,重み分解型低ランク適応(DoRA)を提案する。
DoRAは、トレーニング済みの重量を2つのコンポーネント、マグニチュードと方向に分解して微調整し、特に、トレーニング可能なパラメータの数を効率的に最小化するために、方向更新にLoRAを使用している。
DoRAを用いることで、LoRAの学習能力とトレーニング安定性を向上するとともに、追加の推論オーバーヘッドを回避できる。
DoRAは、LLaMA、LLaVA、VL-BARTなどの様々な下流タスク、例えばコモンセンス推論、ビジュアルインストラクションチューニング、画像/ビデオテキスト理解において、LoRAよりも一貫して優れている。
関連論文リスト
- LoRA Done RITE: Robust Invariant Transformation Equilibration for LoRA Optimization [78.93425154518705]
低ランク適応 (LoRA) は、メモリ要求を低減し、LLMのパラメータ効率の高い微調整法である。
本稿では,LoRA最適化のための適応行列プレコンディショニング手法であるLoRA-RITEを紹介する。
論文 参考訳(メタデータ) (2024-10-27T22:57:12Z) - Randomized Asymmetric Chain of LoRA: The First Meaningful Theoretical Framework for Low-Rank Adaptation [58.288682735160585]
Low-Rank Adaptation (LoRA) は、ファインチューニングモデルの一般的なテクニックである。
LoRAは、フルパラメータの微調整と比較すると、しばしば実行されます。
本稿では,LoRA手法の適応率を厳密に分析するフレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-10T18:51:53Z) - Bone: Block-Affine Adaptation of Large Language Models [0.0]
Low-Rank Adaptation (LoRA)は、オリジナルの重量を凍結し、低ランクの行列のみを訓練することで、優れたトレーニング結果を得た。
本稿では,Block-Affine Adaptation (Bone)と呼ばれる,LoRAとは異なる新しいPEFT手法を提案する。
Boneはメモリ使用量を大幅に削減し、高速な計算を実現する。
論文 参考訳(メタデータ) (2024-09-19T10:26:42Z) - LoRA Learns Less and Forgets Less [25.09261710396838]
Low-Rank Adaptation (LoRA) は、大規模言語モデルのパラメータ効率の高い微調整法である。
プログラムと数学の2つの対象領域におけるLoRAの性能と完全な微調整を比較した。
論文 参考訳(メタデータ) (2024-05-15T19:27:45Z) - ResLoRA: Identity Residual Mapping in Low-Rank Adaption [96.59370314485074]
低ランク適応(LoRA)の改良フレームワークであるResLoRAを提案する。
提案手法は,LoRAと比較してトレーニング可能なパラメータや推論コストを必要とせずに,より少ないトレーニングステップでより良い結果を得ることができる。
NLG,NLU,テキスト・ツー・イメージタスクの実験により,本手法の有効性が示された。
論文 参考訳(メタデータ) (2024-02-28T04:33:20Z) - PeriodicLoRA: Breaking the Low-Rank Bottleneck in LoRA Optimization [39.30090456724925]
監視された微調整は、下流タスクに大規模言語モデル(LLM)を適用する最も一般的な方法である。
完全な微調整には膨大な計算資源が必要である。
LoRAは最も広く使われている手法の1つであり、最適化過程は本質的に低次元であると仮定する。
論文 参考訳(メタデータ) (2024-02-25T16:43:41Z) - A Rank Stabilization Scaling Factor for Fine-Tuning with LoRA [0.7252027234425334]
PEFTの一般的な手法はLoRA(Lo-Rank Adapters)であり、選択した層にトレーニング可能な低ランクの"アダプタ"を追加する。
このスケーリング係数は、アダプタをランクの要素で分割するので、ローラの学習が遅くなり、上位のアダプタでスタントのパフォーマンスが低下する。
我々はLoRAを適切なスケーリング係数で修正し、微調整の計算/性能トレードオフを容易に提供します。
論文 参考訳(メタデータ) (2023-11-28T03:23:20Z) - AdaLoRA: Adaptive Budget Allocation for Parameter-Efficient Fine-Tuning [143.23123791557245]
下流タスクで訓練済みの大規模言語モデルを微調整することは、NLPにおいて重要なパラダイムとなっている。
重み行列のパラメータ予算をその重要度に応じて適応的に割り当てるAdaLoRAを提案する。
我々は,AdaLoRAの有効性を検証するために,自然言語処理,質問応答,自然言語生成に関する事前学習モデルを用いた広範囲な実験を行った。
論文 参考訳(メタデータ) (2023-03-18T22:36:25Z) - LoRA: Low-Rank Adaptation of Large Language Models [71.75808607987281]
Low-Rank Adaptation (LoRA)はトレーニング済みモデルの重みを凍結し、トレーニング可能な階数分解をTransformerアーキテクチャの各層に注入する。
GPT-3では、LoRAはトレーニング可能なパラメータの数を1万倍に減らし、計算ハードウェアの要求をフル微調整の3倍に削減できる。
論文 参考訳(メタデータ) (2021-06-17T17:37:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。