Fugu-MT 論文翻訳(概要): LoRA$^2$ : Multi-Scale Low-Rank Approximations for Fine-Tuning Large Language Models

論文の概要: LoRA$^2$ : Multi-Scale Low-Rank Approximations for Fine-Tuning Large Language Models

arxiv url: http://arxiv.org/abs/2408.06854v1
Date: Tue, 13 Aug 2024 12:31:30 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-14 17:36:36.911318
Title: LoRA$^2$ : Multi-Scale Low-Rank Approximations for Fine-Tuning Large Language Models
Title（参考訳）: LoRA$^2$ : 大規模言語モデルのためのマルチスケール低ランク近似
Authors: Jia-Chen Zhang, Yu-Jie Xiong, He-Xi Qiu, Dong-Hai Zhu, Chun-Ming Xia,
Abstract要約: Low-Rank Adaptation (LoRA)は、微調整のためのトレーニング可能なパラメータの数を著しく削減する。 LoRAを複数のスケールに拡張し、LoRA$2$と名付けます。
参考スコア（独自算出の注目度）: 3.7049613588433497
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Fine-tuning large language models (LLMs) with high parameter efficiency for downstream tasks has become a new paradigm. Low-Rank Adaptation (LoRA) significantly reduces the number of trainable parameters for fine-tuning. Although it has demonstrated commendable performance, updating parameters within a single scale may not be the optimal choice for complex downstream tasks.In this paper, we extend the LoRA to multiple scales, dubbed as LoRA$^2$. We first combine orthogonal projection theory to train a set of LoRAs in two mutually orthogonal planes. Then, we improve the importance score algorithm, which reduce parameter sensitivity score calculations by approximately 98.5\%. By pruning singular values with lower importance scores, thereby enhancing adaptability to various downstream tasks. Extensive experiments are conducted on two widely used pre-trained models to validate the effectiveness of LoRA$^2$. Results show that it significantly reduces the number of trainable parameters to just 0.72\% compared to full fine-tuning, while still delivering highly impressive performance. Even when the parameters are further reduced to 0.17M, it still achieves comparable results to the baseline with 8 times more parameters. Our code is available here: https://anonymous.4open.science/r/LoRA-2-5B4C
Abstract（参考訳）: 下流タスクのパラメータ効率が高い微調整大型言語モデル(LLM)が新しいパラダイムとなった。 Low-Rank Adaptation (LoRA)は、微調整のためのトレーニング可能なパラメータの数を著しく削減する。本稿では,LoRAを複数のスケールに拡張し,LoRA$^2$と呼ぶ。まず直交射影理論を組み合わせて、2つの直交平面における一組の LoRA を訓練する。そして、パラメータ感度スコアの計算を約98.5 %削減する重要度スコアアルゴリズムを改良する。特異値をより重要度の高いスコアでプルーニングすることで、様々な下流タスクへの適応性を向上する。 LoRA$^2$の有効性を検証するために、広く使われている2つの事前訓練モデルに対して大規模な実験を行った。その結果、トレーニング可能なパラメータの数がフル微調整に比べてわずか0.72倍に大幅に減少する一方で、非常に印象的なパフォーマンスを実現していることがわかった。パラメータがさらに0.17Mに減少しても、8倍のパラメータを持つベースラインに匹敵する結果が得られる。私たちのコードはここにある。 https://anonymous.4open.science/r/LoRA-2-5B4C

関連論文リスト

SingLoRA: Low Rank Adaptation Using a Single Matrix [7.828928639229988]
Low-Rank Adaptation (LoRA) は、大きな事前訓練されたモデルのパラメータ効率の高い微調整を著しく進歩させた。本稿では,SingLoRAを提案する。SingLoRAは,重み付け更新を変換によって乗算した1つの低ランク行列の分解として学習することで,低ランク適応を再構築する。
論文参考訳（メタデータ） (2025-07-08T01:11:30Z)
DenseLoRA: Dense Low-Rank Adaptation of Large Language Models [14.133511131962786]
低ランク適応 (LoRA) は大規模言語モデル (LLM) に適応するための効率的なアプローチとして開発されている。パラメータ効率を高めつつ,LoRAよりも優れた性能を実現する新しい手法であるDense Low-Rank Adaptation (DenseLoRA)を導入する。我々はDenseLoRAを様々なベンチマークで評価し、LLaMA3-8B上のトレーニング可能なパラメータの0.70%とLoRAの80.8%の精度と比較して、トレーニング可能なパラメータの0.01%で83.8%の精度を達成することを示した。
論文参考訳（メタデータ） (2025-05-27T08:19:07Z)
Parameter-Efficient Fine-Tuning of Large Language Models via Deconvolution in Subspace [3.7049613588433497]
様々な下流タスクのための微調整大型言語モデル(LLM)が新しいパラダイムとなった。 Low-Rank Adaptation (LoRA)はそのパラメータ効率でよく知られている。我々は新しい方法を提案する。効率の良い分解はDCFTと呼ばれ、部分空間のデコンボリューションを介して行われる。
論文参考訳（メタデータ） (2025-03-03T11:15:50Z)
NLoRA: Nyström-Initiated Low-Rank Adaptation for Large Language Models [12.431575579432458]
SLoRA(StructuredLoRA)を導入し,低ランク行列AとBの間に小さな中間行列を加えることを検討した。次に、Nystr"omLoRA(NLoRA)を提案し、Nystr"om-based initialization for SLoRAを用いて、その有効性と効率を改善する。最後に,NLoRAの中間行列のみを微調整してLLM効率を向上するIntermediateTune(IntTune)を提案する。
論文参考訳（メタデータ） (2025-02-20T12:01:11Z)
EDoRA: Efficient Weight-Decomposed Low-Rank Adaptation via Singular Value Decomposition [2.5269004336032186]
Efficient Weight-Decomposed Low-Rank Adaptation (EDoRA) は、事前学習した重量を大きさと方向の成分に分解する新しいPEFT法である。 EDoRAは、LoRAやDoRAのような最先端の手法と比較して、競争力や優れた性能を達成する。
論文参考訳（メタデータ） (2025-01-21T11:42:09Z)
LoRTA: Low Rank Tensor Adaptation of Large Language Models [70.32218116940393]
Low Rank Adaptation (LoRA) は、下流タスクのための大規模な事前学習モデルに効果的に適応する、PEFT (Efficient Fine Tuning) 手法として人気がある。モデル更新に低階テンソルパラメトリゼーションを用いる新しい手法を提案する。提案手法は,大規模言語モデルの微調整に有効であり,比較性能を維持しつつ,パラメータ数の大幅な削減を実現している。
論文参考訳（メタデータ） (2024-10-05T06:59:50Z)
LoRA-Pro: Are Low-Rank Adapters Properly Optimized? [121.0693322732454]
LoRAとしても知られる低ランク適応は、基礎モデルのパラメータ効率の細かい調整のための顕著な手法として登場した。計算効率にもかかわらず、LoRAは完全な微調整に比べて性能が劣っている。低ランク行列の勾配を戦略的に調整することでLoRAの性能を向上させる手法であるLoRA-Proを導入する。
論文参考訳（メタデータ） (2024-07-25T17:57:12Z)
SBoRA: Low-Rank Adaptation with Regional Weight Updates [19.15481369459963]
本稿では,SBORA(Standard Basis LoRA)を提案する。 SBoRAはトレーニング可能なパラメータの数を半分に減らし、LoRAと同様のトレーニング可能なパラメータの数でランクを2倍にする。本研究は,LoraよりもSBoRA-FAの方が,常識推論や算術推論など,様々な微調整タスクにおいて優れていることを示す。
論文参考訳（メタデータ） (2024-07-07T15:37:13Z)
LoRA-XS: Low-Rank Adaptation with Extremely Small Number of Parameters [11.23006032094776]
トレーニング可能なパラメータを格段に削減し,優れた性能と競争性能を示すLoRA-XSを提案する。 LoRA-XSは、LoRAと比較して、トレーニング可能なパラメータを7Bモデルで100倍以上削減する。
論文参考訳（メタデータ） (2024-05-27T19:07:13Z)
MELoRA: Mini-Ensemble Low-Rank Adapters for Parameter-Efficient Fine-Tuning [71.50432879573614]
低ランク適応 (LoRA) は、適応過程が本質的に低次元であるという考えに基づいている。我々は、より高階を維持しながらトレーニング可能なパラメータを少なくするミニアンサンブルな低ランクアダプタMELoRAを提案する。実験結果から, 自然言語理解タスクの8倍のトレーニングパラメータ, 続くタスクの36倍のトレーニングパラメータが得られた。
論文参考訳（メタデータ） (2024-02-27T07:14:12Z)
DoRA: Weight-Decomposed Low-Rank Adaptation [57.68678247436207]
本稿では,FTとLoRAの相違点を明らかにするために,新しい重み分解解析法を提案する。本研究は、FTの学習能力に類似することを目的として、重量分解低ランク適応(DoRA)を提案する。 DoRAは、事前訓練された重量を、微調整のための大きさと方向の2つの構成要素に分解する。
論文参考訳（メタデータ） (2024-02-14T17:59:34Z)
Chain of LoRA: Efficient Fine-tuning of Language Models via Residual Learning [31.036465632204663]
本稿では,Frank-Wolfeアルゴリズムにインスパイアされた反復最適化フレームワークであるLoRAのChainを紹介する。計算コストやメモリコストを増大させることなく,COLA が LoRA を一貫して上回ることを示す。
論文参考訳（メタデータ） (2024-01-08T14:26:49Z)
AdaLoRA: Adaptive Budget Allocation for Parameter-Efficient Fine-Tuning [143.23123791557245]
下流タスクで訓練済みの大規模言語モデルを微調整することは、NLPにおいて重要なパラダイムとなっている。重み行列のパラメータ予算をその重要度に応じて適応的に割り当てるAdaLoRAを提案する。我々は,AdaLoRAの有効性を検証するために,自然言語処理,質問応答,自然言語生成に関する事前学習モデルを用いた広範囲な実験を行った。
論文参考訳（メタデータ） (2023-03-18T22:36:25Z)
LoRA: Low-Rank Adaptation of Large Language Models [71.75808607987281]
Low-Rank Adaptation (LoRA)はトレーニング済みモデルの重みを凍結し、トレーニング可能な階数分解をTransformerアーキテクチャの各層に注入する。 GPT-3では、LoRAはトレーニング可能なパラメータの数を1万倍に減らし、計算ハードウェアの要求をフル微調整の3倍に削減できる。
論文参考訳（メタデータ） (2021-06-17T17:37:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。