論文の概要: PMSS: Pretrained Matrices Skeleton Selection for LLM Fine-tuning
- arxiv url: http://arxiv.org/abs/2409.16722v1
- Date: Wed, 25 Sep 2024 08:20:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-27 04:50:49.452523
- Title: PMSS: Pretrained Matrices Skeleton Selection for LLM Fine-tuning
- Title(参考訳): PMSS: LLMファインチューニングのためのプレトレーニング行列セレクション
- Authors: Qibin Wang, Xiaolin Hu, Weikai Xu, Wei Liu, Jian Luan, Bin Wang,
- Abstract要約: ローランク適応(LoRA)とその変種は、過度の推論コストを回避する能力により、最近多くの関心を集めている。
本稿では,事前学習した重みに固有の意味情報と言語情報を活用しながら,低コストで高階更新を実現するPMSSを提案する。
PMSSは、トレーニング可能なパラメータがはるかに少ないタスク間で、LoRAや他の微調整メソッドよりも優れていることを示す実験である。
- 参考スコア(独自算出の注目度): 26.92656965708195
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Low-rank adaptation (LoRA) and its variants have recently gained much interest due to their ability to avoid excessive inference costs. However, LoRA still encounters the following challenges: (1) Limitation of low-rank assumption; and (2) Its initialization method may be suboptimal. To this end, we propose PMSS(Pre-trained Matrices Skeleton Selection), which enables high-rank updates with low costs while leveraging semantic and linguistic information inherent in pre-trained weight. It achieves this by selecting skeletons from the pre-trained weight matrix and only learning a small matrix instead. Experiments demonstrate that PMSS outperforms LoRA and other fine-tuning methods across tasks with much less trainable parameters. We demonstrate its effectiveness, especially in handling complex tasks such as DROP benchmark(+3.4%/+5.9% on LLaMA2-7B/13B) and math reasoning(+12.89%/+5.61%/+3.11% on LLaMA2-7B, Mistral-7B and Gemma-7B of GSM8K). The code and model will be released soon.
- Abstract(参考訳): ローランク適応(LoRA)とその変種は、過度の推論コストを回避する能力により、最近多くの関心を集めている。
しかしLoRAは,(1)低ランクな仮定の限界,(2)初期化法が最適でない,という課題に直面している。
そこで本研究では,PMSS(Pre-trained Matrices Skeleton Selection)を提案する。
これは、事前訓練された重量行列から骨格を選択し、代わりに小さな行列だけを学ぶことによって達成される。
PMSSは、トレーニング可能なパラメータがはるかに少ないタスク間で、LoRAや他の微調整メソッドよりも優れていることを示す実験である。
DROPベンチマーク(LLaMA2-7B/13Bで+3.4%/+5.9%)や数学推論(LLaMA2-7Bで+12.89%/+5.61%/+3.11%)などの複雑なタスクを扱う場合,特に有効性を示す。
コードとモデルはまもなくリリースされる予定だ。
関連論文リスト
- Language Models are Hidden Reasoners: Unlocking Latent Reasoning Capabilities via Self-Rewarding [74.31981011985681]
大きな言語モデル(LLM)は印象的な機能を示しているが、それでも複数のステップを必要とする複雑な推論タスクに苦戦している。
LaTRO(LaTent Reasoning Optimization)は、潜在分布からのサンプリングとして推論を定式化するためのフレームワークである。
複数のモデルアーキテクチャを用いて、GSM8KおよびARC-Challengeデータセットの実験を通してLaTROを検証する。
論文 参考訳(メタデータ) (2024-11-06T22:02:30Z) - LoRA Done RITE: Robust Invariant Transformation Equilibration for LoRA Optimization [78.93425154518705]
低ランク適応 (LoRA) は、メモリ要求を低減し、LLMのパラメータ効率の高い微調整法である。
本稿では,LoRA最適化のための適応行列プレコンディショニング手法であるLoRA-RITEを紹介する。
論文 参考訳(メタデータ) (2024-10-27T22:57:12Z) - Bone: Block Affine Transformation as Parameter Efficient Fine-tuning Methods for Large Language Models [0.0]
Low-Rank Adaptation (LoRA)は、オリジナルの重量を凍結し、低ランクの行列のみを訓練することで、優れたトレーニング結果を得た。
LoRA は LoRA+, PISSA, Olora, LoRA-GA などの派生型が登場した。
本稿では,トレーニング中にトレーニング可能な行列を元のウェイトを通して継続的に誘導し,ウェイト情報の利用を高めることを目的とした,新しい理論「ウェイトガイド」を紹介する。
論文 参考訳(メタデータ) (2024-09-19T10:26:42Z) - CoRA: Optimizing Low-Rank Adaptation with Common Subspace of Large Language Models [7.108651381160281]
Low-Rank Adaptation (LoRA) 戦略は、微調整された大型モデルにおける効率と性能のバランスをとる。
我々は、共有知識を活用してLoRAトレーニングを最適化するtextbfCoRAを提案する。
実験の結果,最初のアプローチは,パラメータの半減よりも効率が良く,元のLoRAファインチューニングと同じ効果が得られることがわかった。
論文 参考訳(メタデータ) (2024-08-31T12:48:27Z) - BA-LoRA: Bias-Alleviating Low-Rank Adaptation to Mitigate Catastrophic Inheritance in Large Language Models [13.660511750245245]
この研究は、バイアス継承に対抗するために設計された新しいPEFT法であるBias-Alleviating Low-Rank Adaptation (BA-LoRA)を導入している。
BA-LoRAは、(1)整合正則化器、(2)多様性正則化器、(3)特異値分解正則化器の3つの異なる正則化項を含む。
その結果、BA-LoRAはLoRAとその最先端の変種よりも優れていた。
論文 参考訳(メタデータ) (2024-08-08T16:13:26Z) - SBoRA: Low-Rank Adaptation with Regional Weight Updates [19.15481369459963]
本稿では,SBORA(Standard Basis LoRA)を提案する。
SBoRAはトレーニング可能なパラメータの数を半分に減らし、LoRAと同様のトレーニング可能なパラメータの数でランクを2倍にする。
本研究は,LoraよりもSBoRA-FAの方が,常識推論や算術推論など,様々な微調整タスクにおいて優れていることを示す。
論文 参考訳(メタデータ) (2024-07-07T15:37:13Z) - Bypass Back-propagation: Optimization-based Structural Pruning for Large Language Models via Policy Gradient [57.9629676017527]
大規模言語モデルを用いた最適化に基づく構造解析手法を提案する。
我々は,プルーニングモデルの損失を最適化することにより,確率空間におけるプルーニングマスクを直接学習する。
A100 GPUで13Bモデルに対して約35GBのメモリで2.7時間動作させる。
論文 参考訳(メタデータ) (2024-06-15T09:31:03Z) - MELoRA: Mini-Ensemble Low-Rank Adapters for Parameter-Efficient Fine-Tuning [71.50432879573614]
低ランク適応 (LoRA) は、適応過程が本質的に低次元であるという考えに基づいている。
我々は、より高階を維持しながらトレーニング可能なパラメータを少なくするミニアンサンブルな低ランクアダプタMELoRAを提案する。
実験結果から, 自然言語理解タスクの8倍のトレーニングパラメータ, 続くタスクの36倍のトレーニングパラメータが得られた。
論文 参考訳(メタデータ) (2024-02-27T07:14:12Z) - BiLLM: Pushing the Limit of Post-Training Quantization for LLMs [53.31402059062365]
BiLLMは、事前訓練された大規模言語モデルに適した1ビット後のトレーニング後の量子化スキームである。
LLaMA2-70Bの8.41パープレキシティは、様々なLLMファミリーで1.08ビットの重みしか持たない。
論文 参考訳(メタデータ) (2024-02-06T09:26:34Z) - LoRA: Low-Rank Adaptation of Large Language Models [71.75808607987281]
Low-Rank Adaptation (LoRA)はトレーニング済みモデルの重みを凍結し、トレーニング可能な階数分解をTransformerアーキテクチャの各層に注入する。
GPT-3では、LoRAはトレーニング可能なパラメータの数を1万倍に減らし、計算ハードウェアの要求をフル微調整の3倍に削減できる。
論文 参考訳(メタデータ) (2021-06-17T17:37:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。