論文の概要: MiLoRA: Harnessing Minor Singular Components for Parameter-Efficient LLM Finetuning
- arxiv url: http://arxiv.org/abs/2406.09044v2
- Date: Wed, 18 Sep 2024 02:57:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-19 22:53:23.320201
- Title: MiLoRA: Harnessing Minor Singular Components for Parameter-Efficient LLM Finetuning
- Title(参考訳): MiLoRA:パラメータ効率の良いLDMファインタニングのための小さな特異成分のハーネス化
- Authors: Hanqing Wang, Yixia Li, Shuo Wang, Guanhua Chen, Yun Chen,
- Abstract要約: 重み行列の小さな特異成分のみを更新する単純なLLM微調整手法であるMiLoRAを提案する。
主行列は重要な知識を含むのに対し、マイナー行列はノイズ情報またはロングテール情報に対応することが観察された。
微調整の間、MiLoRAはラベル付きデータセットを学習するために最適化されていないサブスペースを最大限に活用する。
- 参考スコア(独自算出の注目度): 16.67302585857681
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Efficient finetuning of large language models (LLMs) aims to adapt the LLMs with reduced computational and memory cost. Previous LoRA-based approaches initialize the low-rank matrices with Gaussian distribution and zero values while keeping the original weight matrices frozen. However, the trainable model parameters optimized in an unguided subspace might interfere with the well-learned subspace of the pretrained weight matrices. In this paper, we propose MiLoRA, a simple yet effective LLM finetuning approach that only updates the minor singular components of the weight matrix while keeping the principal singular components frozen. It is observed that the minor matrix corresponds to the noisy or long-tail information, while the principal matrix contains important knowledge. The MiLoRA initializes the low-rank matrices within a subspace that is orthogonal to the principal matrix, thus the pretrained knowledge is expected to be well preserved. During finetuning, MiLoRA makes the most use of the less-optimized subspace for learning the labeled dataset. Extensive experiments on commonsense reasoning, math reasoning, instruction following and visual instruction following benchmarks present the superior performance of our method.
- Abstract(参考訳): 大規模言語モデル(LLM)の効率的な微調整は、計算コストとメモリコストの削減でLLMを適応することを目的としている。
以前のLoRAベースのアプローチでは、元の重量行列を凍結させながら、ガウス分布とゼロ値を持つ低ランク行列を初期化していた。
しかし、誘導されていない部分空間に最適化された訓練可能なモデルパラメータは、事前訓練された重み行列の十分に学習された部分空間に干渉する可能性がある。
本稿では,主成分の凍結を保ちながら,重み行列の小さな特異成分のみを更新する単純なLLM微調整手法であるMiLoRAを提案する。
主行列は重要な知識を含むのに対し、マイナー行列はノイズ情報またはロングテール情報に対応することが観察された。
MiLoRAは、主行列に直交する部分空間内の低ランク行列を初期化するので、事前学習された知識は十分に保存される。
微調整の間、MiLoRAはラベル付きデータセットを学習するために最適化されていないサブスペースを最大限に活用する。
提案手法の優れた性能を示すため,コモンセンス推論,数理推論,命令追従および視覚的指示に関する広範囲な実験を行った。
関連論文リスト
- Expanding Sparse Tuning for Low Memory Usage [103.43560327427647]
メモリ使用量が少ないスパースチューニングのためのSNELL(Sparse tuning with kerNelized LoRA)法を提案する。
低メモリ使用量を達成するため、SNELLはスカラー化のための調整可能な行列を2つの学習可能な低ランク行列に分解する。
コンペティションに基づくスペーシフィケーション機構は、チューナブルウェイトインデックスの保存を避けるためにさらに提案される。
論文 参考訳(メタデータ) (2024-11-04T04:58:20Z) - Locating Information in Large Language Models via Random Matrix Theory [0.0]
我々は,事前学習した変換器モデルBERTとLlamaの重量行列を解析した。
訓練後に偏差が出現し モデル内の学習された構造が特定できます
その結果、微調整後、小さな特異値がモデルの能力に重要な役割を果たすことが明らかとなった。
論文 参考訳(メタデータ) (2024-10-23T11:19:08Z) - One Initialization to Rule them All: Fine-tuning via Explained Variance Adaptation [13.585425242072173]
最も一般的に使われている微調整法は、ローランク適応(LoRA)を介してトレーニング済みの重量を更新することである。
我々は,活性化のミニバッチ上での特異値分解を計算し,新しい重みをデータ駆動方式で初期化することによりLoRAを強化することを提案する。
EVAを言語生成や理解から画像分類や強化学習まで,さまざまな微調整タスクに適用する。
論文 参考訳(メタデータ) (2024-10-09T17:59:06Z) - SVFit: Parameter-Efficient Fine-Tuning of Large Pre-Trained Models Using Singular Values [12.137869917556415]
大規模事前学習モデル(LPM)は、多種多様な自然言語処理やコンピュータビジョンタスクにおいて例外的な性能を示した。
これらのモデルを完全に微調整すると、特にリソース制約のある環境では、大きなメモリの問題が発生します。
本稿では,臨界特異値をトレーニング可能なパラメータとして用いた低ランク行列に対する特異値分解(SVD)を利用した新しいPEFT手法であるSVFitを提案する。
論文 参考訳(メタデータ) (2024-09-09T08:44:53Z) - Memory-Efficient LLM Training with Online Subspace Descent [8.393403749426097]
特異値分解を伴わない新しいサブスペース降下系である Online Subspace Descent を提案する。
Online Subspace Descentは柔軟性があり、トレーニングに最小限のオーバーヘッドしか導入しない。
C4データセット上の60Mから7BパラメータのLLaMAモデルを事前学習するタスクにおいて、オンラインサブスペースDescentは低いパープレキシティと下流タスクのパフォーマンス向上を実現する。
論文 参考訳(メタデータ) (2024-08-23T05:54:53Z) - From GaLore to WeLore: How Low-Rank Weights Non-uniformly Emerge from Low-Rank Gradients [86.40635601953446]
現代大規模言語モデルの様々な層にまたがる低ランク構造の出現について検討する。
WeLore(Weight Low-Rank Projection)を提案する。
論文 参考訳(メタデータ) (2024-07-15T21:05:20Z) - MoRA: High-Rank Updating for Parameter-Efficient Fine-Tuning [105.11844150736536]
低ランク適応は、大規模言語モデルのためのパラメータ効率の良い微調整法として人気がある。
トレーニング可能なパラメータ数を同じ数に保ちながら、高階更新を実現するために2乗行列を用いるMoRAと呼ばれる新しい手法を提案する。
本手法はメモリ集約型タスクではLoRAより優れ,他のタスクでは同等のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-05-20T15:48:32Z) - Curated LLM: Synergy of LLMs and Data Curation for tabular augmentation in low-data regimes [57.62036621319563]
本稿では,Large Language Models (LLMs) の知識を低データ構造におけるデータ拡張に活用したCLLMを紹介する。
従来のジェネレータと比較して,低データ方式におけるCLLMの優れた性能を示す。
論文 参考訳(メタデータ) (2023-12-19T12:34:46Z) - LQ-LoRA: Low-rank Plus Quantized Matrix Decomposition for Efficient Language Model Finetuning [66.85589263870702]
提案手法では,事前学習した行列を高精度の低ランク成分とメモリ効率の量子化成分に分解するために反復アルゴリズムを用いる。
微調整されたRoBERTaとLLaMA-2の実験は、我々の低ランク+量子化行列分解法(LQ-LoRA)が強いQLoRAおよびGPTQ-LoRAベースラインより優れていることを示した。
論文 参考訳(メタデータ) (2023-11-20T18:57:41Z) - Spectral Entry-wise Matrix Estimation for Low-Rank Reinforcement
Learning [53.445068584013896]
低ランク構造を持つ強化学習(RL)における行列推定問題について検討した。
低ランク帯では、回収される行列は期待される腕の報酬を指定し、低ランクマルコフ決定プロセス(MDP)では、例えばMDPの遷移カーネルを特徴付ける。
簡単なスペクトルベースの行列推定手法は,行列の特異部分空間を効率よく復元し,ほぼ最小の入力誤差を示すことを示す。
論文 参考訳(メタデータ) (2023-10-10T17:06:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。