論文の概要: SVFit: Parameter-Efficient Fine-Tuning of Large Pre-Trained Models Using Singular Values
- arxiv url: http://arxiv.org/abs/2409.05926v1
- Date: Mon, 9 Sep 2024 08:44:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-11 21:59:49.864410
- Title: SVFit: Parameter-Efficient Fine-Tuning of Large Pre-Trained Models Using Singular Values
- Title(参考訳): SVFit:特異値を用いた大規模事前学習モデルのパラメータ効率の良い微調整
- Authors: Chengwei Sun, Jiwei Wei, Yujia Wu, Yiming Shi, Shiyuan He, Zeyu Ma, Ning Xie, Yang Yang,
- Abstract要約: 大規模事前学習モデル(LPM)は、多種多様な自然言語処理やコンピュータビジョンタスクにおいて例外的な性能を示した。
これらのモデルを完全に微調整すると、特にリソース制約のある環境では、大きなメモリの問題が発生します。
本稿では,臨界特異値をトレーニング可能なパラメータとして用いた低ランク行列に対する特異値分解(SVD)を利用した新しいPEFT手法であるSVFitを提案する。
- 参考スコア(独自算出の注目度): 12.137869917556415
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large pre-trained models (LPMs) have demonstrated exceptional performance in diverse natural language processing and computer vision tasks. However, fully fine-tuning these models poses substantial memory challenges, particularly in resource-constrained environments. Parameter-efficient fine-tuning (PEFT) methods, such as LoRA, mitigate this issue by adjusting only a small subset of parameters. Nevertheless, these methods typically employ random initialization for low-rank matrices, which can lead to inefficiencies in gradient descent and diminished generalizability due to suboptimal starting points. To address these limitations, we propose SVFit, a novel PEFT approach that leverages singular value decomposition (SVD) to initialize low-rank matrices using critical singular values as trainable parameters. Specifically, SVFit performs SVD on the pre-trained weight matrix to obtain the best rank-r approximation matrix, emphasizing the most critical singular values that capture over 99% of the matrix's information. These top-r singular values are then used as trainable parameters to scale the fundamental subspaces of the matrix, facilitating rapid domain adaptation. Extensive experiments across various pre-trained models in natural language understanding, text-to-image generation, and image classification tasks reveal that SVFit outperforms LoRA while requiring 16 times fewer trainable parameters.
- Abstract(参考訳): 大規模事前学習モデル (LPM) は様々な自然言語処理やコンピュータビジョンタスクにおいて例外的な性能を示した。
しかし、これらのモデルを完全に微調整すると、特に資源制約のある環境では、かなりのメモリの問題が発生する。
LoRAのようなパラメータ効率のよい微細チューニング(PEFT)手法は、パラメータの小さなサブセットだけを調整することでこの問題を軽減する。
しかしながら、これらの手法は典型的には低ランク行列に対してランダム初期化を用い、勾配降下の非効率性や準最適開始点による一般化可能性の低下につながる。
これらの制約に対処するために,特異値分解(SVD)を利用した新しいPEFT手法であるSVFitを提案し,臨界特異値をトレーニング可能なパラメータとして低ランク行列を初期化する。
具体的には、SVFitは事前訓練された重み行列上でSVDを行い、最高のランク-r近似行列を得る。
これらのトップr特異値は、行列の基本部分空間をスケールするために訓練可能なパラメータとして使用され、素早い領域適応を促進する。
自然言語理解、テキスト・ツー・イメージ生成、画像分類タスクにおいて、様々な事前訓練されたモデルに対する広範な実験により、SVFitは16倍のトレーニング可能なパラメータを必要としながら、LoRAより優れていたことが判明した。
関連論文リスト
- Efficient Adaptation of Pre-trained Vision Transformer via Householder Transformation [53.88562288388169]
一般的な戦略である。
事前訓練された視覚変換器(ViT)のPEFT(Efficient Fine-Tuning)は、下流タスクにモデルを適応させる。
適応行列を表現するために,Singular Value Decomposition (SVD) にインスパイアされた新しいPEFT手法を提案する。
SVDは行列を左ユニタリ行列、スケーリング値の対角行列、右ユニタリ行列の積に分解する。
論文 参考訳(メタデータ) (2024-10-30T12:08:30Z) - LoRTA: Low Rank Tensor Adaptation of Large Language Models [70.32218116940393]
Low Rank Adaptation (LoRA) は、下流タスクのための大規模な事前学習モデルに効果的に適応する、PEFT (Efficient Fine Tuning) 手法として人気がある。
モデル更新に低階テンソルパラメトリゼーションを用いる新しい手法を提案する。
提案手法は,大規模言語モデルの微調整に有効であり,比較性能を維持しつつ,パラメータ数の大幅な削減を実現している。
論文 参考訳(メタデータ) (2024-10-05T06:59:50Z) - Step-by-Step Unmasking for Parameter-Efficient Fine-tuning of Large Language Models [18.877891285367216]
パラメータ効率細調整(PEFT)のクラスは、モデルのパラメータのごく一部だけを選択的に微調整することで、計算上の課題を軽減することを目的としている。
我々はパラメータの重要度を連続的に計算し,パラメータを動的にアンマスクする新しいPEFT法である$textID3$を紹介した。
解析的に、$textID3$は勾配更新数を2倍に減らし、計算効率が向上することを示した。
論文 参考訳(メタデータ) (2024-08-26T17:58:53Z) - Data-freeWeight Compress and Denoise for Large Language Models [101.53420111286952]
パラメータ行列を圧縮する手法として,データフリーなジョイントランクk近似を提案する。
キャリブレーションデータなしで、元の性能の93.43%を維持しながら80%のパラメータのモデルプルーニングを実現する。
論文 参考訳(メタデータ) (2024-02-26T05:51:47Z) - Operator SVD with Neural Networks via Nested Low-Rank Approximation [19.562492156734653]
本稿では, トラッピング特異値分解の低ランク近似に基づく新しい最適化フレームワークを提案する。
最上位の$L$特異値と特異関数を正しい順序で学習するためのエンフェンシングと呼ばれる新しい手法。
本稿では,計算物理学と機械学習のユースケースに対する提案手法の有効性を実証する。
論文 参考訳(メタデータ) (2024-02-06T03:06:06Z) - Frustratingly Simple Memory Efficiency for Pre-trained Language Models
via Dynamic Embedding Pruning [42.652021176354644]
プレトレーニング言語モデル(PLM)のメモリフットプリントは、メモリ制限された設定でのデプロイメントを妨げる可能性がある。
本稿では, 組込み行列のメモリフットプリントを最小化するために, この発見を活用する, 単純かつ効果的な手法を提案する。
このアプローチは、幅広いモデルやタスクにわたるメモリ使用量を大幅に削減することを示している。
論文 参考訳(メタデータ) (2023-09-15T19:00:00Z) - AdaLoRA: Adaptive Budget Allocation for Parameter-Efficient Fine-Tuning [143.23123791557245]
下流タスクで訓練済みの大規模言語モデルを微調整することは、NLPにおいて重要なパラダイムとなっている。
重み行列のパラメータ予算をその重要度に応じて適応的に割り当てるAdaLoRAを提案する。
我々は,AdaLoRAの有効性を検証するために,自然言語処理,質問応答,自然言語生成に関する事前学習モデルを用いた広範囲な実験を行った。
論文 参考訳(メタデータ) (2023-03-18T22:36:25Z) - Numerical Optimizations for Weighted Low-rank Estimation on Language
Model [73.12941276331316]
Singular value decomposition (SVD) は、より小さい行列でターゲット行列を近似する最も一般的な圧縮手法の1つである。
標準SVDは行列内のパラメータを同じ重要性で扱うが、これは単純だが非現実的な仮定である。
本手法は,ニューラルベース言語モデルにおいて,現在のSOTA法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-11-02T00:58:02Z) - Parameter-Efficient Sparsity for Large Language Models Fine-Tuning [63.321205487234074]
私たちはaを提案します。
Sparse- efficient Sparse Training (PST) は、スパース・アウェア・トレーニング中にトレーニング可能なパラメータの数を減少させる手法である。
多様なネットワーク(BERT、RoBERTa、GPT-2)を用いた実験では、PSTは従来のスパーシリティ法よりも同等以上の性能を示した。
論文 参考訳(メタデータ) (2022-05-23T02:43:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。