論文の概要: CLOVER: Cross-Layer Orthogonal Vectors Pruning and Fine-Tuning
- arxiv url: http://arxiv.org/abs/2411.17426v3
- Date: Fri, 31 Jan 2025 14:13:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-03 13:59:39.733117
- Title: CLOVER: Cross-Layer Orthogonal Vectors Pruning and Fine-Tuning
- Title(参考訳): CLOVER: クロス層直交ベクトルのプルーニングと微調整
- Authors: Fanxu Meng, Pingzhi Tang, Fan jiang, Muhan Zhang,
- Abstract要約: CLOVER(Cross-Layer Orthogonal Vectors)は、注目層を低ランク分解の集合として扱う新しいアプローチである。
我々は、GPT-2 XL、DeepSeek-V2-Lite、Whisper-Large-v3、Stable Diffusion XL、LLaMA-3.2-11B-Visionなど、様々なモデルに適用する。
- 参考スコア(独自算出の注目度): 24.697865155104644
- License:
- Abstract: Decoder-only models generate tokens autoregressively by caching key/value vectors, but as the cache grows, inference becomes memory-bound. To address this issue, we introduce CLOVER (Cross-Layer Orthogonal Vectors), a novel approach that treats pairs of attention layers as a set of low-rank decompositions. CLOVER applies Singular Value Decomposition (SVD) to the \( Q \)-\( K \) and \( V \)-\( O \) pairs within each attention head. The resulting singular values can either guide pruning or serve as trainable parameters for efficient fine-tuning of all orthogonal vectors. After pruning or fine-tuning, these values are reintegrated into the model without increasing its parameter count. We apply CLOVER to various models, including GPT-2 XL, DeepSeek-V2-Lite, Whisper-Large-v3, Stable Diffusion XL, and LLaMA-3.2-11B-Vision. Our results demonstrate that CLOVER significantly improves pruning efficiency. For instance, the perplexity of pruning 70\% of the \( Q \)-\( K \) pairs in GPT-2 XL is similar to that of pruning just 8\% with vanilla methods. Fine-tuning the singular values further results in a full-rank update, outperforming state-of-the-art methods (LoRA, DoRA, HiRA, and PiSSA) by 7.6\%, 5.5\%, 3.8\%, and 0.7\%, respectively, on eight commonsense tasks for LLaMA-2 7B.
- Abstract(参考訳): デコーダのみのモデルでは、キー/値ベクトルをキャッシュすることでトークンを自動回帰的に生成するが、キャッシュが大きくなると、推論はメモリバウンドになる。
CLOVER(Cross-Layer Orthogonal Vectors)は、注目層を低ランク分解の集合として扱う新しい手法である。
CLOVERは、各注目ヘッド内の \(Q \)-\(K \) と \(V \)-\(O \) のペアに特異値分解(SVD)を適用する。
得られた特異値はプルーニングを導くか、すべての直交ベクトルを効率的に微調整するための訓練可能なパラメータとして機能する。
プルーニングや微調整の後、これらの値はパラメータ数を増やすことなくモデルに再統合される。
我々は、GPT-2 XL、DeepSeek-V2-Lite、Whisper-Large-v3、Stable Diffusion XL、LLaMA-3.2-11B-Visionなど、様々なモデルに適用する。
以上の結果から,CLOVERは刈り込み効率を大幅に向上することが示された。
例えば、GPT-2 XL における \(Q \)-\(K \) 対のプルーニングのパープレキシティは、バニラ法でわずか 8\% のプルーニングと似ている。
特異値を微調整すると、LLaMA-2 7Bの8つのコモンセンスタスクにおいて、それぞれ7.6\%、5.5\%、3.8\%、0.7\%の精度で、最先端の手法(LoRA、DoRA、HiRA、PiSSA)より優れたパフォーマンスが得られる。
関連論文リスト
- Efficient Adaptation of Pre-trained Vision Transformer via Householder Transformation [53.88562288388169]
一般的な戦略である。
事前訓練された視覚変換器(ViT)のPEFT(Efficient Fine-Tuning)は、下流タスクにモデルを適応させる。
適応行列を表現するために,Singular Value Decomposition (SVD) にインスパイアされた新しいPEFT手法を提案する。
SVDは行列を左ユニタリ行列、スケーリング値の対角行列、右ユニタリ行列の積に分解する。
論文 参考訳(メタデータ) (2024-10-30T12:08:30Z) - EoRA: Training-free Compensation for Compressed LLM with Eigenspace Low-Rank Approximation [79.56709262189953]
EoRAは、圧縮されたLLaMA2/3モデルの様々なタスクにおけるエラーを補償する従来の手法より一貫して優れている。
EoRAは、圧縮エラーを補うスケーラブルでトレーニング不要なソリューションを提供する。
論文 参考訳(メタデータ) (2024-10-28T17:59:03Z) - Memory-Efficient LLM Training with Online Subspace Descent [8.393403749426097]
特異値分解を伴わない新しいサブスペース降下系である Online Subspace Descent を提案する。
Online Subspace Descentは柔軟性があり、トレーニングに最小限のオーバーヘッドしか導入しない。
C4データセット上の60Mから7BパラメータのLLaMAモデルを事前学習するタスクにおいて、オンラインサブスペースDescentは低いパープレキシティと下流タスクのパフォーマンス向上を実現する。
論文 参考訳(メタデータ) (2024-08-23T05:54:53Z) - MiLoRA: Harnessing Minor Singular Components for Parameter-Efficient LLM Finetuning [16.67302585857681]
重み行列の小さな特異成分のみを更新する単純なLLM微調整手法であるMiLoRAを提案する。
主行列は重要な知識を含むのに対し、マイナー行列はノイズ情報またはロングテール情報に対応することが観察された。
微調整の間、MiLoRAはラベル付きデータセットを学習するために最適化されていないサブスペースを最大限に活用する。
論文 参考訳(メタデータ) (2024-06-13T12:30:02Z) - AffineQuant: Affine Transformation Quantization for Large Language Models [58.45460102764]
ポストトレーニング量子化(PTQ)は、その圧縮効率とトレーニングの文脈における費用対効果により、かなりの関心を集めている。
既存の大規模言語モデル(LLM)のPTQ手法は、事前量子化重みと後量子化重みの間の変換のスケーリングに最適化範囲を制限している。
本稿では,PTQ(AffineQuant)における等価アフィン変換を用いた直接最適化を提唱する。
論文 参考訳(メタデータ) (2024-03-19T08:40:21Z) - ConvLoRA and AdaBN based Domain Adaptation via Self-Training [4.006331916849688]
マルチターゲットドメイン適応のための畳み込み低ランク適応(ConvLoRA)を提案する。
ConvLoRAはトレーニング済みのモデルウェイトを凍結し、畳み込み層にトレーニング可能な低ランク分解行列を追加し、勾配をバックプロパゲートする。
提案手法はトレーニング可能なパラメータを少なくし,大規模独立微調整ネットワークと同等あるいは同等に動作する。
論文 参考訳(メタデータ) (2024-02-07T15:43:50Z) - LQ-LoRA: Low-rank Plus Quantized Matrix Decomposition for Efficient Language Model Finetuning [66.85589263870702]
提案手法では,事前学習した行列を高精度の低ランク成分とメモリ効率の量子化成分に分解するために反復アルゴリズムを用いる。
微調整されたRoBERTaとLLaMA-2の実験は、我々の低ランク+量子化行列分解法(LQ-LoRA)が強いQLoRAおよびGPTQ-LoRAベースラインより優れていることを示した。
論文 参考訳(メタデータ) (2023-11-20T18:57:41Z) - Solving weakly supervised regression problem using low-rank manifold
regularization [77.34726150561087]
我々は弱い教師付き回帰問題を解く。
weakly"の下では、いくつかのトレーニングポイントではラベルが知られ、未知のものもあれば、無作為なノイズの存在やリソースの欠如などの理由によって不確かであることが分かっています。
数値的な節ではモンテカルロモデルを用いて提案手法を人工と実のデータセットに適用した。
論文 参考訳(メタデータ) (2021-04-13T23:21:01Z) - Training Invertible Linear Layers through Rank-One Perturbations [0.0]
この研究は、非可逆線形層をトレーニングするための新しいアプローチを示す。
ネットワークパラメータを直接最適化する代わりに、ランク1の摂動を訓練し、しばしば実際の重み行列に追加する。
このような非可逆ブロックが混合性を改善し, 結果として発生する流れのモード分離を正規化する方法を示す。
論文 参考訳(メタデータ) (2020-10-14T12:43:47Z) - Controllable Orthogonalization in Training DNNs [96.1365404059924]
直交性はディープニューラルネットワーク(DNN)のトレーニングに広く用いられている。
本稿では,ニュートン反復(ONI)を用いた計算効率が高く,数値的に安定な直交化法を提案する。
本稿では,画像分類ネットワークの性能向上のために,最適化の利点と表現能力の低下との間に最適なトレードオフを与えるために,直交性を効果的に制御する手法を提案する。
また、ONIは、スペクトル正規化と同様に、ネットワークのリプシッツ連続性を維持することにより、GAN(Generative Adversarial Network)のトレーニングを安定化させることを示した。
論文 参考訳(メタデータ) (2020-04-02T10:14:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。