論文の概要: CLOVER: Cross-Layer Orthogonal Vectors Pruning and Fine-Tuning
- arxiv url: http://arxiv.org/abs/2411.17426v3
- Date: Fri, 31 Jan 2025 14:13:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-03 13:59:39.733117
- Title: CLOVER: Cross-Layer Orthogonal Vectors Pruning and Fine-Tuning
- Title(参考訳): CLOVER: クロス層直交ベクトルのプルーニングと微調整
- Authors: Fanxu Meng, Pingzhi Tang, Fan jiang, Muhan Zhang,
- Abstract要約: CLOVER(Cross-Layer Orthogonal Vectors)は、注目層を低ランク分解の集合として扱う新しいアプローチである。
我々は、GPT-2 XL、DeepSeek-V2-Lite、Whisper-Large-v3、Stable Diffusion XL、LLaMA-3.2-11B-Visionなど、様々なモデルに適用する。
- 参考スコア(独自算出の注目度): 24.697865155104644
- License:
- Abstract: Decoder-only models generate tokens autoregressively by caching key/value vectors, but as the cache grows, inference becomes memory-bound. To address this issue, we introduce CLOVER (Cross-Layer Orthogonal Vectors), a novel approach that treats pairs of attention layers as a set of low-rank decompositions. CLOVER applies Singular Value Decomposition (SVD) to the \( Q \)-\( K \) and \( V \)-\( O \) pairs within each attention head. The resulting singular values can either guide pruning or serve as trainable parameters for efficient fine-tuning of all orthogonal vectors. After pruning or fine-tuning, these values are reintegrated into the model without increasing its parameter count. We apply CLOVER to various models, including GPT-2 XL, DeepSeek-V2-Lite, Whisper-Large-v3, Stable Diffusion XL, and LLaMA-3.2-11B-Vision. Our results demonstrate that CLOVER significantly improves pruning efficiency. For instance, the perplexity of pruning 70\% of the \( Q \)-\( K \) pairs in GPT-2 XL is similar to that of pruning just 8\% with vanilla methods. Fine-tuning the singular values further results in a full-rank update, outperforming state-of-the-art methods (LoRA, DoRA, HiRA, and PiSSA) by 7.6\%, 5.5\%, 3.8\%, and 0.7\%, respectively, on eight commonsense tasks for LLaMA-2 7B.
- Abstract(参考訳): デコーダのみのモデルでは、キー/値ベクトルをキャッシュすることでトークンを自動回帰的に生成するが、キャッシュが大きくなると、推論はメモリバウンドになる。
CLOVER(Cross-Layer Orthogonal Vectors)は、注目層を低ランク分解の集合として扱う新しい手法である。
CLOVERは、各注目ヘッド内の \(Q \)-\(K \) と \(V \)-\(O \) のペアに特異値分解(SVD)を適用する。
得られた特異値はプルーニングを導くか、すべての直交ベクトルを効率的に微調整するための訓練可能なパラメータとして機能する。
プルーニングや微調整の後、これらの値はパラメータ数を増やすことなくモデルに再統合される。
我々は、GPT-2 XL、DeepSeek-V2-Lite、Whisper-Large-v3、Stable Diffusion XL、LLaMA-3.2-11B-Visionなど、様々なモデルに適用する。
以上の結果から,CLOVERは刈り込み効率を大幅に向上することが示された。
例えば、GPT-2 XL における \(Q \)-\(K \) 対のプルーニングのパープレキシティは、バニラ法でわずか 8\% のプルーニングと似ている。
特異値を微調整すると、LLaMA-2 7Bの8つのコモンセンスタスクにおいて、それぞれ7.6\%、5.5\%、3.8\%、0.7\%の精度で、最先端の手法(LoRA、DoRA、HiRA、PiSSA)より優れたパフォーマンスが得られる。
関連論文リスト
- LoRA$^2$ : Multi-Scale Low-Rank Approximations for Fine-Tuning Large Language Models [3.7049613588433497]
Low-Rank Adaptation (LoRA)は、微調整のためのトレーニング可能なパラメータの数を著しく削減する。
LoRAを複数のスケールに拡張し、LoRA$2$と名付けます。
論文 参考訳(メタデータ) (2024-08-13T12:31:30Z) - ADMM Based Semi-Structured Pattern Pruning Framework For Transformer [4.02487511510606]
本稿では,アクティベーションマップの分布を再構成する,ADMM(Alternating Direction Method of Multipliers)に基づくパターン解析フレームワークを提案する。
GLUEデータセット上の分類タスクについて広範な実験を行った。
GLUEデータセットの総合スコア80.1を維持しながら圧縮率50%を達成した。
論文 参考訳(メタデータ) (2024-07-11T09:35:08Z) - DELLA-Merging: Reducing Interference in Model Merging through Magnitude-Based Sampling [24.270321913746233]
そこで本研究では,mAgnitude(DELLA-Merging)とSampLingを併用した新しいモデルマージ手法であるDropとrEscaLeを提案する。
MAGPRUNEはまず、これらのパラメータを等級順にランク付けし、より低い等級のパラメータに高い降下確率(p)を割り当てる。
論文 参考訳(メタデータ) (2024-06-17T15:02:45Z) - Bypass Back-propagation: Optimization-based Structural Pruning for Large Language Models via Policy Gradient [57.9629676017527]
大規模言語モデルを用いた最適化に基づく構造解析手法を提案する。
我々は,プルーニングモデルの損失を最適化することにより,確率空間におけるプルーニングマスクを直接学習する。
A100 GPUで13Bモデルに対して約35GBのメモリで2.7時間動作させる。
論文 参考訳(メタデータ) (2024-06-15T09:31:03Z) - CLIP-AD: A Language-Guided Staged Dual-Path Model for Zero-shot Anomaly
Detection [49.510604614688745]
大規模視覚言語モデルCLIPのゼロショット機能を活用するために,CLIP-ADというフレームワークを提案する。
異常写像の直接計算における逆の予測と無関係なハイライトについて述べる。
論文 参考訳(メタデータ) (2023-11-01T11:39:22Z) - Transformers meet Stochastic Block Models: Attention with Data-Adaptive
Sparsity and Cost [53.746169882193456]
最近の研究は、自己注意の二次的コストを克服するために、様々なスパークアテンションモジュールを提案している。
本稿では,それぞれの注意を混合メンバーシップブロックモデルで表現することで,両方の問題を解決するモデルを提案する。
我々のモデルは、以前の効率的な変種とオリジナルのトランスフォーマーより優れており、十分に注目されています。
論文 参考訳(メタデータ) (2022-10-27T15:30:52Z) - On the Eigenvalues of Global Covariance Pooling for Fine-grained Visual
Recognition [65.67315418971688]
グローバル共分散プーリング(GCP)の小さな固有値をトラッピングすることで、よりスムーズな勾配が得られることを示す。
きめ細かいデータセットでは、小さな固有値の切り抜きは、モデルを収束させるのに失敗する。
この観測から着想を得て,小さな固有値の重要性を拡大するネットワーク分岐を提案する。
論文 参考訳(メタデータ) (2022-05-26T11:41:36Z) - Basis Scaling and Double Pruning for Efficient Inference in
Network-Based Transfer Learning [1.3467579878240454]
畳み込み層をフィルタとして正規基底ベクトルを持つ畳み込み層と、特徴を再スケーリングする"BasisScalingConv"層に分解する。
CIFAR-10では74.6%、MNISTでは98.9%のプルーニング比が得られる。
論文 参考訳(メタデータ) (2021-08-06T00:04:02Z) - MLPruning: A Multilevel Structured Pruning Framework for
Transformer-based Models [78.45898846056303]
プルーニングは、大きな自然言語処理モデルに関連するメモリフットプリントと計算コストを削減する効果的な方法である。
我々は,頭部刈り込み,行刈り,ブロックワイズ刈りという3つの異なるレベルの構造化刈り込みを利用する,新しいマルチレベル構造化刈り込みフレームワークを開発した。
論文 参考訳(メタデータ) (2021-05-30T22:00:44Z) - Joint Multi-Dimension Pruning via Numerical Gradient Update [120.59697866489668]
本稿では,空間,深さ,チャネルの3つの重要な側面において,ネットワークを同時に切断する方法であるジョイント・マルチディメンジョン・プルーニング(ジョイント・プルーニング)を提案する。
本手法は,1つのエンドツーエンドトレーニングにおいて3次元にわたって協調的に最適化され,従来よりも効率がよいことを示す。
論文 参考訳(メタデータ) (2020-05-18T17:57:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。