Fugu-MT 論文翻訳(概要): CLOVER: Cross-Layer Orthogonal Vectors Pruning and Fine-Tuning

論文の概要: CLOVER: Cross-Layer Orthogonal Vectors Pruning and Fine-Tuning

arxiv url: http://arxiv.org/abs/2411.17426v3
Date: Fri, 31 Jan 2025 14:13:49 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-03 14:50:17.544982
Title: CLOVER: Cross-Layer Orthogonal Vectors Pruning and Fine-Tuning
Title（参考訳）: CLOVER: クロス層直交ベクトルのプルーニングと微調整
Authors: Fanxu Meng, Pingzhi Tang, Fan jiang, Muhan Zhang,
Abstract要約: CLOVER(Cross-Layer Orthogonal Vectors)は、注目層を低ランク分解の集合として扱う新しいアプローチである。我々は、GPT-2 XL、DeepSeek-V2-Lite、Whisper-Large-v3、Stable Diffusion XL、LLaMA-3.2-11B-Visionなど、様々なモデルに適用する。
参考スコア（独自算出の注目度）: 24.697865155104644
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Decoder-only models generate tokens autoregressively by caching key/value vectors, but as the cache grows, inference becomes memory-bound. To address this issue, we introduce CLOVER (Cross-Layer Orthogonal Vectors), a novel approach that treats pairs of attention layers as a set of low-rank decompositions. CLOVER applies Singular Value Decomposition (SVD) to the $ Q $-$ K $ and $ V $-$ O $ pairs within each attention head. The resulting singular values can either guide pruning or serve as trainable parameters for efficient fine-tuning of all orthogonal vectors. After pruning or fine-tuning, these values are reintegrated into the model without increasing its parameter count. We apply CLOVER to various models, including GPT-2 XL, DeepSeek-V2-Lite, Whisper-Large-v3, Stable Diffusion XL, and LLaMA-3.2-11B-Vision. Our results demonstrate that CLOVER significantly improves pruning efficiency. For instance, the perplexity of pruning 70\% of the $ Q $-$ K $ pairs in GPT-2 XL is similar to that of pruning just 8\% with vanilla methods. Fine-tuning the singular values further results in a full-rank update, outperforming state-of-the-art methods (LoRA, DoRA, HiRA, and PiSSA) by 7.6\%, 5.5\%, 3.8\%, and 0.7\%, respectively, on eight commonsense tasks for LLaMA-2 7B.
Abstract（参考訳）: デコーダのみのモデルでは、キー/値ベクトルをキャッシュすることでトークンを自動回帰的に生成するが、キャッシュが大きくなると、推論はメモリバウンドになる。 CLOVER(Cross-Layer Orthogonal Vectors)は、注目層を低ランク分解の集合として扱う新しい手法である。 CLOVERは、各注目ヘッド内の $Q $-$K $ と $V $-$O $ のペアに特異値分解(SVD)を適用する。得られた特異値はプルーニングを導くか、すべての直交ベクトルを効率的に微調整するための訓練可能なパラメータとして機能する。プルーニングや微調整の後、これらの値はパラメータ数を増やすことなくモデルに再統合される。我々は、GPT-2 XL、DeepSeek-V2-Lite、Whisper-Large-v3、Stable Diffusion XL、LLaMA-3.2-11B-Visionなど、様々なモデルに適用する。以上の結果から,CLOVERは刈り込み効率を大幅に向上することが示された。例えば、GPT-2 XL における $Q $-$K $ 対のプルーニングのパープレキシティは、バニラ法でわずか 8\% のプルーニングと似ている。特異値を微調整すると、LLaMA-2 7Bの8つのコモンセンスタスクにおいて、それぞれ7.6\%、5.5\%、3.8\%、0.7\%の精度で、最先端の手法(LoRA、DoRA、HiRA、PiSSA)より優れたパフォーマンスが得られる。

関連論文リスト

High-Layer Attention Pruning with Rescaling [14.141903038286362]
プルーニングは大規模言語モデル(LLM)の圧縮に非常に効果的な手法である本稿では,モデル上層における注意を戦略的に喚起する新しいプルーニングアルゴリズムを提案する。我々は, LLaMA3.1-8B, Mistral-7B-v0.3, Qwen2-7B, Gemma2-9Bを含む広範囲のLLMについて総合的な実験を行った。
論文参考訳（メタデータ） (2025-07-02T17:15:05Z)
Generalized Kullback-Leibler Divergence Loss [105.66549870868971]
我々は、クルバック・リブラー(KL)の除算損失がデカップリングカルバック・リブラー(DKL)の除算損失と等価であることを証明した。 DKL損失の非結合構造により,我々は改善すべき2つの領域を特定した。
論文参考訳（メタデータ） (2025-03-11T04:43:33Z)
Align Attention Heads Before Merging Them: An Effective Way for Converting MHA to GQA [8.305827430948654]
KVヘッドの圧縮比によらず,MHAをGQAに変換するコスト効率の良い方法を提案する。冗長パラメータをプループするために$mathitL$正規化を使用します。実験の結果,LLaMA2-7Bモデルでは87.5%のKVヘッドを圧縮し,75%のKVヘッドをせん断型LLaMA-1.3Bで圧縮し,性能劣化を許容できることがわかった。
論文参考訳（メタデータ） (2024-12-30T03:05:45Z)
Efficient Adaptation of Pre-trained Vision Transformer via Householder Transformation [53.88562288388169]
一般的な戦略である。事前訓練された視覚変換器(ViT)のPEFT(Efficient Fine-Tuning)は、下流タスクにモデルを適応させる。適応行列を表現するために,Singular Value Decomposition (SVD) にインスパイアされた新しいPEFT手法を提案する。 SVDは行列を左ユニタリ行列、スケーリング値の対角行列、右ユニタリ行列の積に分解する。
論文参考訳（メタデータ） (2024-10-30T12:08:30Z)
EoRA: Training-free Compensation for Compressed LLM with Eigenspace Low-Rank Approximation [79.56709262189953]
EoRAは、圧縮されたLLaMA2/3モデルの様々なタスクにおけるエラーを補償する従来の手法より一貫して優れている。 EoRAは、圧縮エラーを補うスケーラブルでトレーニング不要なソリューションを提供する。
論文参考訳（メタデータ） (2024-10-28T17:59:03Z)
Memory-Efficient LLM Training with Online Subspace Descent [8.393403749426097]
特異値分解を伴わない新しいサブスペース降下系である Online Subspace Descent を提案する。 Online Subspace Descentは柔軟性があり、トレーニングに最小限のオーバーヘッドしか導入しない。 C4データセット上の60Mから7BパラメータのLLaMAモデルを事前学習するタスクにおいて、オンラインサブスペースDescentは低いパープレキシティと下流タスクのパフォーマンス向上を実現する。
論文参考訳（メタデータ） (2024-08-23T05:54:53Z)
LoRA$^2$ : Multi-Scale Low-Rank Approximations for Fine-Tuning Large Language Models [3.7049613588433497]
Low-Rank Adaptation (LoRA)は、微調整のためのトレーニング可能なパラメータの数を著しく削減する。 LoRAを複数のスケールに拡張し、LoRA$2$と名付けます。
論文参考訳（メタデータ） (2024-08-13T12:31:30Z)
ADMM Based Semi-Structured Pattern Pruning Framework For Transformer [4.02487511510606]
本稿では,アクティベーションマップの分布を再構成する,ADMM(Alternating Direction Method of Multipliers)に基づくパターン解析フレームワークを提案する。 GLUEデータセット上の分類タスクについて広範な実験を行った。 GLUEデータセットの総合スコア80.1を維持しながら圧縮率50%を達成した。
論文参考訳（メタデータ） (2024-07-11T09:35:08Z)
DELLA-Merging: Reducing Interference in Model Merging through Magnitude-Based Sampling [24.270321913746233]
そこで本研究では,mAgnitude(DELLA-Merging)とSampLingを併用した新しいモデルマージ手法であるDropとrEscaLeを提案する。 MAGPRUNEはまず、これらのパラメータを等級順にランク付けし、より低い等級のパラメータに高い降下確率(p)を割り当てる。
論文参考訳（メタデータ） (2024-06-17T15:02:45Z)
MiLoRA: Harnessing Minor Singular Components for Parameter-Efficient LLM Finetuning [16.67302585857681]
重み行列の小さな特異成分のみを更新する単純なLLM微調整手法であるMiLoRAを提案する。主行列は重要な知識を含むのに対し、マイナー行列はノイズ情報またはロングテール情報に対応することが観察された。微調整の間、MiLoRAはラベル付きデータセットを学習するために最適化されていないサブスペースを最大限に活用する。
論文参考訳（メタデータ） (2024-06-13T12:30:02Z)
AffineQuant: Affine Transformation Quantization for Large Language Models [58.45460102764]
ポストトレーニング量子化(PTQ)は、その圧縮効率とトレーニングの文脈における費用対効果により、かなりの関心を集めている。既存の大規模言語モデル(LLM)のPTQ手法は、事前量子化重みと後量子化重みの間の変換のスケーリングに最適化範囲を制限している。本稿では,PTQ(AffineQuant)における等価アフィン変換を用いた直接最適化を提唱する。
論文参考訳（メタデータ） (2024-03-19T08:40:21Z)
ConvLoRA and AdaBN based Domain Adaptation via Self-Training [4.006331916849688]
マルチターゲットドメイン適応のための畳み込み低ランク適応(ConvLoRA)を提案する。 ConvLoRAはトレーニング済みのモデルウェイトを凍結し、畳み込み層にトレーニング可能な低ランク分解行列を追加し、勾配をバックプロパゲートする。提案手法はトレーニング可能なパラメータを少なくし,大規模独立微調整ネットワークと同等あるいは同等に動作する。
論文参考訳（メタデータ） (2024-02-07T15:43:50Z)
LQ-LoRA: Low-rank Plus Quantized Matrix Decomposition for Efficient Language Model Finetuning [66.85589263870702]
提案手法では,事前学習した行列を高精度の低ランク成分とメモリ効率の量子化成分に分解するために反復アルゴリズムを用いる。微調整されたRoBERTaとLLaMA-2の実験は、我々の低ランク+量子化行列分解法(LQ-LoRA)が強いQLoRAおよびGPTQ-LoRAベースラインより優れていることを示した。
論文参考訳（メタデータ） (2023-11-20T18:57:41Z)
CLIP-AD: A Language-Guided Staged Dual-Path Model for Zero-shot Anomaly Detection [49.510604614688745]
大規模視覚言語モデルCLIPのゼロショット機能を活用するために,CLIP-ADというフレームワークを提案する。異常写像の直接計算における逆の予測と無関係なハイライトについて述べる。
論文参考訳（メタデータ） (2023-11-01T11:39:22Z)
Attention Map Guided Transformer Pruning for Edge Device [98.42178656762114]
視覚トランスフォーマー (ViT) は, 全体的かつ隠蔽された人物再識別 (Re-ID) タスクにおいて, 有望な成功を収めた。本稿では、冗長なトークンとヘッドの両方を除去する新しいアテンションマップガイド(AMG)トランスフォーマープルーニング法を提案する。 Occluded DukeMTMC と Market-1501 に関する総合的な実験により,提案手法の有効性が示された。
論文参考訳（メタデータ） (2023-04-04T01:51:53Z)
Transformers meet Stochastic Block Models: Attention with Data-Adaptive Sparsity and Cost [53.746169882193456]
最近の研究は、自己注意の二次的コストを克服するために、様々なスパークアテンションモジュールを提案している。本稿では,それぞれの注意を混合メンバーシップブロックモデルで表現することで,両方の問題を解決するモデルを提案する。我々のモデルは、以前の効率的な変種とオリジナルのトランスフォーマーより優れており、十分に注目されています。
論文参考訳（メタデータ） (2022-10-27T15:30:52Z)
On the Eigenvalues of Global Covariance Pooling for Fine-grained Visual Recognition [65.67315418971688]
グローバル共分散プーリング(GCP)の小さな固有値をトラッピングすることで、よりスムーズな勾配が得られることを示す。きめ細かいデータセットでは、小さな固有値の切り抜きは、モデルを収束させるのに失敗する。この観測から着想を得て,小さな固有値の重要性を拡大するネットワーク分岐を提案する。
論文参考訳（メタデータ） (2022-05-26T11:41:36Z)
Basis Scaling and Double Pruning for Efficient Inference in Network-Based Transfer Learning [1.3467579878240454]
畳み込み層をフィルタとして正規基底ベクトルを持つ畳み込み層と、特徴を再スケーリングする"BasisScalingConv"層に分解する。 CIFAR-10では74.6%、MNISTでは98.9%のプルーニング比が得られる。
論文参考訳（メタデータ） (2021-08-06T00:04:02Z)
MLPruning: A Multilevel Structured Pruning Framework for Transformer-based Models [78.45898846056303]
プルーニングは、大きな自然言語処理モデルに関連するメモリフットプリントと計算コストを削減する効果的な方法である。我々は,頭部刈り込み,行刈り,ブロックワイズ刈りという3つの異なるレベルの構造化刈り込みを利用する,新しいマルチレベル構造化刈り込みフレームワークを開発した。
論文参考訳（メタデータ） (2021-05-30T22:00:44Z)
Solving weakly supervised regression problem using low-rank manifold regularization [77.34726150561087]
我々は弱い教師付き回帰問題を解く。 weakly"の下では、いくつかのトレーニングポイントではラベルが知られ、未知のものもあれば、無作為なノイズの存在やリソースの欠如などの理由によって不確かであることが分かっています。数値的な節ではモンテカルロモデルを用いて提案手法を人工と実のデータセットに適用した。
論文参考訳（メタデータ） (2021-04-13T23:21:01Z)
Training Invertible Linear Layers through Rank-One Perturbations [0.0]
この研究は、非可逆線形層をトレーニングするための新しいアプローチを示す。ネットワークパラメータを直接最適化する代わりに、ランク1の摂動を訓練し、しばしば実際の重み行列に追加する。このような非可逆ブロックが混合性を改善し, 結果として発生する流れのモード分離を正規化する方法を示す。
論文参考訳（メタデータ） (2020-10-14T12:43:47Z)
Joint Multi-Dimension Pruning via Numerical Gradient Update [120.59697866489668]
本稿では,空間,深さ,チャネルの3つの重要な側面において,ネットワークを同時に切断する方法であるジョイント・マルチディメンジョン・プルーニング(ジョイント・プルーニング)を提案する。本手法は,1つのエンドツーエンドトレーニングにおいて3次元にわたって協調的に最適化され,従来よりも効率がよいことを示す。
論文参考訳（メタデータ） (2020-05-18T17:57:09Z)
Controllable Orthogonalization in Training DNNs [96.1365404059924]
直交性はディープニューラルネットワーク(DNN)のトレーニングに広く用いられている。本稿では,ニュートン反復(ONI)を用いた計算効率が高く,数値的に安定な直交化法を提案する。本稿では,画像分類ネットワークの性能向上のために,最適化の利点と表現能力の低下との間に最適なトレードオフを与えるために,直交性を効果的に制御する手法を提案する。また、ONIは、スペクトル正規化と同様に、ネットワークのリプシッツ連続性を維持することにより、GAN(Generative Adversarial Network)のトレーニングを安定化させることを示した。
論文参考訳（メタデータ） (2020-04-02T10:14:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。