論文の概要: Language model compression with weighted low-rank factorization
- arxiv url: http://arxiv.org/abs/2207.00112v1
- Date: Thu, 30 Jun 2022 21:57:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-05 03:43:16.408603
- Title: Language model compression with weighted low-rank factorization
- Title(参考訳): 重み付き低ランク分解による言語モデル圧縮
- Authors: Yen-Chang Hsu, Ting Hua, Sungen Chang, Qian Lou, Yilin Shen, Hongxia
Jin
- Abstract要約: 本稿では,モデル予測に影響を及ぼすパラメータの重要性を評価するために,フィッシャー情報を紹介する。
結果のタスク精度は、元のモデルの性能にかなり近いことがわかった。
提案手法は,タスク固有のモデルを直接圧縮し,他のコンパクトモデル戦略よりも優れた性能を実現する。
- 参考スコア(独自算出の注目度): 73.61874728240568
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Factorizing a large matrix into small matrices is a popular strategy for
model compression. Singular value decomposition (SVD) plays a vital role in
this compression strategy, approximating a learned matrix with fewer
parameters. However, SVD minimizes the squared error toward reconstructing the
original matrix without gauging the importance of the parameters, potentially
giving a larger reconstruction error for those who affect the task accuracy
more. In other words, the optimization objective of SVD is not aligned with the
trained model's task accuracy. We analyze this previously unexplored problem,
make observations, and address it by introducing Fisher information to weigh
the importance of parameters affecting the model prediction. This idea leads to
our method: Fisher-Weighted SVD (FWSVD). Although the factorized matrices from
our approach do not result in smaller reconstruction errors, we find that our
resulting task accuracy is much closer to the original model's performance. We
perform analysis with the transformer-based language models, showing our
weighted SVD largely alleviates the mismatched optimization objectives and can
maintain model performance with a higher compression rate. Our method can
directly compress a task-specific model while achieving better performance than
other compact model strategies requiring expensive model pre-training.
Moreover, the evaluation of compressing an already compact model shows our
method can further reduce 9% to 30% parameters with an insignificant impact on
task accuracy.
- Abstract(参考訳): 大きな行列を小さな行列に分解することは、モデル圧縮の一般的な戦略である。
特異値分解(SVD)はこの圧縮戦略において重要な役割を担い、少ないパラメータで学習行列を近似する。
しかし、SVDはパラメータの重要性を測ることなく元の行列を再構築する2乗誤差を最小化し、タスク精度に影響を与える人に対してより大きな再構成誤差を与える可能性がある。
言い換えれば、SVDの最適化目標は、訓練されたモデルのタスク精度と一致しない。
これまでの未検証問題を分析し,観察を行い,モデル予測に影響を及ぼすパラメータの重要性を判断するためにフィッシャー情報を導入することで対処する。
このアイデアは、Fisher-Weighted SVD (FWSVD) という手法に導かれる。
提案手法の分解行列は再構成誤差が小さくないが,結果の精度は元のモデルの性能にかなり近いことがわかった。
我々はトランスフォーマーに基づく言語モデルを用いて解析を行い、重み付けされたSVDが最適化目標のミスマッチを軽減し、より高い圧縮率でモデル性能を維持できることを示す。
本手法は,高価な事前学習を必要とする他のコンパクトモデル戦略よりも優れた性能を実現しつつ,タスク固有モデルを直接圧縮することができる。
さらに,すでにコンパクトなモデルを圧縮することで,タスク精度に重要な影響を与えることなく,9%から30%のパラメータを削減できることを示す。
関連論文リスト
- SaRA: High-Efficient Diffusion Model Fine-tuning with Progressive Sparse Low-Rank Adaptation [52.6922833948127]
本研究では,事前学習した拡散モデルにおけるパラメータの重要性について検討する。
本稿では,これらの非効率パラメータをフル活用するための新しいモデル微調整法を提案する。
本手法は,下流アプリケーションにおける事前学習モデルの生成能力を向上する。
論文 参考訳(メタデータ) (2024-09-10T16:44:47Z) - TRAWL: Tensor Reduced and Approximated Weights for Large Language Models [11.064868044313855]
TRAWL (Tensor Reduced and Approximated Weights for Large Language Models) は、複数の重み行列に対してテンソル分解を適用し、大域的な構造パターンを捉えることでLLMを効果的に分解する手法である。
我々の実験によると、TRAWLは、追加のデータやトレーニング、微調整を必要とせず、ベンチマークデータセットのベースラインモデルよりも最大16%モデル性能を向上させる。
論文 参考訳(メタデータ) (2024-06-25T04:01:32Z) - Data-freeWeight Compress and Denoise for Large Language Models [101.53420111286952]
パラメータ行列を圧縮する手法として,データフリーなジョイントランクk近似を提案する。
キャリブレーションデータなしで、元の性能の93.43%を維持しながら80%のパラメータのモデルプルーニングを実現する。
論文 参考訳(メタデータ) (2024-02-26T05:51:47Z) - Efficient Compression of Overparameterized Deep Models through
Low-Dimensional Learning Dynamics [10.673414267895355]
本稿ではパラメータ化モデルを用いた新しい圧縮手法を提案する。
本アルゴリズムは, 一般化を損なうことなく, トレーニング効率を2倍以上に向上させる。
論文 参考訳(メタデータ) (2023-11-08T23:57:03Z) - Self-Supervised Dataset Distillation for Transfer Learning [77.4714995131992]
ラベルなしデータセットを、効率的な自己教師付き学習(SSL)のための小さな合成サンプル群に蒸留する新しい問題を提案する。
両レベル最適化におけるSSL目標に対する合成サンプルの勾配は、データ拡張やマスキングから生じるランダム性から、テキストバイアスを受けていることを最初に証明する。
転送学習を含む様々な応用における本手法の有効性を実証的に検証する。
論文 参考訳(メタデータ) (2023-10-10T10:48:52Z) - Scaling Pre-trained Language Models to Deeper via Parameter-efficient
Architecture [68.13678918660872]
行列積演算子(MPO)に基づくより有能なパラメータ共有アーキテクチャを設計する。
MPO分解はパラメータ行列の情報を再編成し、2つの部分に分解することができる。
私たちのアーキテクチャは、モデルのサイズを減らすために、すべてのレイヤで中央テンソルを共有しています。
論文 参考訳(メタデータ) (2023-03-27T02:34:09Z) - Numerical Optimizations for Weighted Low-rank Estimation on Language
Model [73.12941276331316]
Singular value decomposition (SVD) は、より小さい行列でターゲット行列を近似する最も一般的な圧縮手法の1つである。
標準SVDは行列内のパラメータを同じ重要性で扱うが、これは単純だが非現実的な仮定である。
本手法は,ニューラルベース言語モデルにおいて,現在のSOTA法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-11-02T00:58:02Z) - Multi-Dimensional Model Compression of Vision Transformer [21.8311401851523]
近年、視覚変換器 (ViT) が注目されているが、その膨大な計算コストは実用的展開において問題となっている。
従来のViTプルーニング法は、モデルを1次元だけに沿ってプルークする傾向がある。
我々は,多次元のViT圧縮パラダイムを提唱し,アテンションヘッド,ニューロン,シーケンス次元からの冗長性低減を共同で行うことを提案する。
論文 参考訳(メタデータ) (2021-12-31T19:54:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。