論文の概要: Learning Parameter Sharing with Tensor Decompositions and Sparsity
- arxiv url: http://arxiv.org/abs/2411.09816v3
- Date: Sun, 23 Feb 2025 20:02:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 18:15:43.507755
- Title: Learning Parameter Sharing with Tensor Decompositions and Sparsity
- Title(参考訳): テンソル分解とスパーシリティによる学習パラメータ共有
- Authors: Cem Üyük, Mike Lasby, Mohamed Yassin, Utku Evci, Yani Ioannou,
- Abstract要約: 大規模視覚変換器(ViT)と大規模言語モデル(LLM)を圧縮するための細粒度特異共有(FiPS)を導入する。
FiPSは、多層パーセプトロン(MLP)モジュール間でニューロンを表現するために共有塩基とスパース因子を用いる。
実験の結果, 各種Gemma-2およびLlama-3モデルでは, パラメータ予算をDeiT-BおよびSwin-Lで50-75%, Gemma-2およびLlama-3モデルで40-50%削減できることがわかった。
- 参考スコア(独自算出の注目度): 5.73573685846194
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large neural networks exhibit exceptional performance across numerous tasks, yet their considerable size often hinders deployment on resource-constrained systems. While various model compression strategies have been well studied, parameter sharing remains underexplored. In this paper, we introduce Fine-grained Parameter Sharing (FiPS), a novel algorithm that leverages parameter sharing, tensor decomposition, and sparsity to effectively compress large-scale Vision Transformers (ViTs) and Large Language Models (LLMs). FiPS employs a shared base and sparse factors to represent neurons across multi-layer perceptron (MLP) modules, where initialization is guided by Singular Value Decomposition (SVD) and subsequent optimization is conducted through block-wise reconstruction error minimization. Experimental results show that FiPS reduces the parameter budget of MLP modules by 50-75% for DeiT-B and Swin-L and by 40-50% for various Gemma-2 and Llama-3 models while maintaining ViT model accuracy within 1% pt. of the original and LLM perplexity with negligible degradation.
- Abstract(参考訳): 大規模なニューラルネットワークは、多数のタスクにまたがる例外的なパフォーマンスを示すが、その相当なサイズは、リソースに制約のあるシステムへのデプロイメントを妨げることが多い。
様々なモデル圧縮戦略が研究されているが、パラメータ共有は未解明のままである。
本稿では,パラメータ共有,テンソル分解,空間性を活用し,大規模視覚変換器(ViT)と大規模言語モデル(LLM)を効果的に圧縮する新しいアルゴリズムであるFiPSを提案する。
FiPSは、多層パーセプトロン(MLP)モジュール間でニューロンを表現するために共有基底とスパース因子を使用し、初期化はSingular Value Decomposition(SVD)によって導かれる。
実験結果から,MLPモジュールのパラメータ予算をDeiT-BおよびSwin-Lで50-75%削減し,各種Gemma-2およびLlama-3モデルで40-50%削減し,ViTモデルの精度を1%以内で維持した。
オリジナルおよびLLMパープレキシティは無視できる劣化を伴う。
関連論文リスト
- tCURLoRA: Tensor CUR Decomposition Based Low-Rank Parameter Adaptation and Its Application in Medical Image Segmentation [1.3281936946796913]
伝達学習は、事前訓練されたモデルからの知識を活用することで、目標タスクの性能を大幅に向上させた。
ディープニューラルネットワークのスケールアップに伴って、フル微調整によって、計算とストレージの大幅な課題がもたらされる。
テンソルCUR分解に基づく新しい微調整法であるtCURLoRAを提案する。
論文 参考訳(メタデータ) (2025-01-04T08:25:32Z) - ALoRE: Efficient Visual Adaptation via Aggregating Low Rank Experts [71.91042186338163]
ALoREは、Kroneckerによって構築された超複素パラメータ化空間をAggregate Low Rank Expertsに再利用する新しいPETL法である。
巧妙な設計のおかげで、ALoREは無視できる余分なパラメータを保持し、凍ったバックボーンに強制的にマージできる。
論文 参考訳(メタデータ) (2024-12-11T12:31:30Z) - Language Models as Zero-shot Lossless Gradient Compressors: Towards General Neural Parameter Prior Models [56.00251589760559]
大型言語モデル(LLM)はゼロショット設定でグラデーション先行として振る舞うことができる。
本稿では,LSMと算術符号を統合する新しい手法であるLM-GCを紹介する。
実験により、LM-GCは既存の最先端のロスレス圧縮手法を超越していることが示された。
論文 参考訳(メタデータ) (2024-09-26T13:38:33Z) - Convolutional Neural Network Compression Based on Low-Rank Decomposition [3.3295360710329738]
本稿では,変分ベイズ行列分解を組み込んだモデル圧縮法を提案する。
VBMFは各層における重みテンソルのランクを推定するために用いられる。
その結果, 高圧縮比と低圧縮比では, 圧縮モデルの性能が向上することがわかった。
論文 参考訳(メタデータ) (2024-08-29T06:40:34Z) - MoDeGPT: Modular Decomposition for Large Language Model Compression [59.361006801465344]
本稿では,新しい構造化圧縮フレームワークである textbfModular bfDecomposition (MoDeGPT) を紹介する。
MoDeGPTはTransformerブロックを行列対からなるモジュールに分割し、隠れた次元を減らす。
本実験では, 後方伝播を伴わないMoDeGPTが, 従来の圧縮手法と一致するか, あるいは超えていることを示す。
論文 参考訳(メタデータ) (2024-08-19T01:30:14Z) - SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。
初期経路では、中間出力は反冗長動作によって統合される。
遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文 参考訳(メタデータ) (2024-07-10T10:22:35Z) - FoldGPT: Simple and Effective Large Language Model Compression Scheme [5.611544096046119]
ネットワーク帯域幅とメモリ制限は、モバイルデバイスに数十億レベルのモデルをデプロイする上で問題となる。
ブロック除去とブロックパラメータ共有を組み合わせたFoldGPTを提案する。
実験により、FoldGPTは従来の最先端(SOTA)手法よりも効率の良いモデル圧縮性能を示した。
論文 参考訳(メタデータ) (2024-07-01T03:17:53Z) - MoEUT: Mixture-of-Experts Universal Transformers [75.96744719516813]
ユニバーサルトランスフォーマー(UT)は、合成一般化の学習において標準トランスフォーマーよりも有利である。
層共有は、同じ次元を持つ非共有モデルと比較してパラメータ数を大幅に削減する。
従来の作業では、言語モデリングのようなパラメータ数の支配的なタスクと競合する共有層トランスフォーマー設計の提案に成功しなかった。
論文 参考訳(メタデータ) (2024-05-25T03:24:32Z) - LoRAP: Transformer Sub-Layers Deserve Differentiated Structured Compression for Large Language Models [9.244526043014098]
大規模言語モデル(LLM)は困難なタスクにおいて優れた性能を示すが、大きな記憶と計算資源を必要とすることが多い。
本研究では,トランスフォーマーのマルチヘッド自己注意層(MHA)が顕著な低ランク構造を示すことを示す。
低ランク行列と構造化プルーニング(LoRAP)を有機的に組み合わせた混合圧縮モデルを提案する。
論文 参考訳(メタデータ) (2024-04-15T11:53:22Z) - Memory-Efficient Vision Transformers: An Activation-Aware Mixed-Rank
Compression Strategy [5.699098817569033]
本稿では,ViTのパラメータ数を削減するために,異なる層の低ランクテンソル近似を用いたアクティベーション対応モデル圧縮手法を提案する。
提案手法は,ImageNetデータセットの精度を1%以下に抑えながら,DeiT-Bのパラメータ数を60%削減する。
これに加えて、提案した圧縮技術は、DeiT/ViTモデルを圧縮して、より小型のDeiT/ViTモデルとほぼ同じモデルサイズで、精度が最大1.8%向上する。
論文 参考訳(メタデータ) (2024-02-08T19:01:14Z) - Parameter Efficient Fine-tuning via Cross Block Orchestration for Segment Anything Model [81.55141188169621]
PEFTにクロスブロックオーケストレーション機構を組み、SAM(Segment Anything Model)の様々な下流シナリオへの適応を可能にする。
本稿では,超複素層から重みが生じる線形射影ヘッドを導入するブロック内拡張モジュールを提案する。
提案手法は,約1Kのパラメータのみを付加した新規シナリオにおいて,セグメンテーション性能を大幅に向上させる。
論文 参考訳(メタデータ) (2023-11-28T11:23:34Z) - Scaling Pre-trained Language Models to Deeper via Parameter-efficient
Architecture [68.13678918660872]
行列積演算子(MPO)に基づくより有能なパラメータ共有アーキテクチャを設計する。
MPO分解はパラメータ行列の情報を再編成し、2つの部分に分解することができる。
私たちのアーキテクチャは、モデルのサイズを減らすために、すべてのレイヤで中央テンソルを共有しています。
論文 参考訳(メタデータ) (2023-03-27T02:34:09Z) - AlphaTuning: Quantization-Aware Parameter-Efficient Adaptation of
Large-Scale Pre-Trained Language Models [19.640997611256168]
我々は,事前学習された言語モデルの学習後の量子化と,対象タスクの量子化パラメータの一部のみを微調整するAlphaTuningを提案する。
具体的には、AlphaTuningはバイナリ符号化量子化を使用して、完全精度パラメータをバイナリパラメータとスケーリングファクタの別個のセットに分解する。
GPT-2 や OPT に適用されたAlphaTuning は,4ビット量子化条件下での圧縮率 >10x を実現し,トレーニング可能なパラメータ数 >1,000x の削減を図りながら,様々な下流タスクの完全な微調整と競合することを示した。
論文 参考訳(メタデータ) (2022-10-08T00:36:00Z) - Parameter-Efficient Conformers via Sharing Sparsely-Gated Experts for
End-to-End Speech Recognition [17.73449206184214]
本稿では,スパースゲート型エキスパートの共有によるパラメータ効率の高いコンバータを提案する。
具体的には,コンバータブロックの容量を増大させることなく,スパースゲート・オブ・エグゼクティブ(MoE)を用いて,コンバータブロックの容量を拡大する。
論文 参考訳(メタデータ) (2022-09-17T13:22:19Z) - Automatic Mixed-Precision Quantization Search of BERT [62.65905462141319]
BERTのような事前訓練された言語モデルは、様々な自然言語処理タスクにおいて顕著な効果を示している。
これらのモデルは通常、数百万のパラメータを含んでおり、リソースに制約のあるデバイスへの実践的なデプロイを妨げている。
本稿では,サブグループレベルでの量子化とプルーニングを同時に行うことができるBERT用に設計された混合精密量子化フレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-30T06:32:47Z) - Learning Robust and Lightweight Model through Separable Structured
Transformations [13.208781763887947]
本稿では、畳み込みニューラルネットワークのパラメータを低減するために、完全連結層を分離可能な構造変換を提案する。
ネットワークパラメータの90%削減に成功し、ロバストな精度損失は1.5%未満である。
我々は、ImageNet、SVHN、CIFAR-100、Vision Transformerなどのデータセットに対する提案手法を評価する。
論文 参考訳(メタデータ) (2021-12-27T07:25:26Z) - Global Vision Transformer Pruning with Hessian-Aware Saliency [93.33895899995224]
この研究はヴィジュアルトランスフォーマー(ViT)モデルの共通設計哲学に挑戦する。
遅延を意識した規則化による直接遅延低減を実現し,すべての層や構造に匹敵する新しいヘッセン型構造解析基準を導出する。
DeiT-Baseモデルで反復的なプルーニングを実行すると、NViT(Novel ViT)と呼ばれる新しいアーキテクチャファミリが生まれ、パラメータをより効率的に利用する新しいパラメータが現れる。
論文 参考訳(メタデータ) (2021-10-10T18:04:59Z) - Adaptive Subcarrier, Parameter, and Power Allocation for Partitioned
Edge Learning Over Broadband Channels [69.18343801164741]
パーティショニングエッジ学習(PARTEL)は、無線ネットワークにおいてよく知られた分散学習手法であるパラメータサーバトレーニングを実装している。
本稿では、いくつかの補助変数を導入してParticleELを用いてトレーニングできるディープニューラルネットワーク(DNN)モデルについて考察する。
論文 参考訳(メタデータ) (2020-10-08T15:27:50Z) - A Variational Information Bottleneck Based Method to Compress Sequential
Networks for Human Action Recognition [9.414818018857316]
本稿では,人間行動認識(HAR)に用いるリカレントニューラルネットワーク(RNN)を効果的に圧縮する手法を提案する。
変分情報ボトルネック(VIB)理論に基づくプルーニング手法を用いて,RNNの逐次セルを流れる情報の流れを小さなサブセットに制限する。
我々は、圧縮を大幅に改善する特定のグループ・ラッソ正規化手法とプルーニング手法を組み合わせる。
提案手法は,UCF11上での動作認識の精度に比較して,最も近い競合に比べて70倍以上の圧縮を実現する。
論文 参考訳(メタデータ) (2020-10-03T12:41:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。