論文の概要: Diversity-Guided MLP Reduction for Efficient Large Vision Transformers
- arxiv url: http://arxiv.org/abs/2506.08591v1
- Date: Tue, 10 Jun 2025 08:59:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-11 15:11:42.060229
- Title: Diversity-Guided MLP Reduction for Efficient Large Vision Transformers
- Title(参考訳): 広視野変圧器の多様性誘導型MLP低減
- Authors: Chengchao Shen, Hourun Zhu, Gongfan Fang, Jianxin Wang, Xinchao Wang,
- Abstract要約: トランスフォーマーモデルは優れたスケーリング特性を実現し、モデルキャパシティの増大により性能が向上する。
大規模モデルパラメータは、計算とメモリの大幅なコストにつながる。
そこで本稿では,大規模な視覚変換器のパラメータを著しく削減するDGMR法を提案する。
- 参考スコア(独自算出の注目度): 54.656502058570226
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Transformer models achieve excellent scaling property, where the performance is improved with the increment of model capacity. However, large-scale model parameters lead to an unaffordable cost of computing and memory. We analyze popular transformer architectures and find that multilayer perceptron (MLP) modules take up the majority of model parameters. To this end, we focus on the recoverability of the compressed models and propose a Diversity-Guided MLP Reduction (DGMR) method to significantly reduce the parameters of large vision transformers with only negligible performance degradation. Specifically, we conduct a Gram-Schmidt weight pruning strategy to eliminate redundant neurons of MLP hidden layer, while preserving weight diversity for better performance recover during distillation. Compared to the model trained from scratch, our pruned model only requires 0.06\% data of LAION-2B (for the training of large vision transformers) without labels (ImageNet-1K) to recover the original performance. Experimental results on several state-of-the-art large vision transformers demonstrate that our method achieves a more than 57.0\% parameter and FLOPs reduction in a near lossless manner. Notably, for EVA-CLIP-E (4.4B), our method accomplishes a 71.5\% parameter and FLOPs reduction without performance degradation. The source code and trained weights are available at https://github.com/visresearch/DGMR.
- Abstract(参考訳): トランスフォーマーモデルは優れたスケーリング特性を実現し、モデルキャパシティの増大により性能が向上する。
しかし、大規模なモデルパラメータは、計算とメモリの未解決コストにつながる。
我々は,一般的なトランスフォーマーアーキテクチャを解析し,多層パーセプトロン(MLP)モジュールがモデルパラメータの大部分を占めることを発見した。
そこで本研究では,圧縮モデルの回復性に着目し,DGMR法を提案する。
具体的には,MLP隠蔽層の余剰ニューロンを除去すると同時に,蒸留時の性能回復のために,重量の多様性を保ちながらグラマーシュミットの重量刈取戦略を実行する。
スクラッチからトレーニングしたモデルと比較して、当社のプルーニングモデルでは、ラベル(ImageNet-1K)を使わずにLAION-2Bの0.06\%のデータしか必要としない。
いくつかの最先端の大規模視覚変換器の実験結果から,本手法は57.0\%以上のパラメータとFLOPをほぼ損失のない方法で低減することを示した。
特に,EVA-CLIP-E (4.4B) では,性能劣化を伴わずに 71.5\% のパラメータと FLOPs の低減を実現している。
ソースコードとトレーニングされたウェイトはhttps://github.com/visresearch/DGMRで入手できる。
関連論文リスト
- Relaxed Recursive Transformers: Effective Parameter Sharing with Layer-wise LoRA [38.30350849992281]
再帰的(recursive)"言語モデルは、パフォーマンスの損失を最小限に抑えたレイヤ間でパラメータを共有する。
Recursive Transformerは、標準的な事前トレーニングされたトランスフォーマーから効率よく利用できるが、単一のユニークなレイヤブロックしか使用せず、ループ内で何度も繰り返される。
我々のモデルは、類似サイズのバニラ事前学習モデルと知識蒸留ベースラインの両方より優れていることを示す。
論文 参考訳(メタデータ) (2024-10-28T02:15:45Z) - SDPose: Tokenized Pose Estimation via Circulation-Guide Self-Distillation [53.675725490807615]
SDPoseは小型変圧器モデルの性能向上のための新しい自己蒸留法である。
SDPose-Tは4.4Mパラメータと1.8 GFLOPを持つ69.7%のmAPを取得し、SDPose-S-V2はMSCOCO検証データセット上で73.5%のmAPを取得する。
論文 参考訳(メタデータ) (2024-04-04T15:23:14Z) - LoRAPrune: Structured Pruning Meets Low-Rank Parameter-Efficient Fine-Tuning [56.88751562302793]
低ランク適応 (LoRA) が大型言語モデル (LLM) に登場した。
LoRAPruneは、高度にメモリ効率の良い正確な構造化プルーンドモデルを提供する新しいフレームワークである。
LoRAPruneはWikiText2では4.81、TBでは3.46、メモリ使用量は52.6%減少している。
論文 参考訳(メタデータ) (2023-05-28T15:15:48Z) - The Lazy Neuron Phenomenon: On Emergence of Activation Sparsity in
Transformers [59.87030906486969]
本稿では,Transformer アーキテクチャを用いた機械学習モデルにおいて,アクティベーションマップが疎いという興味深い現象について考察する。
本稿では, 自然言語処理と視覚処理の両方において, スパーシリティが顕著な現象であることを示す。
本稿では,変換器のFLOP数を大幅に削減し,効率を向上する手法について論じる。
論文 参考訳(メタデータ) (2022-10-12T15:25:19Z) - MoEfication: Conditional Computation of Transformer Models for Efficient
Inference [66.56994436947441]
トランスフォーマーベースの事前学習言語モデルは、パラメータ容量が大きいため、ほとんどのNLPタスクにおいて優れた性能を実現することができるが、計算コストも大きい。
スパースアクティベーション現象に基づく条件計算により,大規模モデル推論を高速化する。
そこで本研究では,モデルサイズが等しいMoE(Mix-of-experts)バージョン,すなわちMoEficationに変換することを提案する。
論文 参考訳(メタデータ) (2021-10-05T02:14:38Z) - Greenformers: Improving Computation and Memory Efficiency in Transformer
Models via Low-Rank Approximation [3.3576886095389296]
変換器モデルのモデル効率を改善するためのモデル効率手法の集合であるGreenformersを紹介する。
本稿では,ローランク変圧器と呼ばれる変圧器モデルの効率向上を目的とした低ランク分解手法を提案する。
モデルサイズを大幅に削減するため,ローランドトランスフォーマーはデバイス上でのデプロイメントに適していることを示す。
論文 参考訳(メタデータ) (2021-08-24T15:51:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。