論文の概要: The Need for Speed: Pruning Transformers with One Recipe
- arxiv url: http://arxiv.org/abs/2403.17921v1
- Date: Tue, 26 Mar 2024 17:55:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-27 14:18:09.939427
- Title: The Need for Speed: Pruning Transformers with One Recipe
- Title(参考訳): スピードの必要性:1つのレシピでトランスフォーマーをプルーニングする
- Authors: Samir Khaki, Konstantinos N. Plataniotis,
- Abstract要約: OPTINは、事前トレーニングされたトランスフォーマーアーキテクチャの効率を向上させるためのツールである。
自然言語、画像分類、トランスファーラーニング、セマンティックセグメンテーションタスクに関する最先端の結果を生成する。
NLPベースラインから$leq 2$%の精度低下と、競合するFLOP削減における画像分類における最先端手法から$0.5$%の改善を示す。
- 参考スコア(独自算出の注目度): 18.26707877972931
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce the $\textbf{O}$ne-shot $\textbf{P}$runing $\textbf{T}$echnique for $\textbf{I}$nterchangeable $\textbf{N}$etworks ($\textbf{OPTIN}$) framework as a tool to increase the efficiency of pre-trained transformer architectures $\textit{without requiring re-training}$. Recent works have explored improving transformer efficiency, however often incur computationally expensive re-training procedures or depend on architecture-specific characteristics, thus impeding practical wide-scale adoption. To address these shortcomings, the OPTIN framework leverages intermediate feature distillation, capturing the long-range dependencies of model parameters (coined $\textit{trajectory}$), to produce state-of-the-art results on natural language, image classification, transfer learning, and semantic segmentation tasks $\textit{without re-training}$. Given a FLOP constraint, the OPTIN framework will compress the network while maintaining competitive accuracy performance and improved throughput. Particularly, we show a $\leq 2$% accuracy degradation from NLP baselines and a $0.5$% improvement from state-of-the-art methods on image classification at competitive FLOPs reductions. We further demonstrate the generalization of tasks and architecture with comparative performance using Mask2Former for semantic segmentation and cnn-style networks. OPTIN presents one of the first one-shot efficient frameworks for compressing transformer architectures that generalizes well across different class domains, in particular: natural language and image-related tasks, without $\textit{re-training}$.
- Abstract(参考訳): $\textbf{O}$ne-shot $\textbf{P}$runing $\textbf{T}$echnique for $\textbf{I}$nterchangeable $\textbf{N}$etworks$\textbf{OPTIN}$)フレームワークを、事前トレーニングされたトランスフォーマーアーキテクチャの効率を高めるツールとして導入する。
近年の研究では、トランスフォーマーの効率向上が検討されているが、計算コストのかかる再訓練手順や、アーキテクチャ固有の特性に依存している場合が多いため、実用的な大規模採用を妨げている。
これらの欠点に対処するため、OPTINフレームワークは中間機能蒸留を利用して、モデルパラメータの長距離依存関係(coined $\textit{trajectory}$)をキャプチャして、自然言語、画像分類、転送学習、セマンティックセグメンテーションタスクに関する最先端の結果を生成する。
FLOP制約が与えられた場合、OPTINフレームワークは、競争精度とスループットの向上を維持しながら、ネットワークを圧縮する。
特に,NLPベースラインから$\leq 2$%の精度劣化と,競合するFLOPにおける画像分類における最先端手法から$0.5$%の改善を示す。
セマンティックセグメンテーションとcnnスタイルのネットワークにMask2Formerを用いてタスクとアーキテクチャを比較性能で一般化する。
OPTINは、トランスフォーマーアーキテクチャを圧縮する最初のワンショット効率的なフレームワークの1つで、異なるクラスドメイン、特に、$\textit{re-training}$を使わずに、自然言語と画像関連タスクをうまく一般化する。
関連論文リスト
- Scaling Embedding Layers in Language Models [52.47659840377581]
SCONEは、キャッシュされた$n$-gram埋め込みの数を増やし、それらを学ぶのに使用されるモデルをスケーリングする、固定された推論時間FLOPSを維持しながら、2つの新しいスケーリング戦略を実現する。
両面のスケーリングにより,SCONE は推論時間 FLOPS の半分 しか使用せず,多様なコーパスで 1.9B パラメータのベースラインを上回り得ることを示す。
論文 参考訳(メタデータ) (2025-02-03T18:59:32Z) - FRUGAL: Memory-Efficient Optimization by Reducing State Overhead for Scalable Training [51.39495282347475]
我々は、新しいメモリ効率最適化フレームワークであるtextbfF$ull-$textbfR$ank $textbfU$pdates with $textbfG$r$textbfA$dient sp$textbfL$ittingを紹介します。
当社のフレームワークは,GaLoreやBAdamなど,さまざまな低ランク更新選択技術と統合することが可能です。
論文 参考訳(メタデータ) (2024-11-12T14:41:07Z) - (PASS) Visual Prompt Locates Good Structure Sparsity through a Recurrent HyperNetwork [60.889175951038496]
大規模ニューラルネットワークは、視覚や言語処理など、さまざまな領域で顕著なパフォーマンスを示している。
構造的刈り込みの鍵となる問題のひとつは、チャネルの意義を見積もる方法である。
我々は,新しいアルゴリズムフレームワーク,すなわち textttPASS を提案する。
視覚的プロンプトとネットワーク重み統計の両方を入力とし、繰り返し的に層ワイドチャネル間隔を出力するように調整されたハイパーネットワークである。
論文 参考訳(メタデータ) (2024-07-24T16:47:45Z) - Sparse-Tuning: Adapting Vision Transformers with Efficient Fine-tuning and Inference [14.030836300221756]
textbfSparse-Tuningは、画像やビデオの情報冗長性を考慮に入れた新しいPEFTメソッドである。
Sparse-Tuningは各層で処理されるトークンの量を最小限に抑え、計算とメモリのオーバーヘッドを2次的に削減する。
我々のSparse-TuningはGFLOPsを62%-70%に削減し,最先端性能を実現した。
論文 参考訳(メタデータ) (2024-05-23T15:34:53Z) - SLAB: Efficient Transformers with Simplified Linear Attention and Progressive Re-parameterized Batch Normalization [36.84275777364218]
本稿では,効率的な変圧器の計算ボトルネックモジュール,すなわち正規化層とアテンションモジュールについて検討する。
LayerNormはトランスフォーマーアーキテクチャで一般的に使用されるが、推論中の統計計算のために計算に適さない。
本稿では,LayerNorm を再パラメータ化した BatchNorm に段階的に置き換える PRepBN という新しい手法を提案する。
論文 参考訳(メタデータ) (2024-05-19T15:22:25Z) - Guided Patch-Grouping Wavelet Transformer with Spatial Congruence for
Ultra-High Resolution Segmentation [18.50799240622156]
GPWFormer(GPWFormer)の提案
$mathcalT$は、UHRイメージ全体を入力として取り、局所的な詳細と細かな長距離コンテキスト依存の両方を抽出する。
$mathcalC$は、カテゴリの深いコンテキストを学ぶための入力として、サンプルイメージを取ります。
論文 参考訳(メタデータ) (2023-07-03T02:19:48Z) - AMOM: Adaptive Masking over Masking for Conditional Masked Language
Model [81.55294354206923]
条件付きマスク付き言語モデル(CMLM)は最も汎用性の高いフレームワークの1つである。
本稿では,デコーダの高精細化を実現するため,マスク戦略よりもシンプルで効果的な適応マスキングを提案する。
提案モデルにより,ニューラルマシン翻訳における最先端の性能が得られた。
論文 参考訳(メタデータ) (2023-03-13T20:34:56Z) - A Fast Post-Training Pruning Framework for Transformers [74.59556951906468]
プルーニングは、大きなTransformerモデルの巨大な推論コストを削減する効果的な方法である。
モデルプルーニングの以前の作業では、モデルの再トレーニングが必要だった。
本稿では,再学習を必要としないトランスフォーマーのための高速な訓練後プルーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-03-29T07:41:11Z) - Unsupervised Semantic Segmentation by Distilling Feature Correspondences [94.73675308961944]
教師なしセマンティックセグメンテーション(unsupervised semantic segmentation)は、アノテーションなしで画像コーパス内の意味論的意味のあるカテゴリを発見し、ローカライズすることを目的としている。
STEGOは、教師なし特徴を高品質な個別のセマンティックラベルに蒸留する新しいフレームワークである。
STEGOは、CocoStuffとCityscapesの両課題において、先行技術よりも大幅に改善されている。
論文 参考訳(メタデータ) (2022-03-16T06:08:47Z) - [Reproducibility Report] Rigging the Lottery: Making All Tickets Winners [1.6884611234933766]
スパーストレーニングアルゴリズムである$textitRigL$は、既存の密集型トレーニング技術のパフォーマンスに適合または超過したスパースネットワークを直接トレーニングする、と主張している。
Pytorchのスクラッチから$textitRigL$を実装し、報告された値の0.1%以内でCIFAR-10のパフォーマンスを再現する。
論文 参考訳(メタデータ) (2021-03-29T17:01:11Z) - Incorporating Convolution Designs into Visual Transformers [24.562955955312187]
我々は、低レベル特徴抽出におけるCNNの利点、局所性の向上、長距離依存の確立におけるトランスフォーマーの利点を組み合わせた新しいtextbfConvolution-enhanced image Transformer (CeiT) を提案する。
ImageNetと7つの下流タスクの実験結果は、大量のトレーニングデータや追加のCNN教師を必要とすることなく、従来のトランスフォーマーや最先端CNNと比較してCeiTの有効性と一般化能力を示している。
論文 参考訳(メタデータ) (2021-03-22T13:16:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。