論文の概要: HEAT: Hardware-Efficient Automatic Tensor Decomposition for Transformer
Compression
- arxiv url: http://arxiv.org/abs/2211.16749v1
- Date: Wed, 30 Nov 2022 05:31:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-01 16:22:17.088497
- Title: HEAT: Hardware-Efficient Automatic Tensor Decomposition for Transformer
Compression
- Title(参考訳): ハードウェア効率の良い自動テンソル分解による変圧器圧縮
- Authors: Jiaqi Gu, Ben Keller, Jean Kossaifi, Anima Anandkumar, Brucek
Khailany, David Z. Pan
- Abstract要約: 本稿では,分解可能な指数空間を効率的に探索できるハードウェア対応テンソル分解フレームワークHEATを提案する。
ハードウェア対応のBERT変異体は, エネルギー遅延を5.7倍に低減し, 精度が1.1%以下であることを示す。
- 参考スコア(独自算出の注目度): 69.36555801766762
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformers have attained superior performance in natural language
processing and computer vision. Their self-attention and feedforward layers are
overparameterized, limiting inference speed and energy efficiency. Tensor
decomposition is a promising technique to reduce parameter redundancy by
leveraging tensor algebraic properties to express the parameters in a
factorized form. Prior efforts used manual or heuristic factorization settings
without hardware-aware customization, resulting in poor hardware efficiencies
and large performance degradation.
In this work, we propose a hardware-aware tensor decomposition framework,
dubbed HEAT, that enables efficient exploration of the exponential space of
possible decompositions and automates the choice of tensorization shape and
decomposition rank with hardware-aware co-optimization. We jointly investigate
tensor contraction path optimizations and a fused Einsum mapping strategy to
bridge the gap between theoretical benefits and real hardware efficiency
improvement. Our two-stage knowledge distillation flow resolves the
trainability bottleneck and thus significantly boosts the final accuracy of
factorized Transformers. Overall, we experimentally show that our
hardware-aware factorized BERT variants reduce the energy-delay product by 5.7x
with less than 1.1% accuracy loss and achieve a better efficiency-accuracy
Pareto frontier than hand-tuned and heuristic baselines.
- Abstract(参考訳): トランスフォーマーは自然言語処理とコンピュータビジョンにおいて優れたパフォーマンスを達成した。
自己保持層とフィードフォワード層は過パラメータ化され、推論速度とエネルギー効率が制限される。
テンソル分解は、テンソル代数特性を利用してパラメータを分解形式で表現することでパラメータ冗長性を減少させる有望な手法である。
以前の取り組みでは、ハードウェアを意識せずに手動またはヒューリスティックな分解設定を使用していたため、ハードウェア効率が悪く、性能が大幅に低下した。
本研究では,ハードウェア対応テンソル分解フレームワーク HEAT を提案し,分解可能な指数空間を効率的に探索し,ハードウェア対応の共同最適化によるテンソル化形状と分解ランクの選択を自動化する。
理論上の利点と実際のハードウェアの効率改善とのギャップを埋めるために,テンソル収縮経路最適化と融合einsumマッピング戦略を共同で検討した。
2段階の知識蒸留フローはトレーサビリティのボトルネックを解消し,因子化変圧器の最終精度を大幅に向上させる。
ハードウェア対応のBERT変異体は,1.1%未満の精度でエネルギー遅延を5.7倍に低減し,手作業やヒューリスティックベースラインよりも効率のよいパレートフロンティアを実現する。
関連論文リスト
- Accelerating Error Correction Code Transformers [56.75773430667148]
本稿では,トランスを用いたデコーダの高速化手法を提案する。
最新のハードウェアでは、90%の圧縮比を実現し、算術演算エネルギー消費を少なくとも224倍削減する。
論文 参考訳(メタデータ) (2024-10-08T11:07:55Z) - Co-Designing Binarized Transformer and Hardware Accelerator for Efficient End-to-End Edge Deployment [3.391499691517567]
トランスフォーマーモデルはAIタスクに革命をもたらしたが、その大きなサイズはリソース制約やレイテンシクリティカルなエッジデバイスへの実際のデプロイメントを妨げる。
本稿では, アルゴリズム, ハードウェア, 共同最適化の3つの側面から, トランスフォーマーのエンドツーエンド配置を効率的に行うための設計手法を提案する。
実験の結果,2.14-49.37倍のスループット向上と3.72-88.53倍のエネルギー効率を実現した。
論文 参考訳(メタデータ) (2024-07-16T12:36:10Z) - Learning on Transformers is Provable Low-Rank and Sparse: A One-layer Analysis [63.66763657191476]
低ランク計算としての効率的な数値学習と推論アルゴリズムはトランスフォーマーに基づく適応学習に優れた性能を持つことを示す。
我々は、等級モデルが適応性を改善しながら一般化にどのように影響するかを分析する。
適切なマグニチュードベースのテストは,テストパフォーマンスに多少依存している,と結論付けています。
論文 参考訳(メタデータ) (2024-06-24T23:00:58Z) - Memory-Efficient Vision Transformers: An Activation-Aware Mixed-Rank
Compression Strategy [5.699098817569033]
本稿では,ViTのパラメータ数を削減するために,異なる層の低ランクテンソル近似を用いたアクティベーション対応モデル圧縮手法を提案する。
提案手法は,ImageNetデータセットの精度を1%以下に抑えながら,DeiT-Bのパラメータ数を60%削減する。
これに加えて、提案した圧縮技術は、DeiT/ViTモデルを圧縮して、より小型のDeiT/ViTモデルとほぼ同じモデルサイズで、精度が最大1.8%向上する。
論文 参考訳(メタデータ) (2024-02-08T19:01:14Z) - DSFormer: Effective Compression of Text-Transformers by Dense-Sparse
Weight Factorization [12.277820111814691]
DSFormerは、ターゲットの重み行列を小さな密度と半構造化されたスパース行列の積として表現する単純な代替因数分解スキームである。
我々のアプローチは、主流圧縮機にも当てはまり、一般的な蒸留、層共有および量子化変換器に追加される場合、最大50%の圧縮を提供する。
論文 参考訳(メタデータ) (2023-12-20T17:27:25Z) - Sparse Universal Transformer [64.78045820484299]
Universal Transformer (UT) はTransformerの変種であり、それらの層にまたがるパラメータを共有する。
本稿では,スパース・ミキチャー・オブ・エキスパート(SMoE)と新しいスティック・ブレーキング・ベースの動的停止機構を利用するスパース・ユニバーサル・トランスフォーマー(SUT)を提案する。
論文 参考訳(メタデータ) (2023-10-11T00:38:57Z) - An Algorithm-Hardware Co-Optimized Framework for Accelerating N:M Sparse
Transformers [11.811907838840712]
一般のN:M空間パターンを利用して, フレキシブルかつ効率的にトランスフォーマーを高速化するアルゴリズム・ハードウェア協調最適化フレームワークを提案する。
我々は、N:Mスパーストランスをデプロイする際の大幅な高速化を実現するために、フレキシブルで効率的なハードウェアアーキテクチャ、すなわちSTAを提案する。
実験の結果, 他の方法と比較して, IDPを用いて生成したN:Mスパース変圧器は, トレーニング効率の高い精度で平均6.7%向上することがわかった。
論文 参考訳(メタデータ) (2022-08-12T04:51:49Z) - Easy and Efficient Transformer : Scalable Inference Solution For large
NLP mode [14.321889138798072]
本稿では,超大規模事前学習モデル最適化手法を提案する。
推論エンジンとして Easy and Efficient Transformer (EET) が提案されている。
EETは、コンテキストの長さに応じて1.5-15倍のスピードアップを達成します。
論文 参考訳(メタデータ) (2021-04-26T11:00:56Z) - Efficient pre-training objectives for Transformers [84.64393460397471]
本研究はトランスフォーマーモデルにおける高効率事前学習目標について検討する。
マスクトークンの除去と損失時のアウトプット全体の考慮が,パフォーマンス向上に不可欠な選択であることを証明する。
論文 参考訳(メタデータ) (2021-04-20T00:09:37Z) - Finetuning Pretrained Transformers into RNNs [81.72974646901136]
トランスフォーマーは自然言語生成においてリカレントニューラルネットワーク(RNN)を上回っている。
線形複雑リカレント変種は自己回帰生成に適していることが証明されている。
この研究は、事前訓練された変換器を効率の良い再帰変換器に変換することを目的としている。
論文 参考訳(メタデータ) (2021-03-24T10:50:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。