論文の概要: Delta Keyword Transformer: Bringing Transformers to the Edge through
Dynamically Pruned Multi-Head Self-Attention
- arxiv url: http://arxiv.org/abs/2204.03479v1
- Date: Sun, 20 Mar 2022 20:59:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-10 13:25:50.001590
- Title: Delta Keyword Transformer: Bringing Transformers to the Edge through
Dynamically Pruned Multi-Head Self-Attention
- Title(参考訳): deltaキーワードトランスフォーマー:ダイナミックなマルチヘッドセルフアテンションによるトランスフォーマーのエッジへの導入
- Authors: Zuzana Jel\v{c}icov\'a and Marian Verhelst
- Abstract要約: マルチヘッド自己アテンションはトランスフォーマーネットワークのコアを形成する。
本稿では,トークン間のデータの時間的安定性を利用して推論コストを削減する動的プルーニング手法を提案する。
実験の結果,元の98.4%の精度を維持しながら80%の操作を削減できることがわかった。
- 参考スコア(独自算出の注目度): 4.925939498983408
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Multi-head self-attention forms the core of Transformer networks. However,
their quadratically growing complexity with respect to the input sequence
length impedes their deployment on resource-constrained edge devices. We
address this challenge by proposing a dynamic pruning method, which exploits
the temporal stability of data across tokens to reduce inference cost. The
threshold-based method only retains significant differences between the
subsequent tokens, effectively reducing the number of multiply-accumulates, as
well as the internal tensor data sizes. The approach is evaluated on the Google
Speech Commands Dataset for keyword spotting, and the performance is compared
against the baseline Keyword Transformer. Our experiments show that we can
reduce ~80% of operations while maintaining the original 98.4% accuracy.
Moreover, a reduction of ~87-94% operations can be achieved when only degrading
the accuracy by 1-4%, speeding up the multi-head self-attention inference by a
factor of ~7.5-16.
- Abstract(参考訳): マルチヘッドセルフアテンションはトランスフォーマーネットワークのコアを形成する。
しかし、入力シーケンス長に関して2次的に増加する複雑さは、リソース制約されたエッジデバイスへのデプロイメントを妨げる。
本稿では,トークン間のデータの時間的安定性を利用して推論コストを削減する動的プルーニング手法を提案する。
しきい値に基づく手法は、後続のトークン間の大きな違いしか保持せず、乗算累積数と内部テンソルデータサイズを効果的に削減する。
このアプローチはキーワードスポッティングのためのgoogle speech commandsデータセット上で評価され、ベースラインキーワードトランスフォーマーと比較される。
実験の結果,元の98.4%の精度を維持しながら操作を約80%削減できることがわかった。
さらに、精度を1-4%低下させるだけで 87-94% の演算を削減でき、マルチヘッドの自己意図推論を 7.5-16 の係数で高速化できる。
関連論文リスト
- Differential Transformer [99.5117269150629]
トランスフォーマーは、無関係な文脈に注意を向ける傾向がある。
Diff Transformerを導入し、ノイズをキャンセルしながら関連するコンテキストに注意を向ける。
ロングコンテキストモデリング、キー情報検索、幻覚緩和、インコンテキスト学習、アクティベーションアウトリーの削減など、実用的な応用において顕著な利点がある。
論文 参考訳(メタデータ) (2024-10-07T17:57:38Z) - LATTE: Low-Precision Approximate Attention with Head-wise Trainable Threshold for Efficient Transformer [0.0]
我々は,高効率変圧器(LATTE)のための頭部訓練用閾値を用いた高精度近似注意法を提案する。
LATTEは、MHA(Multi-Head Attention)の計算量を削減するために、低精度ドット積を持つ頭部しきい値に基づくフィルタを用いる。
実験の結果, LATTE は NLP と CV の両方のタスクにスムーズに適応でき, 計算コストを大幅に削減できることがわかった。
論文 参考訳(メタデータ) (2024-04-11T07:23:19Z) - Segmented Recurrent Transformer: An Efficient Sequence-to-Sequence Model [10.473819332984005]
分割された(局所的な)注意と再帰的な注意を結合した分節再帰変圧器(SRformer)を提案する。
提案モデルでは,分割変圧器よりも高いROUGE1スコアを6-22%で達成し,他の再帰変圧器よりも優れている。
論文 参考訳(メタデータ) (2023-05-24T03:47:22Z) - Linearizing Transformer with Key-Value Memory Bank [54.83663647680612]
我々は、ソースシーケンスを低次元表現に投影するアプローチであるMemSizerを提案する。
MemSizerは同じ線形時間複雑性を達成するだけでなく、効率的なリカレントスタイルの自己回帰生成も楽しめる。
我々はMemSizerがバニラ変圧器の効率と精度のトレードオフを改善することを実証した。
論文 参考訳(メタデータ) (2022-03-23T18:10:18Z) - Fine- and Coarse-Granularity Hybrid Self-Attention for Efficient BERT [22.904252855587348]
本稿では, 計算列長を漸進的に短縮することにより, コストを低減できる, 微細で粗い粒度ハイブリッド型自己アテンションを提案する。
FCAは従来の手法に比べて精度とFLOPのトレードオフが著しく優れていることを示す。
論文 参考訳(メタデータ) (2022-03-17T03:33:47Z) - Learned Token Pruning for Transformers [39.181816379061374]
Learned Token Pruning ()メソッドは、データがトランスフォーマーの異なるレイヤを通過すると、冗長なトークンを減らす。
複数のGLUEタスクに対して,提案手法の性能を広範囲に検証する。
予備的な結果はTesla T4とIntel Haswellの1.4倍と1.9倍のスループット向上を示す。
論文 参考訳(メタデータ) (2021-07-02T09:00:13Z) - Finetuning Pretrained Transformers into RNNs [81.72974646901136]
トランスフォーマーは自然言語生成においてリカレントニューラルネットワーク(RNN)を上回っている。
線形複雑リカレント変種は自己回帰生成に適していることが証明されている。
この研究は、事前訓練された変換器を効率の良い再帰変換器に変換することを目的としている。
論文 参考訳(メタデータ) (2021-03-24T10:50:43Z) - DA-Transformer: Distance-aware Transformer [87.20061062572391]
DA-Transformerは、実際の距離を利用することができる距離対応トランスである。
本稿では,実距離を利用した距離認識変換器であるDA-Transformerを提案する。
論文 参考訳(メタデータ) (2020-10-14T10:09:01Z) - Funnel-Transformer: Filtering out Sequential Redundancy for Efficient
Language Processing [112.2208052057002]
本稿では,隠れ状態の列を短く圧縮するFunnel-Transformerを提案する。
Funnel-TransformerはFLOPに匹敵する数が少ないため、様々なシーケンスレベルの予測タスクにおいて標準のTransformerよりも優れている。
論文 参考訳(メタデータ) (2020-06-05T05:16:23Z) - Robustness Verification for Transformers [165.25112192811764]
我々はトランスフォーマーのための最初のロバスト性検証アルゴリズムを開発した。
提案手法で計算したロバスト性境界は, 素粒子間境界伝播法で計算したロバスト性境界よりもかなり厳密である。
これらの境界はまた、感情分析における異なる単語の重要性を常に反映しているトランスフォーマーの解釈にも光を当てている。
論文 参考訳(メタデータ) (2020-02-16T17:16:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。