論文の概要: Transformer Acceleration with Dynamic Sparse Attention
- arxiv url: http://arxiv.org/abs/2110.11299v1
- Date: Thu, 21 Oct 2021 17:31:57 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-22 19:16:24.208883
- Title: Transformer Acceleration with Dynamic Sparse Attention
- Title(参考訳): 動的スパース注意による変圧器加速
- Authors: Liu Liu, Zheng Qu, Zhaodong Chen, Yufei Ding, Yuan Xie
- Abstract要約: 本稿では,トランスフォーマーの注意における動的間隔を効果的に活用する動的スパース注意(DSA)を提案する。
われわれのアプローチは、精度とモデルの複雑さのトレードオフを改善することができる。
- 参考スコア(独自算出の注目度): 20.758709319088865
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformers are the mainstream of NLP applications and are becoming
increasingly popular in other domains such as Computer Vision. Despite the
improvements in model quality, the enormous computation costs make Transformers
difficult at deployment, especially when the sequence length is large in
emerging applications. Processing attention mechanism as the essential
component of Transformer is the bottleneck of execution due to the quadratic
complexity. Prior art explores sparse patterns in attention to support long
sequence modeling, but those pieces of work are on static or fixed patterns. We
demonstrate that the sparse patterns are dynamic, depending on input sequences.
Thus, we propose the Dynamic Sparse Attention (DSA) that can efficiently
exploit the dynamic sparsity in the attention of Transformers. Compared with
other methods, our approach can achieve better trade-offs between accuracy and
model complexity. Moving forward, we identify challenges and provide solutions
to implement DSA on existing hardware (GPUs) and specialized hardware in order
to achieve practical speedup and efficiency improvements for Transformer
execution.
- Abstract(参考訳): トランスフォーマーはNLPアプリケーションの主流であり、コンピュータビジョンなど他の領域でも人気が高まっている。
モデル品質の改善にもかかわらず、膨大な計算コストは、特に新興アプリケーションでシーケンス長が大きい場合、展開においてトランスフォーマーを困難にする。
Transformerの重要なコンポーネントとしての処理の注意機構は、二次的な複雑さによる実行のボトルネックである。
先行技術は、長いシーケンスモデリングをサポートするために注意を払ってスパースパターンを探索するが、これらの作業は静的または固定パターンに基づいている。
入力シーケンスに依存して,スパースパターンが動的であることを実証する。
そこで本稿では,トランスフォーマーの注意における動的間隔を効率的に活用する動的スパース注意(DSA)を提案する。
他の手法と比較して、我々の手法は精度とモデルの複雑さのトレードオフを良くできる。
今後,Transformerの実行の高速化と効率向上を実現するため,既存のハードウェア(GPU)と専用ハードウェアにDSAを実装するための課題を特定し,ソリューションを提供する。
関連論文リスト
- PRformer: Pyramidal Recurrent Transformer for Multivariate Time Series Forecasting [82.03373838627606]
Transformerアーキテクチャにおける自己保持機構は、時系列予測において時間順序を符号化するために位置埋め込みを必要とする。
この位置埋め込みへの依存は、トランスフォーマーの時間的シーケンスを効果的に表現する能力を制限している、と我々は主張する。
本稿では,Prepreを標準的なTransformerエンコーダと統合し,様々な実世界のデータセット上での最先端性能を示す。
論文 参考訳(メタデータ) (2024-08-20T01:56:07Z) - Ring Attention with Blockwise Transformers for Near-Infinite Context [88.61687950039662]
本稿では,複数のデバイスにまたがって長いシーケンスを分散するために,ブロックワイドな自己注意とフィードフォワードの計算を利用する,ブロックワイドトランスフォーマーを用いたリングアテンション(リングアテンション)を提案する。
提案手法では,先行メモリ効率の変換器で達成可能なものよりも,デバイス数倍のシーケンスのトレーニングと推論が可能となる。
論文 参考訳(メタデータ) (2023-10-03T08:44:50Z) - SPION: Layer-Wise Sparse Training of Transformer via Convolutional Flood
Filling [1.0128808054306186]
本稿では,畳み込みフィルタとフラッドフィリング法を統合したトランスフォーマーの新しいスペーサー方式を提案する。
我々のスパーシフィケーションアプローチは、トレーニング中のTransformerの計算複雑性とメモリフットプリントを低減する。
New SPIONは、既存の最先端スパーストランスモデルよりも最大3.08倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2023-09-22T02:14:46Z) - Optimizing Non-Autoregressive Transformers with Contrastive Learning [74.46714706658517]
非自己回帰変換器(NAT)は、逐次順序ではなく全ての単語を同時に予測することにより、自動回帰変換器(AT)の推論遅延を低減する。
本稿では,データ分布ではなく,モデル分布からのサンプリングによるモダリティ学習の容易化を提案する。
論文 参考訳(メタデータ) (2023-05-23T04:20:13Z) - Robust representations of oil wells' intervals via sparse attention
mechanism [2.604557228169423]
正規化変換器(Reguformers)と呼ばれる効率的な変換器のクラスを導入する。
私たちの実験の焦点は、石油とガスのデータ、すなわちウェルログにあります。
このような問題に対する我々のモデルを評価するために、20以上の井戸からなるウェルログからなる産業規模のオープンデータセットで作業する。
論文 参考訳(メタデータ) (2022-12-29T09:56:33Z) - An Algorithm-Hardware Co-Optimized Framework for Accelerating N:M Sparse
Transformers [11.811907838840712]
一般のN:M空間パターンを利用して, フレキシブルかつ効率的にトランスフォーマーを高速化するアルゴリズム・ハードウェア協調最適化フレームワークを提案する。
我々は、N:Mスパーストランスをデプロイする際の大幅な高速化を実現するために、フレキシブルで効率的なハードウェアアーキテクチャ、すなわちSTAを提案する。
実験の結果, 他の方法と比較して, IDPを用いて生成したN:Mスパース変圧器は, トレーニング効率の高い精度で平均6.7%向上することがわかった。
論文 参考訳(メタデータ) (2022-08-12T04:51:49Z) - DynaST: Dynamic Sparse Transformer for Exemplar-Guided Image Generation [56.514462874501675]
本稿では,動的スパースアテンションに基づくトランスフォーマーモデルを提案する。
このアプローチの核心は、ある位置がフォーカスすべき最適なトークン数の変化をカバーすることに特化した、新しいダイナミックアテンションユニットです。
3つの応用、ポーズ誘導型人物画像生成、エッジベース顔合成、歪みのない画像スタイル転送の実験により、DynaSTは局所的な詳細において優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2022-07-13T11:12:03Z) - Stable, Fast and Accurate: Kernelized Attention with Relative Positional
Encoding [63.539333383965726]
相対的位置符号化(RPE)を用いた変換器の注意計算を高速化する新しい手法を提案する。
相対的な位置符号化がToeplitz行列を形成するという観測に基づいて、Fast Fourier Transform (FFT) を用いて、RPEによるカーネル化された注意を効率的に計算できることを数学的に示す。
論文 参考訳(メタデータ) (2021-06-23T17:51:26Z) - Glance-and-Gaze Vision Transformer [13.77016463781053]
我々は Glance-and-Gaze Transformer (GG-Transformer) という新しい視覚変換器を提案する。
自然の場面で物体を認識するとき、人間のGlance and Gazeの行動によって動機付けられている。
提案手法は,従来の最先端変圧器よりも一貫した性能を実現することを実証的に実証する。
論文 参考訳(メタデータ) (2021-06-04T06:13:47Z) - Less is More: Pay Less Attention in Vision Transformers [61.05787583247392]
注意の少ないvIsion Transformerは、畳み込み、完全接続層、自己アテンションが、画像パッチシーケンスを処理するためにほぼ同等な数学的表現を持つという事実に基づいている。
提案したLITは、画像分類、オブジェクト検出、インスタンス分割を含む画像認識タスクにおいて有望な性能を達成する。
論文 参考訳(メタデータ) (2021-05-29T05:26:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。