論文の概要: Sparse Binary Transformers for Multivariate Time Series Modeling
- arxiv url: http://arxiv.org/abs/2308.04637v1
- Date: Wed, 9 Aug 2023 00:23:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-10 15:30:07.502899
- Title: Sparse Binary Transformers for Multivariate Time Series Modeling
- Title(参考訳): 多変量時系列モデリングのためのスパースバイナリトランスフォーマ
- Authors: Matt Gorbett, Hossein Shirazi, Indrakshi Ray
- Abstract要約: 軽量圧縮ニューラルネットワークは,高密度浮動小数点変換器に匹敵する精度が得られることを示す。
本モデルは,3つの時系列学習課題 – 分類,異常検出,単段階予測 – で良好な結果が得られる。
本稿では,パラメータ数,ビットサイズ,浮動小数点演算(FLOP)数など,さまざまな指標に対するアプローチの計算的節約度を測定した。
- 参考スコア(独自算出の注目度): 1.3965477771846404
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Compressed Neural Networks have the potential to enable deep learning across
new applications and smaller computational environments. However, understanding
the range of learning tasks in which such models can succeed is not well
studied. In this work, we apply sparse and binary-weighted Transformers to
multivariate time series problems, showing that the lightweight models achieve
accuracy comparable to that of dense floating-point Transformers of the same
structure. Our model achieves favorable results across three time series
learning tasks: classification, anomaly detection, and single-step forecasting.
Additionally, to reduce the computational complexity of the attention
mechanism, we apply two modifications, which show little to no decline in model
performance: 1) in the classification task, we apply a fixed mask to the query,
key, and value activations, and 2) for forecasting and anomaly detection, which
rely on predicting outputs at a single point in time, we propose an attention
mask to allow computation only at the current time step. Together, each
compression technique and attention modification substantially reduces the
number of non-zero operations necessary in the Transformer. We measure the
computational savings of our approach over a range of metrics including
parameter count, bit size, and floating point operation (FLOPs) count, showing
up to a 53x reduction in storage size and up to 10.5x reduction in FLOPs.
- Abstract(参考訳): 圧縮ニューラルネットワークは、新しいアプリケーションとより小さな計算環境をまたいでディープラーニングを可能にする可能性がある。
しかし、そのようなモデルが成功する学習タスクの範囲を理解することは十分に研究されていない。
本研究では,多変量時系列問題に対してスパースおよびバイナリ重み付き変換器を適用し,その軽量モデルが同一構造の高密度浮動小数点変換器に匹敵する精度を実現することを示す。
本モデルは,3つの時系列学習課題 – 分類,異常検出,単段階予測 – で良好な結果が得られる。
さらに,注意機構の計算複雑性を低減するため,モデル性能の低下がほとんどない2つの修正を適用した。
1) 分類タスクでは,クエリ,キー,値のアクティベーションに固定マスクを適用する。
2)1つの時点における出力予測に依存する予測・異常検出のために,現在の時間ステップでのみ計算が可能なアテンションマスクを提案する。
各圧縮技術とアテンション修正により、トランスフォーマーに必要なゼロでない操作の数が大幅に削減される。
我々は、パラメータ数、ビットサイズ、浮動小数点演算(flops)数を含む様々な測定値に対して、我々のアプローチの計算節約を計測し、ストレージサイズが53倍削減され、フロップが最大10.5倍削減されることを示した。
関連論文リスト
- Towards efficient deep autoencoders for multivariate time series anomaly
detection [0.8681331155356999]
本稿では,3つの要素を含むディープオートエンコーダの圧縮手法を提案する。
第一に、プルーニングは、高速な探索プロセスにより、破滅的な精度の低下を防止しつつ、重量を減らす。
第二に、線形および非線形量子化は、各重みごとにビット数を減らし、モデルの複雑さを減少させる。
論文 参考訳(メタデータ) (2024-03-04T19:22:09Z) - CageViT: Convolutional Activation Guided Efficient Vision Transformer [90.69578999760206]
本稿では,CageViTと呼ばれる効率的な視覚変換器を提案する。
私たちのCageViTは、現在のTransformersとは違って、新しいエンコーダを使用して、再配置されたトークンを処理する。
実験の結果,提案したCageViTは最新の最先端のバックボーンよりも効率の面で大きな差があることがわかった。
論文 参考訳(メタデータ) (2023-05-17T03:19:18Z) - Mixed Precision Post Training Quantization of Neural Networks with
Sensitivity Guided Search [7.392278887917975]
混合精度量子化により、異なるテンソルを様々な数値精度のレベルに量子化することができる。
我々は,コンピュータビジョンと自然言語処理の手法を評価し,最大27.59%,34.31%のレイテンシ低減を実証した。
論文 参考訳(メタデータ) (2023-02-02T19:30:00Z) - Transform Once: Efficient Operator Learning in Frequency Domain [69.74509540521397]
本研究では、周波数領域の構造を利用して、空間や時間における長距離相関を効率的に学習するために設計されたディープニューラルネットワークについて検討する。
この研究は、単一変換による周波数領域学習のための青写真を導入している。
論文 参考訳(メタデータ) (2022-11-26T01:56:05Z) - The Lazy Neuron Phenomenon: On Emergence of Activation Sparsity in
Transformers [59.87030906486969]
本稿では,Transformer アーキテクチャを用いた機械学習モデルにおいて,アクティベーションマップが疎いという興味深い現象について考察する。
本稿では, 自然言語処理と視覚処理の両方において, スパーシリティが顕著な現象であることを示す。
本稿では,変換器のFLOP数を大幅に削減し,効率を向上する手法について論じる。
論文 参考訳(メタデータ) (2022-10-12T15:25:19Z) - ClusTR: Exploring Efficient Self-attention via Clustering for Vision
Transformers [70.76313507550684]
本稿では,密集自己注意の代替として,コンテンツに基づくスパースアテンション手法を提案する。
具体的には、合計トークン数を減少させるコンテンツベースの方法として、キーとバリュートークンをクラスタ化し、集約する。
結果として得られたクラスタ化されたTokenシーケンスは、元の信号のセマンティックな多様性を保持するが、より少ない計算コストで処理できる。
論文 参考訳(メタデータ) (2022-08-28T04:18:27Z) - CloudAttention: Efficient Multi-Scale Attention Scheme For 3D Point
Cloud Learning [81.85951026033787]
この作業にトランスフォーマーをセットし、それらを形状分類と部分およびシーンセグメンテーションのための階層的なフレームワークに組み込む。
また、各イテレーションにおけるサンプリングとグループ化を活用して、効率的でダイナミックなグローバルなクロスアテンションを計算します。
提案した階層モデルは,最先端の形状分類を平均精度で達成し,従来のセグメンテーション法と同等の結果を得る。
論文 参考訳(メタデータ) (2022-07-31T21:39:15Z) - Rethinking Attention Mechanism in Time Series Classification [6.014777261874646]
我々は、フレキシブル・マルチヘッド・リニア・アテンション(FMLA)を提案することにより、アテンション機構の効率性と性能を向上する。
本稿では,時系列におけるノイズの影響を低減し,FMLAの冗長性を低減できる簡易だが効果的なマスク機構を提案する。
85のUCR2018データセットを用いて、このアルゴリズムを11のよく知られたデータセットと比較し、このアルゴリズムがトップ1の精度で同等の性能を持つことを示す。
論文 参考訳(メタデータ) (2022-07-14T07:15:06Z) - MoEfication: Conditional Computation of Transformer Models for Efficient
Inference [66.56994436947441]
トランスフォーマーベースの事前学習言語モデルは、パラメータ容量が大きいため、ほとんどのNLPタスクにおいて優れた性能を実現することができるが、計算コストも大きい。
スパースアクティベーション現象に基づく条件計算により,大規模モデル推論を高速化する。
そこで本研究では,モデルサイズが等しいMoE(Mix-of-experts)バージョン,すなわちMoEficationに変換することを提案する。
論文 参考訳(メタデータ) (2021-10-05T02:14:38Z) - n-hot: Efficient bit-level sparsity for powers-of-two neural network
quantization [0.0]
パワーオブツー(PoT)量子化は、リソース制約ハードウェア上でのディープニューラルネットワークのビット演算数を減少させる。
PoT量子化は、表現能力が限られているため、深刻な精度低下を引き起こす。
メモリ効率の高い方法で精度とコストを両立した効率的なPoT量子化方式を提案する。
論文 参考訳(メタデータ) (2021-03-22T10:13:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。