論文の概要: Efficient Time Series Processing for Transformers and State-Space Models through Token Merging
- arxiv url: http://arxiv.org/abs/2405.17951v1
- Date: Tue, 28 May 2024 08:28:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-29 19:37:52.909714
- Title: Efficient Time Series Processing for Transformers and State-Space Models through Token Merging
- Title(参考訳): トークンマージによる変圧器および状態空間モデルの効率的な時系列処理
- Authors: Leon Götz, Marcel Kollovieh, Stephan Günnemann, Leo Schwinn,
- Abstract要約: トークンマージにより、視覚変換器アーキテクチャのスループットが大幅に向上することが示されている。
局所的マージとは、局所的な領域内でトークンを選択的に結合する、ドメイン固有のトークンマージアルゴリズムである。
最近提案されたクロノス基礎モデルでは, わずかな精度劣化のみを伴い, 5400%の加速を実現している。
- 参考スコア(独自算出の注目度): 44.27818172708914
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformer architectures have shown promising results in time series processing. However, despite recent advances in subquadratic attention mechanisms or state-space models, processing very long sequences still imposes significant computational requirements. Token merging, which involves replacing multiple tokens with a single one calculated as their linear combination, has shown to considerably improve the throughput of vision transformer architectures while maintaining accuracy. In this work, we go beyond computer vision and perform the first investigations of token merging in time series analysis on both time series transformers and state-space models. To effectively scale token merging to long sequences, we introduce local merging, a domain-specific token merging algorithm that selectively combines tokens within a local neighborhood, adjusting the computational complexity from linear to quadratic based on the neighborhood size. Our comprehensive empirical evaluation demonstrates that token merging offers substantial computational benefits with minimal impact on accuracy across various models and datasets. On the recently proposed Chronos foundation model, we achieve accelerations up to 5400% with only minor accuracy degradations.
- Abstract(参考訳): トランスフォーマーアーキテクチャは時系列処理において有望な結果を示している。
しかし、近年のサブクワッドアテンション機構や状態空間モデルの発展にもかかわらず、非常に長いシーケンスの処理は依然として重要な計算要求を課している。
複数のトークンを線形結合として計算した1つのトークンに置き換えることによるトークンのマージは、精度を保ちながら視覚トランスフォーマーアーキテクチャのスループットを大幅に向上させることを示した。
本研究では,コンピュータビジョンを超えて,時系列変換器と状態空間モデルの両方の時系列解析において,トークンマージに関する最初の研究を行う。
トークンマージを長いシーケンスに効果的にスケールするために,局所的なマージアルゴリズムを導入する。局所的な領域内でトークンを選択的に組み合わせ,近傍サイズに基づいて計算複雑性を線形から二次に調整する。
我々の総合的な経験的評価は、トークンのマージが、様々なモデルやデータセットの精度に最小限の影響を伴って、かなりの計算上の利点をもたらすことを示している。
最近提案されたクロノス基礎モデルでは, わずかな精度劣化のみを伴い, 5400%の加速を実現している。
関連論文リスト
- Attamba: Attending To Multi-Token States [6.5676809841642125]
Attambaは、状態空間モデルを用いてトークンの塊を圧縮する新しいアーキテクチャである。
変換器のキーと値のプロジェクションをSSMに置き換えることで、モデルの品質が向上し、フレキシブルなトークンチャンキングが可能になる。
アタンバは可変長のチャンク列に注意を向けることができ、二次スケーリングと線形スケーリングのスムーズな遷移を可能にする。
論文 参考訳(メタデータ) (2024-11-26T18:52:06Z) - Rough Transformers: Lightweight Continuous-Time Sequence Modelling with Path Signatures [46.58170057001437]
本稿では,入力シーケンスの連続時間表現で動作するトランスフォーマーモデルのバリエーションであるRough Transformerを紹介する。
様々な時系列関連タスクにおいて、Rough Transformersはベニラアテンションよりも常に優れています。
論文 参考訳(メタデータ) (2024-05-31T14:00:44Z) - Leveraging 2D Information for Long-term Time Series Forecasting with Vanilla Transformers [55.475142494272724]
時系列予測は、様々な領域における複雑な力学の理解と予測に不可欠である。
GridTSTは、革新的な多方向性の注意を用いた2つのアプローチの利点を組み合わせたモデルである。
このモデルは、さまざまな現実世界のデータセットに対して、常に最先端のパフォーマンスを提供する。
論文 参考訳(メタデータ) (2024-05-22T16:41:21Z) - Token Fusion: Bridging the Gap between Token Pruning and Token Merging [71.84591084401458]
ビジョントランスフォーマー(ViT)はコンピュータビジョンの強力なバックボーンとして登場し、多くの伝統的なCNNを上回っている。
計算オーバーヘッドは、主に自己アテンション機構によるもので、リソース制約のあるエッジデバイスへのデプロイが困難になる。
トークンプルーニングとトークンマージの両方のメリットを両立させる手法であるToken Fusion(ToFu)を紹介する。
論文 参考訳(メタデータ) (2023-12-02T04:29:19Z) - Toeplitz Neural Network for Sequence Modeling [46.04964190407727]
Toeplitz行列ベクトル生成のトリックにより、シーケンスモデリングの時間的複雑さを減らし、ログ線形化することを示す。
パラメータの固定予算で相対位置係数を生成するために、相対位置エンコーダと呼ばれる軽量サブネットワークを提案する。
512 tokenのシーケンスでトレーニングされているにもかかわらず、我々のモデルは、一貫した性能で最大14Kトークンの入力シーケンス長を推定することができる。
論文 参考訳(メタデータ) (2023-05-08T14:49:01Z) - Robust representations of oil wells' intervals via sparse attention
mechanism [2.604557228169423]
正規化変換器(Reguformers)と呼ばれる効率的な変換器のクラスを導入する。
私たちの実験の焦点は、石油とガスのデータ、すなわちウェルログにあります。
このような問題に対する我々のモデルを評価するために、20以上の井戸からなるウェルログからなる産業規模のオープンデータセットで作業する。
論文 参考訳(メタデータ) (2022-12-29T09:56:33Z) - ClusTR: Exploring Efficient Self-attention via Clustering for Vision
Transformers [70.76313507550684]
本稿では,密集自己注意の代替として,コンテンツに基づくスパースアテンション手法を提案する。
具体的には、合計トークン数を減少させるコンテンツベースの方法として、キーとバリュートークンをクラスタ化し、集約する。
結果として得られたクラスタ化されたTokenシーケンスは、元の信号のセマンティックな多様性を保持するが、より少ない計算コストで処理できる。
論文 参考訳(メタデータ) (2022-08-28T04:18:27Z) - CloudAttention: Efficient Multi-Scale Attention Scheme For 3D Point
Cloud Learning [81.85951026033787]
この作業にトランスフォーマーをセットし、それらを形状分類と部分およびシーンセグメンテーションのための階層的なフレームワークに組み込む。
また、各イテレーションにおけるサンプリングとグループ化を活用して、効率的でダイナミックなグローバルなクロスアテンションを計算します。
提案した階層モデルは,最先端の形状分類を平均精度で達成し,従来のセグメンテーション法と同等の結果を得る。
論文 参考訳(メタデータ) (2022-07-31T21:39:15Z) - Sketching as a Tool for Understanding and Accelerating Self-attention
for Long Sequences [52.6022911513076]
トランスフォーマーベースのモデルは、自己アテンションモジュールの二次空間と時間的複雑さのために、長いシーケンスを処理するのに効率的ではない。
我々はLinformerとInformerを提案し、低次元投影と行選択により2次複雑性を線形(モジュラー対数因子)に還元する。
理論的解析に基づいて,Skeinformerを提案することにより,自己注意の促進と,自己注意への行列近似の精度の向上を図ることができる。
論文 参考訳(メタデータ) (2021-12-10T06:58:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。