論文の概要: Efficient Time Series Processing for Transformers and State-Space Models through Token Merging
- arxiv url: http://arxiv.org/abs/2405.17951v3
- Date: Thu, 05 Jun 2025 12:34:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-06 19:24:15.888436
- Title: Efficient Time Series Processing for Transformers and State-Space Models through Token Merging
- Title(参考訳): トークンマージによる変圧器および状態空間モデルの効率的な時系列処理
- Authors: Leon Götz, Marcel Kollovieh, Stephan Günnemann, Leo Schwinn,
- Abstract要約: コンピュータビジョンアーキテクチャにおける計算効率を向上させるソリューションとして、トークンマージが登場している。
局所的マージとは、局所的な領域内でトークンを選択的に結合する、ドメイン固有のトークンマージアルゴリズムである。
総合的な実証実験により,局所的なマージは精度に最小限の影響を伴って,実質的な効率向上をもたらすことが示された。
- 参考スコア(独自算出の注目度): 44.27818172708914
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite recent advances in subquadratic attention mechanisms or state-space models, processing long token sequences still imposes significant computational requirements. Token merging has emerged as a solution to increase computational efficiency in computer vision architectures. In this work, we perform the first investigations of token merging in time series analysis on both transformers and state-space models. We further introduce local merging, a domain-specific token merging algorithm that selectively combines tokens within a local neighborhood, achieving two major benefits: a) Local merging can adjust its computational complexity from quadratic to linear based on the neighborhood size to effectively scale to long sequences; b) Local merging is the first causal merging scheme enabling token merging in transformer decoders. Further, we identify spectral properties of the input data that reliably predict the potential benefits of local merging without requiring evaluation on downstream tasks. Our comprehensive empirical evaluation demonstrates that local merging offers substantial efficiency gains with minimal impact on accuracy, achieving up to 5400% acceleration on the recently proposed Chronos foundation model.
- Abstract(参考訳): 近年の準4次アテンション機構や状態空間モデルの発展にもかかわらず、長いトークンシーケンスの処理は依然として重要な計算要件を課している。
コンピュータビジョンアーキテクチャにおける計算効率を向上させるソリューションとして、トークンマージが登場している。
本研究では,トランスモデルと状態空間モデルの両方の時系列解析において,トークンマージに関する最初の研究を行う。
さらに、ローカルマージ(ローカルマージ)という、ドメイン固有のトークンマージアルゴリズムを導入します。
a) 局所的なマージは,近隣の規模に基づいて二次から線形への計算複雑性を調整し,効果的に長周期にスケールすることができる。
b) 局所マージはトランスデコーダにおけるトークンマージを可能にする最初の因果マージ方式である。
さらに、下流タスクの評価を必要とせず、局所的なマージの潜在的な利点を確実に予測する入力データのスペクトル特性を同定する。
最近提案したクロノス基礎モデルで最大5400%の加速を達成し, 局所的なマージにより精度への影響が最小限に抑えられることを示す。
関連論文リスト
- MATEY: multiscale adaptive foundation models for spatiotemporal physical systems [2.7767126393602726]
局所的な特徴に基づくパッチサイズを動的に調整する2つの適応トークン化方式を提案する。
提案するマルチスケール適応モデルであるMATEYの性能を実験で評価する。
また、PDEデータに基づいて事前学習した物理を特徴とする微調整タスクについても紹介する。
論文 参考訳(メタデータ) (2024-12-29T22:13:16Z) - Attamba: Attending To Multi-Token States [6.5676809841642125]
Attambaは、状態空間モデルを用いてトークンの塊を圧縮する新しいアーキテクチャである。
変換器のキーと値のプロジェクションをSSMに置き換えることで、モデルの品質が向上し、フレキシブルなトークンチャンキングが可能になる。
アタンバは可変長のチャンク列に注意を向けることができ、二次スケーリングと線形スケーリングのスムーズな遷移を可能にする。
論文 参考訳(メタデータ) (2024-11-26T18:52:06Z) - Rough Transformers: Lightweight Continuous-Time Sequence Modelling with Path Signatures [46.58170057001437]
本稿では,入力シーケンスの連続時間表現で動作するトランスフォーマーモデルのバリエーションであるRough Transformerを紹介する。
様々な時系列関連タスクにおいて、Rough Transformersはベニラアテンションよりも常に優れています。
論文 参考訳(メタデータ) (2024-05-31T14:00:44Z) - Leveraging 2D Information for Long-term Time Series Forecasting with Vanilla Transformers [55.475142494272724]
時系列予測は、様々な領域における複雑な力学の理解と予測に不可欠である。
GridTSTは、革新的な多方向性の注意を用いた2つのアプローチの利点を組み合わせたモデルである。
このモデルは、さまざまな現実世界のデータセットに対して、常に最先端のパフォーマンスを提供する。
論文 参考訳(メタデータ) (2024-05-22T16:41:21Z) - Token Fusion: Bridging the Gap between Token Pruning and Token Merging [71.84591084401458]
ビジョントランスフォーマー(ViT)はコンピュータビジョンの強力なバックボーンとして登場し、多くの伝統的なCNNを上回っている。
計算オーバーヘッドは、主に自己アテンション機構によるもので、リソース制約のあるエッジデバイスへのデプロイが困難になる。
トークンプルーニングとトークンマージの両方のメリットを両立させる手法であるToken Fusion(ToFu)を紹介する。
論文 参考訳(メタデータ) (2023-12-02T04:29:19Z) - Toeplitz Neural Network for Sequence Modeling [46.04964190407727]
Toeplitz行列ベクトル生成のトリックにより、シーケンスモデリングの時間的複雑さを減らし、ログ線形化することを示す。
パラメータの固定予算で相対位置係数を生成するために、相対位置エンコーダと呼ばれる軽量サブネットワークを提案する。
512 tokenのシーケンスでトレーニングされているにもかかわらず、我々のモデルは、一貫した性能で最大14Kトークンの入力シーケンス長を推定することができる。
論文 参考訳(メタデータ) (2023-05-08T14:49:01Z) - Robust representations of oil wells' intervals via sparse attention
mechanism [2.604557228169423]
正規化変換器(Reguformers)と呼ばれる効率的な変換器のクラスを導入する。
私たちの実験の焦点は、石油とガスのデータ、すなわちウェルログにあります。
このような問題に対する我々のモデルを評価するために、20以上の井戸からなるウェルログからなる産業規模のオープンデータセットで作業する。
論文 参考訳(メタデータ) (2022-12-29T09:56:33Z) - ClusTR: Exploring Efficient Self-attention via Clustering for Vision
Transformers [70.76313507550684]
本稿では,密集自己注意の代替として,コンテンツに基づくスパースアテンション手法を提案する。
具体的には、合計トークン数を減少させるコンテンツベースの方法として、キーとバリュートークンをクラスタ化し、集約する。
結果として得られたクラスタ化されたTokenシーケンスは、元の信号のセマンティックな多様性を保持するが、より少ない計算コストで処理できる。
論文 参考訳(メタデータ) (2022-08-28T04:18:27Z) - CloudAttention: Efficient Multi-Scale Attention Scheme For 3D Point
Cloud Learning [81.85951026033787]
この作業にトランスフォーマーをセットし、それらを形状分類と部分およびシーンセグメンテーションのための階層的なフレームワークに組み込む。
また、各イテレーションにおけるサンプリングとグループ化を活用して、効率的でダイナミックなグローバルなクロスアテンションを計算します。
提案した階層モデルは,最先端の形状分類を平均精度で達成し,従来のセグメンテーション法と同等の結果を得る。
論文 参考訳(メタデータ) (2022-07-31T21:39:15Z) - Sketching as a Tool for Understanding and Accelerating Self-attention
for Long Sequences [52.6022911513076]
トランスフォーマーベースのモデルは、自己アテンションモジュールの二次空間と時間的複雑さのために、長いシーケンスを処理するのに効率的ではない。
我々はLinformerとInformerを提案し、低次元投影と行選択により2次複雑性を線形(モジュラー対数因子)に還元する。
理論的解析に基づいて,Skeinformerを提案することにより,自己注意の促進と,自己注意への行列近似の精度の向上を図ることができる。
論文 参考訳(メタデータ) (2021-12-10T06:58:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。