論文の概要: TwinFormer: A Dual-Level Transformer for Long-Sequence Time-Series Forecasting
- arxiv url: http://arxiv.org/abs/2512.12301v1
- Date: Sat, 13 Dec 2025 11:50:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.207579
- Title: TwinFormer: A Dual-Level Transformer for Long-Sequence Time-Series Forecasting
- Title(参考訳): TwinFormer: 時系列時系列予測のためのデュアルレベル変換器
- Authors: Mahima Kumavat, Aditya Maheshwari,
- Abstract要約: TwinFormerは時系列予測のための階層型トランスフォーマーである。
入力を重複しない時間パッチに分割し、2段階に分けて処理する。
軽量GRUは、直接マルチ水平予測のために、グローバルにコンテキスト化されたパッチトークンを集約する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: TwinFormer is a hierarchical Transformer for long-sequence time-series forecasting. It divides the input into non-overlapping temporal patches and processes them in two stages: (1) a Local Informer with top-$k$ Sparse Attention models intra-patch dynamics, followed by mean pooling; (2) a Global Informer captures long-range inter-patch dependencies using the same top-$k$ attention. A lightweight GRU aggregates the globally contextualized patch tokens for direct multi-horizon prediction. The resulting architecture achieves linear $O(kLd)$ time and memory complexity. On eight real-world benchmarking datasets from six different domains, including weather, stock price, temperature, power consumption, electricity, and disease, and forecasting horizons $96-720$, TwinFormer secures $27$ positions in the top two out of $34$. Out of the $27$, it achieves the best performance on MAE and RMSE at $17$ places and $10$ at the second-best place on MAE and RMSE. This consistently outperforms PatchTST, iTransformer, FEDformer, Informer, and vanilla Transformers. Ablations confirm the superiority of top-$k$ Sparse Attention over ProbSparse and the effectiveness of GRU-based aggregation. Code is available at this repository: https://github.com/Mahimakumavat1205/TwinFormer.
- Abstract(参考訳): TwinFormerは時系列予測のための階層型トランスフォーマーである。
1)トップ$k$スパースアテンションモデルを持つローカルインフォーマー、続いて平均プール、(2)グローバルインフォーマーは同じトップ$k$アテンションを使用して、長距離のパッチ間依存関係をキャプチャする。
軽量GRUは、直接マルチ水平予測のために、グローバルにコンテキスト化されたパッチトークンを集約する。
結果として得られるアーキテクチャは、線形$O(kLd)$時間とメモリの複雑さを達成する。
TwinFormerは、天候、株価、温度、電力消費、電気、病気など6つの分野の8つの実世界のベンチマークデータセットと、960〜720ドル(約9万7000円)の地平線予測で、トップ2の34ドルのうち27ドル(約2万7000円)のポジションを確保している。
27ドルのうち、MAEとRMSEの最高パフォーマンスは17ドル、RMSEの2位で10ドルだ。
これは、PatchTST、iTransformer、FEDformer、Informer、バニラトランスフォーマーを一貫して上回る。
アブレーションは、ProbSparseよりも上位の$Sparse Attentionの優位性と、GRUベースのアグリゲーションの有効性を確認している。
コードは、このリポジトリで入手できる。 https://github.com/Mahimakumavat1205/TwinFormer。
関連論文リスト
- H$_{2}$OT: Hierarchical Hourglass Tokenizer for Efficient Video Pose Transformers [124.11648300910444]
Heerarchical Hourglass Tokenizer (H$_2$OT) と呼ばれる階層的なプラグアンドプレイプルーニング&ドル回復フレームワークを提案する。
提案手法は汎用的であり,Seq2seqおよびSeq2frameパイプラインの共通VPTモデルに容易に組み込むことができる。
論文 参考訳(メタデータ) (2025-09-08T17:59:59Z) - Scaling Up Liquid-Resistance Liquid-Capacitance Networks for Efficient Sequence Modeling [50.994194925685434]
LrcSSMは$textitnon-linear$リカレントモデルで、現在の線形状態空間層と同じくらい高速に長いシーケンスを処理する。
ヤコビ行列を対角線に強制することにより、全列を並列に解くことができる。
LrcSSMは、Liquid-S4のような他の入力変化系が提供しないことを保証する形式的な勾配安定性を提供する。
論文 参考訳(メタデータ) (2025-05-27T20:02:59Z) - Sensorformer: Cross-patch attention with global-patch compression is effective for high-dimensional multivariate time series forecasting [12.103678233732584]
本稿では,まずグローバルパッチ情報を圧縮し,同時に圧縮された表現からクロス変数およびクロスタイム依存関係を抽出する新しい変換器であるSensorformerを提案する。
センサフォーマは、変数間の動的因果ラグが存在する場合でも、適切な変数間の相関関係と因果関係を効果的に捉えることができる。
論文 参考訳(メタデータ) (2025-01-06T03:14:47Z) - Nimbus: Secure and Efficient Two-Party Inference for Transformers [26.548997436676295]
この作業では、Transformerモデル用の新しい2要素推論フレームワークである$mathsfNimbusを提示する。
線形層に対しては,外部積の洞察に基づいて行列乗算を安全に計算するための符号化手法とともに,新しい2PCパラダイムを提案する。
非線型層に対しては、$mathsfGELU$と$mathsfSoftmax$に対する低次近似のアプローチを提案する。
論文 参考訳(メタデータ) (2024-11-24T04:24:31Z) - HiRE: High Recall Approximate Top-$k$ Estimation for Efficient LLM
Inference [68.59839755875252]
HiREは2つの新しいコンポーネントから構成される: (i) (i) (i) (i) (i) (i) (i) (i) (i) (i) (ii) DA-TOP-$k$: 効率的なマルチデバイス近似トップ-k$演算子) (i) (i) (i) (i) (i) (i) (i) DA-TOP-$k$演算子) 。
我々は、10億のパラメータモデルにおいて、HiREがソフトマックスとフィードフォワード層の両方に適用され、ほぼ一致した事前学習と下流の精度を実現し、1台のTPUv5eデバイスで1.47Times$の推論遅延を高速化することを示した。
論文 参考訳(メタデータ) (2024-02-14T18:04:36Z) - TCNCA: Temporal Convolution Network with Chunked Attention for Scalable
Sequence Processing [52.64837396100988]
MEGAは最近のトランスフォーマーベースのアーキテクチャで、線形リカレント演算子を使用し、並列計算はFFTに基づいて、$O(LlogL)$で、$L$はシーケンス長である。
線形再帰を特別な時間的畳み込みネットワークに置き換えることで、より浅いネットワークでより大きい受容場を許容し、計算複雑性を$O(L)$に減らし、それらのアプローチを構築する。
我々は,EnWik8言語モデリングにおけるTCNCA,LRA(Long-range-arena)シーケンス分類,および合成推論ベンチマーク連想リコールの評価を行った。
論文 参考訳(メタデータ) (2023-12-09T16:12:25Z) - p-Laplacian Transformer [7.2541371193810384]
グラフと画像信号処理をルーツとする$p$-Laplacian正規化は、これらのデータに対する正規化効果を制御するパラメータ$p$を導入している。
まず、自己注意機構が最小のラプラシアン正規化を得ることを示す。
次に、新しい変圧器のクラス、すなわち$p$-Laplacian Transformer (p-LaT)を提案する。
論文 参考訳(メタデータ) (2023-11-06T16:25:56Z) - Guided Patch-Grouping Wavelet Transformer with Spatial Congruence for
Ultra-High Resolution Segmentation [18.50799240622156]
GPWFormer(GPWFormer)の提案
$mathcalT$は、UHRイメージ全体を入力として取り、局所的な詳細と細かな長距離コンテキスト依存の両方を抽出する。
$mathcalC$は、カテゴリの深いコンテキストを学ぶための入力として、サンプルイメージを取ります。
論文 参考訳(メタデータ) (2023-07-03T02:19:48Z) - Learning Tracking Representations via Dual-Branch Fully Transformer
Networks [82.21771581817937]
追従のためのトランスフォーマーのみをベースとした,シームズ型デュアルブランチネットワークを提案する。
注目ウィンドウ内の他のパッチとのマッチング結果に基づいて,各パッチの特徴ベクトルを抽出する。
この手法は、最高の性能の方法として、より良い結果または同等の結果を得る。
論文 参考訳(メタデータ) (2021-12-05T13:44:33Z) - $O(n)$ Connections are Expressive Enough: Universal Approximability of
Sparse Transformers [71.31712741938837]
注意層ごとに$O(n)$接続しか持たないスパース変換器は、$n2$接続を持つ高密度モデルと同じ関数クラスを近似できることを示す。
また、標準NLPタスクにおいて、異なるパターン・レベルの違いを比較検討する。
論文 参考訳(メタデータ) (2020-06-08T18:30:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。