論文の概要: GateTS: Versatile and Efficient Forecasting via Attention-Inspired routed Mixture-of-Experts
- arxiv url: http://arxiv.org/abs/2508.17515v1
- Date: Sun, 24 Aug 2025 20:39:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:45.564761
- Title: GateTS: Versatile and Efficient Forecasting via Attention-Inspired routed Mixture-of-Experts
- Title(参考訳): GateTS: 意図にインスパイアされた経路混在による多目的かつ効率的な予測
- Authors: Kyrylo Yemets, Mykola Lukashchuk, Ivan Izonin,
- Abstract要約: 本稿では,一変量時系列予測のためのトレーニングプロセスを単純化するモデルアーキテクチャを提案する。
提案手法は,従来の1層ソフトマックスルータに取って代わる,スパークスMoE計算と,アテンションにインスパイアされた新しいゲーティング機構を組み合わせたものである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Accurate univariate forecasting remains a pressing need in real-world systems, such as energy markets, hydrology, retail demand, and IoT monitoring, where signals are often intermittent and horizons span both short- and long-term. While transformers and Mixture-of-Experts (MoE) architectures are increasingly favored for time-series forecasting, a key gap persists: MoE models typically require complicated training with both the main forecasting loss and auxiliary load-balancing losses, along with careful routing/temperature tuning, which hinders practical adoption. In this paper, we propose a model architecture that simplifies the training process for univariate time series forecasting and effectively addresses both long- and short-term horizons, including intermittent patterns. Our approach combines sparse MoE computation with a novel attention-inspired gating mechanism that replaces the traditional one-layer softmax router. Through extensive empirical evaluation, we demonstrate that our gating design naturally promotes balanced expert utilization and achieves superior predictive accuracy without requiring the auxiliary load-balancing losses typically used in classical MoE implementations. The model achieves better performance while utilizing only a fraction of the parameters required by state-of-the-art transformer models, such as PatchTST. Furthermore, experiments across diverse datasets confirm that our MoE architecture with the proposed gating mechanism is more computationally efficient than LSTM for both long- and short-term forecasting, enabling cost-effective inference. These results highlight the potential of our approach for practical time-series forecasting applications where both accuracy and computational efficiency are critical.
- Abstract(参考訳): 正確な単変量予測は、エネルギー市場、水文学、小売需要、IoT監視といった現実世界のシステムにおいて、信号はしばしば断続的で、地平線は短期と長期の両方にまたがる。
トランスフォーマーとMixture-of-Experts (MoE)アーキテクチャは時系列予測にますます好まれるが、大きなギャップは続く。
本稿では,一変量時系列予測のトレーニングプロセスを単純化し,断続パターンを含む長期的・短期的地平線を効果的に扱うモデルアーキテクチャを提案する。
提案手法は,従来の1層ソフトマックスルータに取って代わる,スパークスMoE計算と,アテンションにインスパイアされた新しいゲーティング機構を組み合わせたものである。
実験により,我々のゲーティング設計は,従来のMoE実装でよく用いられる補助負荷分散損失を必要とせずに,バランスの取れた専門家の利用を自然に促進し,予測精度が向上することを示した。
このモデルは、PatchTSTのような最先端のトランスフォーマーモデルに必要なパラメータのごく一部しか利用せず、より良いパフォーマンスを実現する。
さらに,多種多様なデータセットを対象とした実験により,提案したゲーティング機構を用いたMoEアーキテクチャは長期予測と短期予測の両方においてLSTMよりも計算効率が高く,コスト効率のよい推論が可能であることが確認された。
これらの結果は,精度と計算効率を両立させる実用的な時系列予測アプリケーションへのアプローチの可能性を強調した。
関連論文リスト
- Advanced Hybrid Transformer LSTM Technique with Attention and TS Mixer for Drilling Rate of Penetration Prediction [1.2432046687586285]
掘削作業の最適化には, 浸透速度(ROP)が重要である。
伝統的な経験的、物理学的、基礎的な機械学習モデルは、複雑な時間的および文脈的関係を捉えないことが多い。
本稿では,Long Short-Term Memory(LSTM)ネットワーク,Transformerエンコーダ,Time-Series Mixer(TS-Mixer)ブロックを統合するハイブリッドディープラーニングアーキテクチャを提案する。
論文 参考訳(メタデータ) (2025-08-07T09:45:56Z) - Does Scaling Law Apply in Time Series Forecasting? [2.127584662240465]
我々は,kレベルパラメータのみを用いて競合性能を実現する超軽量予測モデルであるAlinearを提案する。
7つのベンチマークデータセットの実験では、Alinearが大規模モデルよりも一貫して優れていることが示されている。
この研究は、より大きなモデルが本質的に優れているという一般的な信念に挑戦し、より効率的な時系列モデリングへのパラダイムシフトを示唆している。
論文 参考訳(メタデータ) (2025-05-15T11:04:39Z) - Transformer-Based Bearing Fault Detection using Temporal Decomposition Attention Mechanism [0.40964539027092917]
ベアリング故障検出は予測保守において重要な課題であり、正確かつタイムリーな故障識別はコストダウンや機器の損傷を防ぐことができる。
トランスフォーマーニューラルネットワークの従来の注意機構は、振動データを保持する複雑な時間パターンを捉えるのに苦労することが多く、最適以下の性能をもたらす。
本稿では,時系列データの長期依存性と周期的変動の両方を捉えるために,時間偏差符号化と季節差分解を組み合わせた新しい注意機構である時間分解注意機構(TDA)を提案する。
論文 参考訳(メタデータ) (2024-12-15T16:51:31Z) - Forecast-PEFT: Parameter-Efficient Fine-Tuning for Pre-trained Motion Forecasting Models [68.23649978697027]
Forecast-PEFTは、モデルのパラメータの大部分を凍結し、新しく導入されたプロンプトとアダプタの調整に集中する微調整戦略である。
実験の結果,Forecast-PEFTは動作予測タスクにおいて従来のフルチューニング手法よりも優れていた。
Forecast-FTは予測性能をさらに改善し、従来のベースライン法よりも最大9.6%向上した。
論文 参考訳(メタデータ) (2024-07-28T19:18:59Z) - Are Self-Attentions Effective for Time Series Forecasting? [4.990206466948269]
時系列予測は、複数のドメインやさまざまなシナリオにわたるアプリケーションにとって不可欠である。
近年の研究では、より単純な線形モデルは、複雑なトランスフォーマーベースのアプローチよりも優れていることが示されている。
我々は、新しいアーキテクチャ、クロスアテンションのみの時系列変換器(CATS)を導入する。
提案モデルでは,平均二乗誤差が最小であり,既存のモデルに比べてパラメータが少ないため,性能が向上する。
論文 参考訳(メタデータ) (2024-05-27T06:49:39Z) - SEER-MoE: Sparse Expert Efficiency through Regularization for Mixture-of-Experts [49.01990048827639]
本稿では,事前学習したMoEモデルのメモリフットプリントと計算要求の両方を削減するためのフレームワークSEER-MoEを紹介する。
第1段階では、ヘビーヒッターズカウントガイダンスを使用して専門家の総数を計算し、第2段階では、正則化に基づく微調整戦略を使用して精度の低下を回復する。
実験により,提案手法の有効性を実証し,精度のトレードオフを最小限に抑えた推論効率に最適化したMoEsモデルを試作した。
論文 参考訳(メタデータ) (2024-04-07T22:13:43Z) - Parsimony or Capability? Decomposition Delivers Both in Long-term Time Series Forecasting [46.63798583414426]
時系列予測(LTSF)は時系列分析において重要なフロンティアである。
本研究は, 分析的および実証的な証拠から, 分解が過剰なモデルインフレーションを包含する鍵であることを実証する。
興味深いことに、時系列データの本質的なダイナミクスに分解を合わせることで、提案モデルは既存のベンチマークより優れている。
論文 参考訳(メタデータ) (2024-01-22T13:15:40Z) - Perceiver-based CDF Modeling for Time Series Forecasting [25.26713741799865]
本稿では,時系列データの累積分布関数(CDF)をモデル化するための新しいアーキテクチャであるPerceiver-CDFを提案する。
提案手法は,マルチモーダル時系列予測に適したコプラに基づくアテンション機構と,知覚アーキテクチャを組み合わせたものである。
単調かつマルチモーダルなベンチマークの実験は、最先端の手法よりも20%改善されていることを一貫して示している。
論文 参考訳(メタデータ) (2023-10-03T01:13:17Z) - Towards Long-Term Time-Series Forecasting: Feature, Pattern, and
Distribution [57.71199089609161]
長期的時系列予測(LTTF)は、風力発電計画など、多くのアプリケーションで需要が高まっている。
トランスフォーマーモデルは、高い計算自己認識機構のため、高い予測能力を提供するために採用されている。
LTTFの既存の手法を3つの面で区別する,Conformer という,効率的なTransformer ベースモデルを提案する。
論文 参考訳(メタデータ) (2023-01-05T13:59:29Z) - Transformer Hawkes Process [79.16290557505211]
本稿では,長期的依存関係を捕捉する自己認識機構を利用したTransformer Hawkes Process (THP) モデルを提案する。
THPは、有意なマージンによる可能性と事象予測の精度の両方の観点から、既存のモデルより優れている。
本稿では、THPが関係情報を組み込む際に、複数の点過程を学習する際の予測性能の改善を実現する具体例を示す。
論文 参考訳(メタデータ) (2020-02-21T13:48:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。