論文の概要: Switch-Hurdle: A MoE Encoder with AR Hurdle Decoder for Intermittent Demand Forecasting
- arxiv url: http://arxiv.org/abs/2602.22685v1
- Date: Thu, 26 Feb 2026 07:03:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-27 18:41:22.56639
- Title: Switch-Hurdle: A MoE Encoder with AR Hurdle Decoder for Intermittent Demand Forecasting
- Title(参考訳): Switch-Hurdle: 断続的な需要予測のためのARハードルデコーダを備えたMoEエンコーダ
- Authors: Fabian Muşat, Simona Căbuz,
- Abstract要約: 断続的な需要は小売とサプライチェーンの予測において永続的な課題である。
本稿では,Mixture-of-Experts(MoE)エンコーダとHurdleベースの確率的デコーダを統合する新しいフレームワークであるSwitch-Hurdleを紹介する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Intermittent demand, a pattern characterized by long sequences of zero sales punctuated by sporadic, non-zero values, poses a persistent challenge in retail and supply chain forecasting. Both traditional methods, such as ARIMA, exponential smoothing, or Croston variants, as well as modern neural architectures such as DeepAR and Transformer-based models often underperform on such data, as they treat demand as a single continuous process or become computationally expensive when scaled across many sparse series. To address these limitations, we introduce Switch-Hurdle: a new framework that integrates a Mixture-of-Experts (MoE) encoder with a Hurdle-based probabilistic decoder. The encoder uses a sparse Top-1 expert routing during the forward pass yet approximately dense in the backward pass via a straight-through estimator (STE). The decoder follows a cross-attention autoregressive design with a shared hurdle head that explicitly separates the forecasting task into two components: a binary classification component estimating the probability of a sale, and a conditional regression component, predicting the quantity given a sale. This structured separation enables the model to capture both occurrence and magnitude processes inherent to intermittent demand. Empirical results on the M5 benchmark and a large proprietary retail dataset show that Switch-Hurdle achieves state-of-the-art prediction performance while maintaining scalability.
- Abstract(参考訳): 断続的需要(Intermittent demand)は、散発的、非ゼロな値によって予測されるゼロ販売の長いシーケンスによって特徴づけられるパターンであり、小売およびサプライチェーンの予測において永続的な課題を生じさせる。
ARIMA、指数的平滑化、クロストン変種といった従来の手法と、DeepARやTransformerベースのモデルのような現代のニューラルネットワークは、需要を単一の継続的プロセスとして扱う場合や、多くのスパース級数にまたがるスケールで計算的に高価になる場合など、これらのデータでは性能が劣ることが多い。
これらの制限に対処するために、Switch-Hurdleを紹介します。これは、Mixture-of-Experts(MoE)エンコーダとHurdleベースの確率的デコーダを統合する新しいフレームワークです。
エンコーダは前方パスの間はスパースなTop-1エキスパートルーティングを使用するが、後方パスではストレートスルー推定器(STE)を介してほぼ密である。
復号器は、共有ハードルヘッドを有するクロスアテンション自己回帰設計に従い、予測タスクを、販売の確率を推定する二分分類成分と、販売された金額を予測する条件回帰成分とに明確に分離する。
この構造的分離により、モデルは断続的な需要に固有の発生過程と大きさのプロセスの両方をキャプチャできる。
M5ベンチマークと大規模プロプライエタリな小売データセットの実証結果は、Switch-Hurdleがスケーラビリティを維持しながら最先端の予測性能を実現していることを示している。
関連論文リスト
- Phase-Type Variational Autoencoders for Heavy-Tailed Data [0.20854674413792754]
重い尾の分布は、稀だが極端な出来事がリスクと変動性を支配している現実世界のデータに広く見られる。
位相型変分オートエンコーダ(PH-VAE)を提案し,そのデコーダ分布は潜時条件付き位相型(PH)分布である。
合成および実世界のベンチマークの実験により、PH-VAEは多様な重み付き分布を正確に回復することを示した。
論文 参考訳(メタデータ) (2026-03-02T12:32:42Z) - Seg-MoE: Multi-Resolution Segment-wise Mixture-of-Experts for Time Series Forecasting Transformers [0.9058414988965365]
独立した専門家決定を行うのではなく、連続した時間ステップセグメントを処理するスパースなMoE設計であるSeg-MoEを紹介する。
Seg-MoEは、ほぼすべての予測地平線にわたって、最先端の予測精度を一貫して達成する。
この結果から,MoEルーティングの粒度と時系列の固有構造との整合性は,より強力で未探索な帰納バイアスをもたらすことが示された。
論文 参考訳(メタデータ) (2026-01-29T12:43:35Z) - One-Shot Price Forecasting with Covariate-Guided Experts under Privacy Constraints [10.464301005723968]
そこで本稿では,トークン化と符号化の間の疎混合層を注入することにより,事前学習した予測モデルを拡張したMoEモジュールを提案する。
MoE-Encoderは、強いベースラインに比べて予測精度が大幅に向上する。
この結果から,MoE-Encoderは,基本時系列モデルに対して,スケーラブルでプライバシに配慮した拡張機能を提供することが示唆された。
論文 参考訳(メタデータ) (2026-01-17T09:13:57Z) - Scaling LLM Speculative Decoding: Non-Autoregressive Forecasting in Large-Batch Scenarios [76.85739138203014]
本稿では,一方向および注目メカニズムを加速する新しいアーキテクチャであるSpecFormerを紹介する。
また,SpecFormerはトレーニング要求の低減と計算コストの削減を実現している。
論文 参考訳(メタデータ) (2025-11-25T14:20:08Z) - ARMA Block: A CNN-Based Autoregressive and Moving Average Module for Long-Term Time Series Forecasting [3.0641475192265495]
提案ブロックはARIMA(Auto-Regressive Integrated Average)モデルにインスパイアされている。
繰り返し多段階予測を必要とする従来のARIMAとは異なり、ブロックは直接多段階予測を行う。
このブロックは本質的に絶対位置情報を符号化しており、シーケンシャルモデルにおける位置埋め込みの軽量な代替としての可能性を示している。
論文 参考訳(メタデータ) (2025-09-12T15:03:49Z) - Timer-XL: Long-Context Transformers for Unified Time Series Forecasting [67.83502953961505]
我々は時系列の統一予測のための因果変換器Timer-XLを提案する。
大規模な事前トレーニングに基づいて、Timer-XLは最先端のゼロショット性能を達成する。
論文 参考訳(メタデータ) (2024-10-07T07:27:39Z) - SIGMA: Selective Gated Mamba for Sequential Recommendation [56.85338055215429]
最近の進歩であるMambaは、時系列予測において例外的なパフォーマンスを示した。
SIGMA(Selective Gated Mamba)と呼ばれる,シークエンシャルレコメンデーションのための新しいフレームワークを紹介する。
以上の結果から,SIGMAは5つの実世界のデータセットにおいて,現在のモデルよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2024-08-21T09:12:59Z) - Rough Transformers: Lightweight and Continuous Time Series Modelling through Signature Patching [46.58170057001437]
本稿では,入力シーケンスの連続時間表現で動作するトランスフォーマーモデルのバリエーションであるRough Transformerを紹介する。
様々な時系列関連タスクにおいて、Rough Transformersはベニラアテンションよりも常に優れています。
論文 参考訳(メタデータ) (2024-05-31T14:00:44Z) - Parsimony or Capability? Decomposition Delivers Both in Long-term Time Series Forecasting [46.63798583414426]
時系列予測(LTSF)は時系列分析において重要なフロンティアである。
本研究は, 分析的および実証的な証拠から, 分解が過剰なモデルインフレーションを包含する鍵であることを実証する。
興味深いことに、時系列データの本質的なダイナミクスに分解を合わせることで、提案モデルは既存のベンチマークより優れている。
論文 参考訳(メタデータ) (2024-01-22T13:15:40Z) - Complexity Matters: Rethinking the Latent Space for Generative Modeling [65.64763873078114]
生成的モデリングにおいて、多くの成功したアプローチは、例えば安定拡散のような低次元の潜在空間を利用する。
本研究では, モデル複雑性の観点から潜在空間を再考することにより, 未探索の話題に光を当てることを目的としている。
論文 参考訳(メタデータ) (2023-07-17T07:12:29Z) - CARD: Channel Aligned Robust Blend Transformer for Time Series
Forecasting [50.23240107430597]
本稿では,CARD(Channel Aligned Robust Blend Transformer)という特殊なトランスを設計する。
まず、CARDはチャネルに沿ったアテンション構造を導入し、信号間の時間的相関をキャプチャする。
第二に、マルチスケール知識を効率的に活用するために、異なる解像度のトークンを生成するトークンブレンドモジュールを設計する。
第3に,潜在的な過度な問題を軽減するため,時系列予測のためのロバストな損失関数を導入する。
論文 参考訳(メタデータ) (2023-05-20T05:16:31Z) - Discrete Key-Value Bottleneck [95.61236311369821]
ディープニューラルネットワークは、データストリームがi.d.d.であり、ラベル付きデータが豊富である分類タスクでうまく機能する。
この課題に対処した強力なアプローチの1つは、手軽に利用可能なデータ量に対する大規模なエンコーダの事前トレーニングと、タスク固有のチューニングである。
しかし、新しいタスクを考えると、多くの重みを微調整する必要があるため、エンコーダの重みを更新することは困難であり、その結果、以前のタスクに関する情報を忘れてしまう。
この問題に対処するモデルアーキテクチャを提案し,個別かつ学習可能なキー値符号のペアを含む離散的ボトルネックの上に構築する。
論文 参考訳(メタデータ) (2022-07-22T17:52:30Z) - Mitigating Data Redundancy to Revitalize Transformer-based Long-Term Time Series Forecasting System [46.39662315849883]
本稿では,カリキュラム学習とメモリ駆動デコーダによる冗長性を緩和する新しいフレームワークであるCLMFormerを紹介する。
CLMFormerはTransformerベースのモデルを最大30%改善し、長距離予測の有効性を示している。
論文 参考訳(メタデータ) (2022-07-16T04:05:15Z) - Paraformer: Fast and Accurate Parallel Transformer for
Non-autoregressive End-to-End Speech Recognition [62.83832841523525]
そこで我々はParaformerと呼ばれる高速かつ高精度な並列トランスを提案する。
出力トークンの数を正確に予測し、隠れた変数を抽出する。
10倍以上のスピードアップで、最先端のARトランスフォーマーに匹敵するパフォーマンスを実現することができる。
論文 参考訳(メタデータ) (2022-06-16T17:24:14Z) - Complex Event Forecasting with Prediction Suffix Trees: Extended
Technical Report [70.7321040534471]
複合イベント認識(CER)システムは、イベントのリアルタイムストリーム上のパターンを"即時"検出する能力によって、過去20年間に人気が高まっている。
このような現象が実際にCERエンジンによって検出される前に、パターンがいつ発生するかを予測する方法が不足している。
複雑なイベント予測の問題に対処しようとする形式的なフレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-01T09:52:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。