論文の概要: Switch-Hurdle: A MoE Encoder with AR Hurdle Decoder for Intermittent Demand Forecasting
- arxiv url: http://arxiv.org/abs/2602.22685v1
- Date: Thu, 26 Feb 2026 07:03:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-27 18:41:22.56639
- Title: Switch-Hurdle: A MoE Encoder with AR Hurdle Decoder for Intermittent Demand Forecasting
- Title(参考訳): Switch-Hurdle: 断続的な需要予測のためのARハードルデコーダを備えたMoEエンコーダ
- Authors: Fabian Muşat, Simona Căbuz,
- Abstract要約: 断続的な需要は小売とサプライチェーンの予測において永続的な課題である。
本稿では,Mixture-of-Experts(MoE)エンコーダとHurdleベースの確率的デコーダを統合する新しいフレームワークであるSwitch-Hurdleを紹介する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Intermittent demand, a pattern characterized by long sequences of zero sales punctuated by sporadic, non-zero values, poses a persistent challenge in retail and supply chain forecasting. Both traditional methods, such as ARIMA, exponential smoothing, or Croston variants, as well as modern neural architectures such as DeepAR and Transformer-based models often underperform on such data, as they treat demand as a single continuous process or become computationally expensive when scaled across many sparse series. To address these limitations, we introduce Switch-Hurdle: a new framework that integrates a Mixture-of-Experts (MoE) encoder with a Hurdle-based probabilistic decoder. The encoder uses a sparse Top-1 expert routing during the forward pass yet approximately dense in the backward pass via a straight-through estimator (STE). The decoder follows a cross-attention autoregressive design with a shared hurdle head that explicitly separates the forecasting task into two components: a binary classification component estimating the probability of a sale, and a conditional regression component, predicting the quantity given a sale. This structured separation enables the model to capture both occurrence and magnitude processes inherent to intermittent demand. Empirical results on the M5 benchmark and a large proprietary retail dataset show that Switch-Hurdle achieves state-of-the-art prediction performance while maintaining scalability.
- Abstract(参考訳): 断続的需要(Intermittent demand)は、散発的、非ゼロな値によって予測されるゼロ販売の長いシーケンスによって特徴づけられるパターンであり、小売およびサプライチェーンの予測において永続的な課題を生じさせる。
ARIMA、指数的平滑化、クロストン変種といった従来の手法と、DeepARやTransformerベースのモデルのような現代のニューラルネットワークは、需要を単一の継続的プロセスとして扱う場合や、多くのスパース級数にまたがるスケールで計算的に高価になる場合など、これらのデータでは性能が劣ることが多い。
これらの制限に対処するために、Switch-Hurdleを紹介します。これは、Mixture-of-Experts(MoE)エンコーダとHurdleベースの確率的デコーダを統合する新しいフレームワークです。
エンコーダは前方パスの間はスパースなTop-1エキスパートルーティングを使用するが、後方パスではストレートスルー推定器(STE)を介してほぼ密である。
復号器は、共有ハードルヘッドを有するクロスアテンション自己回帰設計に従い、予測タスクを、販売の確率を推定する二分分類成分と、販売された金額を予測する条件回帰成分とに明確に分離する。
この構造的分離により、モデルは断続的な需要に固有の発生過程と大きさのプロセスの両方をキャプチャできる。
M5ベンチマークと大規模プロプライエタリな小売データセットの実証結果は、Switch-Hurdleがスケーラビリティを維持しながら最先端の予測性能を実現していることを示している。
関連論文リスト
- Seg-MoE: Multi-Resolution Segment-wise Mixture-of-Experts for Time Series Forecasting Transformers [0.9058414988965365]
独立した専門家決定を行うのではなく、連続した時間ステップセグメントを処理するスパースなMoE設計であるSeg-MoEを紹介する。
Seg-MoEは、ほぼすべての予測地平線にわたって、最先端の予測精度を一貫して達成する。
この結果から,MoEルーティングの粒度と時系列の固有構造との整合性は,より強力で未探索な帰納バイアスをもたらすことが示された。
論文 参考訳(メタデータ) (2026-01-29T12:43:35Z) - One-Shot Price Forecasting with Covariate-Guided Experts under Privacy Constraints [10.464301005723968]
そこで本稿では,トークン化と符号化の間の疎混合層を注入することにより,事前学習した予測モデルを拡張したMoEモジュールを提案する。
MoE-Encoderは、強いベースラインに比べて予測精度が大幅に向上する。
この結果から,MoE-Encoderは,基本時系列モデルに対して,スケーラブルでプライバシに配慮した拡張機能を提供することが示唆された。
論文 参考訳(メタデータ) (2026-01-17T09:13:57Z) - SIGMA: Selective Gated Mamba for Sequential Recommendation [56.85338055215429]
最近の進歩であるMambaは、時系列予測において例外的なパフォーマンスを示した。
SIGMA(Selective Gated Mamba)と呼ばれる,シークエンシャルレコメンデーションのための新しいフレームワークを紹介する。
以上の結果から,SIGMAは5つの実世界のデータセットにおいて,現在のモデルよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2024-08-21T09:12:59Z) - Rough Transformers: Lightweight and Continuous Time Series Modelling through Signature Patching [46.58170057001437]
本稿では,入力シーケンスの連続時間表現で動作するトランスフォーマーモデルのバリエーションであるRough Transformerを紹介する。
様々な時系列関連タスクにおいて、Rough Transformersはベニラアテンションよりも常に優れています。
論文 参考訳(メタデータ) (2024-05-31T14:00:44Z) - Parsimony or Capability? Decomposition Delivers Both in Long-term Time Series Forecasting [46.63798583414426]
時系列予測(LTSF)は時系列分析において重要なフロンティアである。
本研究は, 分析的および実証的な証拠から, 分解が過剰なモデルインフレーションを包含する鍵であることを実証する。
興味深いことに、時系列データの本質的なダイナミクスに分解を合わせることで、提案モデルは既存のベンチマークより優れている。
論文 参考訳(メタデータ) (2024-01-22T13:15:40Z) - CARD: Channel Aligned Robust Blend Transformer for Time Series
Forecasting [50.23240107430597]
本稿では,CARD(Channel Aligned Robust Blend Transformer)という特殊なトランスを設計する。
まず、CARDはチャネルに沿ったアテンション構造を導入し、信号間の時間的相関をキャプチャする。
第二に、マルチスケール知識を効率的に活用するために、異なる解像度のトークンを生成するトークンブレンドモジュールを設計する。
第3に,潜在的な過度な問題を軽減するため,時系列予測のためのロバストな損失関数を導入する。
論文 参考訳(メタデータ) (2023-05-20T05:16:31Z) - Discrete Key-Value Bottleneck [95.61236311369821]
ディープニューラルネットワークは、データストリームがi.d.d.であり、ラベル付きデータが豊富である分類タスクでうまく機能する。
この課題に対処した強力なアプローチの1つは、手軽に利用可能なデータ量に対する大規模なエンコーダの事前トレーニングと、タスク固有のチューニングである。
しかし、新しいタスクを考えると、多くの重みを微調整する必要があるため、エンコーダの重みを更新することは困難であり、その結果、以前のタスクに関する情報を忘れてしまう。
この問題に対処するモデルアーキテクチャを提案し,個別かつ学習可能なキー値符号のペアを含む離散的ボトルネックの上に構築する。
論文 参考訳(メタデータ) (2022-07-22T17:52:30Z) - Mitigating Data Redundancy to Revitalize Transformer-based Long-Term Time Series Forecasting System [46.39662315849883]
本稿では,カリキュラム学習とメモリ駆動デコーダによる冗長性を緩和する新しいフレームワークであるCLMFormerを紹介する。
CLMFormerはTransformerベースのモデルを最大30%改善し、長距離予測の有効性を示している。
論文 参考訳(メタデータ) (2022-07-16T04:05:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。