論文の概要: Scalable Probabilistic Forecasting in Retail with Gradient Boosted
Trees: A Practitioner's Approach
- arxiv url: http://arxiv.org/abs/2311.00993v1
- Date: Thu, 2 Nov 2023 04:46:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-03 14:53:46.043104
- Title: Scalable Probabilistic Forecasting in Retail with Gradient Boosted
Trees: A Practitioner's Approach
- Title(参考訳): 緑化木を用いた小売店におけるスケーラブル確率予測 : 実践者のアプローチ
- Authors: Xueying Long, Quang Bui, Grady Oktavian, Daniel F. Schmidt, Christoph
Bergmeir, Rakshitha Godahewa, Seong Per Lee, Kaifeng Zhao, Paul Condylis
- Abstract要約: 本稿では,系列数や間欠性が少ない集約レベルでの予測を行うためのトップダウン手法を提案する。
サブサンプルによる低いレベルの直接トレーニングも、スケーリングの代替方法である。
われわれは、eコマースとブリック・アンド・モルタルの小売データセットの特徴の違いを示すことができる。
- 参考スコア(独自算出の注目度): 4.672665650064167
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The recent M5 competition has advanced the state-of-the-art in retail
forecasting. However, we notice important differences between the competition
challenge and the challenges we face in a large e-commerce company. The
datasets in our scenario are larger (hundreds of thousands of time series), and
e-commerce can afford to have a larger assortment than brick-and-mortar
retailers, leading to more intermittent data. To scale to larger dataset sizes
with feasible computational effort, firstly, we investigate a two-layer
hierarchy and propose a top-down approach to forecasting at an aggregated level
with less amount of series and intermittency, and then disaggregating to obtain
the decision-level forecasts. Probabilistic forecasts are generated under
distributional assumptions. Secondly, direct training at the lower level with
subsamples can also be an alternative way of scaling. Performance of modelling
with subsets is evaluated with the main dataset. Apart from a proprietary
dataset, the proposed scalable methods are evaluated using the Favorita dataset
and the M5 dataset. We are able to show the differences in characteristics of
the e-commerce and brick-and-mortar retail datasets. Notably, our top-down
forecasting framework enters the top 50 of the original M5 competition, even
with models trained at a higher level under a much simpler setting.
- Abstract(参考訳): 最近のM5コンペティションは、小売予測の最先端を推し進めている。
しかし、私たちは大きなeコマース企業で直面する競争の課題と直面する課題との間に重要な違いに気付きます。
われわれのシナリオのデータセットは、数十万の時系列であり、eコマースは、ブロック・アンド・モルタルの小売店よりも大きな品揃えを持ち、断続的なデータを生み出すことができる。
計算量の多いデータセットサイズにスケールするために,まず2層階層について検討し,シリーズ数と間欠量が少ない集約レベルで予測するトップダウンアプローチを提案し,その後に分散して決定レベルの予測を行う。
確率的予測は分布的仮定の下で生成される。
第二に、サブサンプルによる下位レベルの直接トレーニングは、スケーリングの代替手段にもなり得る。
サブセットによるモデリングのパフォーマンスをメインデータセットで評価する。
プロプライエタリなデータセットとは別に、提案するスケーラブルなメソッドは、 favoritaデータセットとm5データセットを使って評価される。
私たちは、eコマースとリアル店舗のデータセットの特徴の違いを見ることができます。
特に、私たちのトップダウン予測フレームワークは、よりシンプルな設定の下でより高いレベルでトレーニングされたモデルであっても、オリジナルのM5コンペティションのトップ50に入る。
関連論文リスト
- Towards Data-Efficient Pretraining for Atomic Property Prediction [51.660835328611626]
タスク関連データセットでの事前トレーニングは、大規模な事前トレーニングと一致するか、あるいは超える可能性があることを示す。
本稿では,コンピュータビジョンのFr'echet Inception Distanceにインスパイアされた,化学類似度指数(CSI)を紹介する。
論文 参考訳(メタデータ) (2025-02-16T11:46:23Z) - Maximize Your Data's Potential: Enhancing LLM Accuracy with Two-Phase Pretraining [39.75559743003037]
本研究では,2相事前学習の概念を定式化し,モデル精度を最大化するためにデータの選択と混合方法に関する体系的研究を行う。
我々は、データソースの品質と、見るべきエポックの数に基づいて、最適なブレンドを作るための詳細なガイダンスを提供する。
1Tトークンの小さなスケールでサンプルデータを用いてブレンドを設計し、15Tトークンのより大きなトークン水平線と25Bモデルサイズへのアプローチの効果的なスケーリングを実証することを提案する。
論文 参考訳(メタデータ) (2024-12-18T18:41:18Z) - F-FOMAML: GNN-Enhanced Meta-Learning for Peak Period Demand Forecasting with Proxy Data [65.6499834212641]
本稿では,需要予測をメタラーニング問題として定式化し,F-FOMAMLアルゴリズムを開発した。
タスク固有のメタデータを通してドメインの類似性を考慮することにより、トレーニングタスクの数が増加するにつれて過剰なリスクが減少する一般化を改善した。
従来の最先端モデルと比較して,本手法では需要予測精度が著しく向上し,内部自動販売機データセットでは平均絶対誤差が26.24%,JD.comデータセットでは1.04%削減された。
論文 参考訳(メタデータ) (2024-06-23T21:28:50Z) - Task-customized Masked AutoEncoder via Mixture of Cluster-conditional
Experts [104.9871176044644]
Masked Autoencoder (MAE) は,モデル事前学習において有望な結果が得られる自己教師型学習手法である。
我々は、新しいMAEベースの事前学習パラダイム、Mixture of Cluster-conditional Experts (MoCE)を提案する。
MoCEは、クラスタ条件ゲートを使用して、各専門家にセマンティックなイメージのみをトレーニングする。
論文 参考訳(メタデータ) (2024-02-08T03:46:32Z) - An Empirical Study on Distribution Shift Robustness From the Perspective
of Pre-Training and Data Augmentation [91.62129090006745]
本稿では,事前学習とデータ拡張の観点から分布シフト問題を考察する。
我々は,事前学習とデータ拡張に焦点を当てた,最初の総合的な実証的研究を行った。
論文 参考訳(メタデータ) (2022-05-25T13:04:53Z) - Approaching sales forecasting using recurrent neural networks and
transformers [57.43518732385863]
深層学習技術を用いて,日・店・店レベルでの顧客販売予測問題に対処する3つの方法を開発した。
実験結果から,データ前処理を最小限に抑えた単純なシーケンスアーキテクチャを用いて,優れた性能を実現することができることを示す。
提案した解は約0.54の RMSLE を達成し、Kaggle コンペティションで提案された問題に対する他のより具体的な解と競合する。
論文 参考訳(メタデータ) (2022-04-16T12:03:52Z) - A Comparative Study on Forecasting of Retail Sales [0.0]
Walmartの過去の売上データに関する予測モデルをベンチマークし、今後の売上を予測する。
これらのモデルを予測課題データセット(KaggleによるM5予測)に適用する。
論文 参考訳(メタデータ) (2022-03-14T04:24:29Z) - Comparing Test Sets with Item Response Theory [53.755064720563]
我々は,18の事前学習トランスフォーマーモデルから予測した29のデータセットを個別のテスト例で評価した。
Quoref、HellaSwag、MC-TACOは最先端のモデルを区別するのに最適である。
また、QAMRやSQuAD2.0のようなQAデータセットに使用されるスパン選択タスク形式は、強いモデルと弱いモデルとの差別化に有効である。
論文 参考訳(メタデータ) (2021-06-01T22:33:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。