論文の概要: Monitoring Machine Learning Forecasts for Platform Data Streams
- arxiv url: http://arxiv.org/abs/2401.09144v1
- Date: Wed, 17 Jan 2024 11:37:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-18 15:59:37.616012
- Title: Monitoring Machine Learning Forecasts for Platform Data Streams
- Title(参考訳): プラットフォームデータストリームのための機械学習予測の監視
- Authors: Jeroen Rombouts and Ines Wilms
- Abstract要約: デジタルプラットフォームは、突然のパフォーマンス低下に対応するために、大規模な予測フレームワークを必要とします。
本稿では,MLアルゴリズムを再トレーニングする際の問題に答えるために,データ駆動型モニタリング手法を提案する。
モニタベースのリトレーニングは、実行可能なベンチマークと比較して正確な予測を生成する。
- 参考スコア(独自算出の注目度): 2.474754293747645
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Data stream forecasts are essential inputs for decision making at digital
platforms. Machine learning algorithms are appealing candidates to produce such
forecasts. Yet, digital platforms require a large-scale forecast framework that
can flexibly respond to sudden performance drops. Re-training ML algorithms at
the same speed as new data batches enter is usually computationally too costly.
On the other hand, infrequent re-training requires specifying the re-training
frequency and typically comes with a severe cost of forecast deterioration. To
ensure accurate and stable forecasts, we propose a simple data-driven
monitoring procedure to answer the question when the ML algorithm should be
re-trained. Instead of investigating instability of the data streams, we test
if the incoming streaming forecast loss batch differs from a well-defined
reference batch. Using a novel dataset constituting 15-min frequency data
streams from an on-demand logistics platform operating in London, we apply the
monitoring procedure to popular ML algorithms including random forest, XGBoost
and lasso. We show that monitor-based re-training produces accurate forecasts
compared to viable benchmarks while preserving computational feasibility.
Moreover, the choice of monitoring procedure is more important than the choice
of ML algorithm, thereby permitting practitioners to combine the proposed
monitoring procedure with one's favorite forecasting algorithm.
- Abstract(参考訳): データストリーム予測は、デジタルプラットフォームにおける意思決定に不可欠な入力である。
機械学習アルゴリズムは、そのような予測を生成する候補者にアピールしている。
しかし、デジタルプラットフォームには、突然のパフォーマンス低下に柔軟に対応できる大規模な予測フレームワークが必要です。
MLアルゴリズムを新しいデータバッチが入力するのと同じ速度で再トレーニングすることは、通常、計算コストが高すぎる。
一方、頻繁な再訓練には再訓練頻度の指定が必要であり、予測劣化の重大なコストが伴う。
正確で安定した予測を保証するため,MLアルゴリズムを再学習する際の疑問に答える,シンプルなデータ駆動型監視手法を提案する。
データストリームの不安定性を調べる代わりに、入ってくるストリーミング予測損失バッチが明確に定義された参照バッチと異なるかどうかをテストする。
ロンドンで運用されているオンデマンドロジスティクスプラットフォームから15分間の周波数データストリームを構成する新しいデータセットを用いて、ランダムフォレスト、XGBoost、Lassoを含む一般的なMLアルゴリズムにモニタリング手順を適用する。
モニタによる再トレーニングは,計算可能性を維持しながら,実行可能なベンチマークよりも正確な予測を生成することを示す。
さらに、監視手順の選択はMLアルゴリズムの選択よりも重要であり、提案した監視手順とお気に入りの予測アルゴリズムを組み合わせることができる。
関連論文リスト
- Scaling Laws for Predicting Downstream Performance in LLMs [75.28559015477137]
この研究は、性能評価のためのより効率的な指標として、事前学習損失に焦点を当てている。
我々は、データソース間のFLOPに基づいて、ドメイン固有の事前学習損失を予測するために、電力法解析関数を拡張した。
我々は2層ニューラルネットワークを用いて、複数のドメイン固有の損失と下流性能の非線形関係をモデル化する。
論文 参考訳(メタデータ) (2024-10-11T04:57:48Z) - Advancing Machine Learning in Industry 4.0: Benchmark Framework for Rare-event Prediction in Chemical Processes [0.0]
本稿では,様々な複雑さのMLアルゴリズムを比較し,レアイベント予測のための新しい総合的ベンチマークフレームワークを提案する。
異常事象を予測するための最適ML戦略を特定し,より安全で信頼性の高いプラント操作を実現する。
論文 参考訳(メタデータ) (2024-08-31T15:41:10Z) - Iterative Forgetting: Online Data Stream Regression Using Database-Inspired Adaptive Granulation [1.6874375111244329]
本稿では、R*木からインスピレーションを得て、入ってくるデータストリームからグラニュラーを生成するデータベースインスピレーション付きデータストリーム回帰モデルを提案する。
実験により、この手法がデータを破棄する能力は、レイテンシとトレーニング時間において大幅に改善されることが示された。
論文 参考訳(メタデータ) (2024-03-14T17:26:00Z) - Direct Unsupervised Denoising [60.71146161035649]
教師なしのデノイザは、MMSE推定のような単一の予測を直接生成しない。
本稿では,VAEと並んで決定論的ネットワークを訓練し,中心的な傾向を直接予測するアプローチを提案する。
論文 参考訳(メタデータ) (2023-10-27T13:02:12Z) - State Sequences Prediction via Fourier Transform for Representation
Learning [111.82376793413746]
本研究では,表現表現を効率よく学習する新しい方法である,フーリエ変換(SPF)による状態列予測を提案する。
本研究では,状態系列における構造情報の存在を理論的に解析する。
実験により,提案手法はサンプル効率と性能の両面で,最先端のアルゴリズムよりも優れていることが示された。
論文 参考訳(メタデータ) (2023-10-24T14:47:02Z) - Non-Clairvoyant Scheduling with Predictions Revisited [77.86290991564829]
非論理的スケジューリングでは、優先度不明な処理条件でジョブをスケジューリングするためのオンライン戦略を見つけることが課題である。
我々はこのよく研究された問題を、アルゴリズム設計に(信頼できない)予測を統合する、最近人気の高い学習強化された設定で再検討する。
これらの予測には所望の特性があり, 高い性能保証を有するアルゴリズムと同様に, 自然な誤差測定が可能であることを示す。
論文 参考訳(メタデータ) (2022-02-21T13:18:11Z) - Quantifying Uncertainty in Deep Spatiotemporal Forecasting [67.77102283276409]
本稿では,正規格子法とグラフ法という2種類の予測問題について述べる。
我々はベイジアンおよび頻繁な視点からUQ法を解析し、統計的決定理論を通じて統一的な枠組みを提示する。
実際の道路ネットワークのトラフィック、疫病、空気質予測タスクに関する広範な実験を通じて、異なるUQ手法の統計計算トレードオフを明らかにする。
論文 参考訳(メタデータ) (2021-05-25T14:35:46Z) - One Backward from Ten Forward, Subsampling for Large-Scale Deep Learning [35.0157090322113]
大規模機械学習システムは、しばしばプロダクション環境からの膨大なデータで継続的に訓練される。
ストリーミングデータの量は、リアルタイムのトレーニングサブシステムにとって重要な課題であり、アドホックサンプリングが標準のプラクティスである。
我々は,これらの前方パスからインスタンス毎の情報量を一定に記録することを提案する。
追加情報は、前方および後方のパスに参加するデータインスタンスの選択を測定可能に改善します。
論文 参考訳(メタデータ) (2021-04-27T11:29:02Z) - FlashP: An Analytical Pipeline for Real-time Forecasting of Time-Series
Relational Data [31.29499654765994]
リアルタイム予測は、2つのステップで実行できます。まず、集中すべきデータの一部と、データをスライス、ダイシング、集約することで予測される測定値を指定します。
自然なアイデアは、サンプリングを使用して、予測モデルを訓練するために入力としてリアルタイムに近似集計を取得することです。
GSWサンプリングと呼ばれる新しいサンプリングスキームを導入し、GSWサンプルを用いた集計を推定するための誤差境界を分析します。
論文 参考訳(メタデータ) (2021-01-09T06:23:13Z) - Online feature selection for rapid, low-overhead learning in networked
systems [0.0]
我々は、多数の利用可能なデータソースから小さな機能セットを選択する、OSFSと呼ばれるオンラインアルゴリズムを提案する。
OSFSは、データソース数を桁違いに削減するために、数百の計測を必要とする。
論文 参考訳(メタデータ) (2020-10-28T12:00:42Z) - Real-Time Regression with Dividing Local Gaussian Processes [62.01822866877782]
局所ガウス過程は、ガウス過程の回帰に基づく新しい、計算効率の良いモデリング手法である。
入力空間の反復的データ駆動分割により、実際にはトレーニングポイントの総数において、サブ線形計算複雑性が達成される。
実世界のデータセットに対する数値的な評価は、予測と更新の速度だけでなく、精度の点で他の最先端手法よりも有利であることを示している。
論文 参考訳(メタデータ) (2020-06-16T18:43:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。