論文の概要: Robust incremental learning pipelines for temporal tabular datasets with
distribution shifts
- arxiv url: http://arxiv.org/abs/2303.07925v6
- Date: Wed, 5 Jul 2023 10:41:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-06 22:45:27.076296
- Title: Robust incremental learning pipelines for temporal tabular datasets with
distribution shifts
- Title(参考訳): 分布シフトを伴う時間表型データセットのためのロバストな漸進学習パイプライン
- Authors: Thomas Wong, Mauricio Barahona
- Abstract要約: 時間的財務データセット上での回帰タスクに対して,頑健な深層学習モデルを提案する。
このモデルでは、状態変化や低信号対雑音比といった悪条件下でのロバストな性能が示されている。
私たちのモデルは、特別なニューラルネットワークを使用しないため、他の機械学習モデルよりもはるかに少ないハードウェア要件で効率的です。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we present a robust deep incremental learning model for
regression tasks on financial temporal tabular datasets. Using commonly
available tabular and time-series prediction models as building blocks, a
machine-learning model is built incrementally to adapt to distributional shifts
in data. Using the concept of self-similarity, the model uses only a basic
building block of machine learning methods, decision trees to build models of
any required complexity. The model is demonstrated to have robust performances
under adverse situations such as regime changes, fat-tailed distributions and
low signal-to-noise ratios which is common in financial datasets. Model
robustness are studied under different hyper-parameters such as model
complexity and data sampling settings using XGBoost models trained on the
Numerai dataset as a detailed case study. The two layer deep ensemble of
XGBoost models over different model snapshots is demonstrated to deliver high
quality predictions under different market regimes. Comparing the XGBoost
models with different number of boosting rounds in three scenarios (small,
standard and large), we demonstrated the model performances are monotonic
increasing with respect to model sizes and converges towards the generalisation
upper bound. Our model is efficient with much lower hardware requirement than
other machine learning models as no specialised neural architectures are used
and each base model can be independently trained in parallel.
- Abstract(参考訳): 本稿では,財務時相表型データセット上での回帰タスクに対する頑健な深層学習モデルを提案する。
一般的な利用可能な表型および時系列予測モデルをビルディングブロックとして使用すると、データの分散シフトに対応するために、マシンラーニングモデルがインクリメンタルに構築される。
自己相似性の概念を用いて、モデルは必要な複雑性のモデルを構築するために、機械学習メソッドの基本的なビルディングブロック、決定木のみを使用する。
このモデルは、金融データセットに共通する状態変化、脂肪尾分布、低信号-雑音比などの悪条件下での堅牢な性能を示す。
モデルロバスト性は,NumeraiデータセットでトレーニングされたXGBoostモデルを用いて,モデル複雑性やデータサンプリング設定などの異なるハイパーパラメータの下で研究される。
異なるモデルスナップショット上のXGBoostモデルの2層ディープアンサンブルは、異なる市場体制下で高品質な予測を提供することを示す。
3つのシナリオ (小, 標準, 大規模) において, xgboost モデルを比較して, モデル性能はモデルサイズに対して単調に増大し, 一般化の上界に向かって収束することを示した。
私たちのモデルは、特殊なニューラルアーキテクチャを使用しず、各ベースモデルを並列に独立にトレーニングできるため、他の機械学習モデルよりもはるかに低いハードウェア要件で効率的です。
関連論文リスト
- A Collaborative Ensemble Framework for CTR Prediction [73.59868761656317]
我々は、複数の異なるモデルを活用するための新しいフレームワーク、CETNet(Collaborative Ensemble Training Network)を提案する。
ナイーブなモデルスケーリングとは違って,私たちのアプローチは,共同学習による多様性とコラボレーションを重視しています。
当社のフレームワークは,Metaの3つのパブリックデータセットと大規模産業データセットに基づいて検証する。
論文 参考訳(メタデータ) (2024-11-20T20:38:56Z) - EMR-Merging: Tuning-Free High-Performance Model Merging [55.03509900949149]
Elect, Mask & Rescale-Merging (EMR-Merging) は既存のマージ手法と比較して優れた性能を示した。
EMR-Mergingはチューニング不要なので、データアベイラビリティや追加のトレーニングは必要ありません。
論文 参考訳(メタデータ) (2024-05-23T05:25:45Z) - Recency-Weighted Temporally-Segmented Ensemble for Time-Series Modeling [0.0]
プロセス産業における時系列モデリングは、複雑で多面的で進化するデータ特性を扱うという課題に直面している。
マルチステップ予測のための新しいチャンクベースアプローチであるRecency-Weighted Temporally-Segmented(ReWTS)アンサンブルモデルを導入する。
ノルウェーの排水処理場と飲料水処理場からの2年間のデータをもとに,比較分析を行った。
論文 参考訳(メタデータ) (2024-03-04T16:00:35Z) - The Bayesian Context Trees State Space Model for time series modelling
and forecasting [8.37609145576126]
実数値時系列に対してリッチな混合モデルを開発するための階層的ベイズフレームワークが導入された。
最上位では、有意義な離散状態が、最新のサンプルの適切な定量値として特定される。
下位レベルでは、実数値時系列(ベースモデル)の異なる任意のモデルが各状態と関連付けられている。
論文 参考訳(メタデータ) (2023-08-02T02:40:42Z) - Online learning techniques for prediction of temporal tabular datasets
with regime changes [0.0]
時間パネルデータセットの予測をランキングするモジュール型機械学習パイプラインを提案する。
パイプラインのモジュラリティにより、GBDT(Gradient Boosting Decision Tree)やニューラルネットワークなど、さまざまなモデルの使用が可能になる。
モデルの再トレーニングを必要としないオンライン学習技術は、予測後の結果を高めるために使用することができる。
論文 参考訳(メタデータ) (2022-12-30T17:19:00Z) - On the Generalization and Adaption Performance of Causal Models [99.64022680811281]
異なる因果発見は、データ生成プロセスを一連のモジュールに分解するために提案されている。
このようなモジュラニューラル因果モデルの一般化と適応性能について検討する。
我々の分析では、モジュラーニューラル因果モデルが、低データレギュレーションにおけるゼロおよび少数ショットの適応において、他のモデルよりも優れていることを示している。
論文 参考訳(メタデータ) (2022-06-09T17:12:32Z) - Data Summarization via Bilevel Optimization [48.89977988203108]
シンプルだが強力なアプローチは、小さなサブセットのデータを操作することだ。
本研究では,コアセット選択を基数制約付き双レベル最適化問題として定式化する汎用コアセットフレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-26T09:08:38Z) - Closed-form Continuous-Depth Models [99.40335716948101]
連続深度ニューラルモデルは高度な数値微分方程式解法に依存している。
我々は,CfCネットワークと呼ばれる,記述が簡単で,少なくとも1桁高速な新しいモデル群を提示する。
論文 参考訳(メタデータ) (2021-06-25T22:08:51Z) - Improving Label Quality by Jointly Modeling Items and Annotators [68.8204255655161]
雑音アノテータから基底真理ラベルを学習するための完全ベイズ的枠組みを提案する。
我々のフレームワークは、ラベル分布上の生成的ベイズソフトクラスタリングモデルを古典的なDavidとSkeneのジョイントアノテータデータモデルに分解することでスケーラビリティを保証する。
論文 参考訳(メタデータ) (2021-06-20T02:15:20Z) - Do We Really Need Deep Learning Models for Time Series Forecasting? [4.2698418800007865]
時系列予測は、幅広い応用があるため、機械学習において重要なタスクである。
ディープラーニングとマトリックスファクタリゼーションモデルは、より競争力のあるパフォーマンスで同じ問題に取り組むために最近提案されている。
本稿では,これらの高度に複雑なディープラーニングモデルが代替手段がないかどうかを問う。
論文 参考訳(メタデータ) (2021-01-06T16:18:04Z) - Predicting Multidimensional Data via Tensor Learning [0.0]
本研究では,本データセットの内在的多次元構造を保持するモデルを開発する。
モデルパラメータを推定するために、オルタネート・リースト・スクエアスアルゴリズムを開発した。
提案モデルは,予測文献に存在するベンチマークモデルより優れている。
論文 参考訳(メタデータ) (2020-02-11T11:57:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。