論文の概要: Nowcasting the Financial Time Series with Streaming Data Analytics under
Apache Spark
- arxiv url: http://arxiv.org/abs/2202.11820v1
- Date: Wed, 23 Feb 2022 23:17:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-25 18:12:05.486147
- Title: Nowcasting the Financial Time Series with Streaming Data Analytics under
Apache Spark
- Title(参考訳): apache sparkによるストリーミングデータ分析による金融時系列のキャスティング
- Authors: Mohammad Arafat Ali Khan, Chandra Bhushan, Vadlamani Ravi, Vangala
Sarveswara Rao and Shiva Shankar Orsu
- Abstract要約: 本稿では,Apache Sparkのストリーミング分析機能を用いて,高速な財務データセットを5分間隔でリアルタイムに放送することを提案する。
提案手法は,第1段階でカオスをモデル化し,次にスライディングウインドウを用いて機械学習アルゴリズムによる学習を行う。
- 参考スコア(独自算出の注目度): 3.219821135628767
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This paper proposes nowcasting of high-frequency financial datasets in
real-time with a 5-minute interval using the streaming analytics feature of
Apache Spark. The proposed 2 stage method consists of modelling chaos in the
first stage and then using a sliding window approach for training with machine
learning algorithms namely Lasso Regression, Ridge Regression, Generalised
Linear Model, Gradient Boosting Tree and Random Forest available in the MLLib
of Apache Spark in the second stage. For testing the effectiveness of the
proposed methodology, 3 different datasets, of which two are stock markets
namely National Stock Exchange & Bombay Stock Exchange, and finally One
Bitcoin-INR conversion dataset. For evaluating the proposed methodology, we
used metrics such as Symmetric Mean Absolute Percentage Error, Directional
Symmetry, and Theil U Coefficient. We tested the significance of each pair of
models using the Diebold Mariano (DM) test.
- Abstract(参考訳): 本稿では,apache sparkのストリーミング分析機能を用いて,5分間隔でリアルタイムに高周波金融データセットをキャスティングすることを提案する。
提案する2段階の手法は,第1段階のカオスのモデル化と,第2段階のapache sparkのmllibで利用可能なラッソ回帰,リッジ回帰,一般化線形モデル,勾配ブースティングツリー,ランダムフォレストといった機械学習アルゴリズムによるトレーニングのためのスライディングウィンドウアプローチを用いたものである。
提案手法の有効性をテストするために、3つの異なるデータセットがあり、そのうち2つはNational Stock Exchange & Bombay Stock Exchange、そして最後に1つのBitcoin-INR変換データセットである。
提案手法の評価には,Symmetric Mean Absolute Percentage Error,Directional Symmetry,Theil U Coefficientといった指標を用いた。
我々はDiebold Mariano (DM) テストを用いて, それぞれのモデルの重要性を検証した。
関連論文リスト
- LC-SVD-DLinear: A low-cost physics-based hybrid machine learning model for data forecasting using sparse measurements [2.519319150166215]
本稿では, 特異値分解(SVD)と浅い線形ニューラルネットワークを統合して高分解能流体力学データの予測を行う手法を提案する。
本稿では,高階特異値分解アルゴリズムの低コストバージョンと高階データ用に設計されたDLinearネットワークを組み合わせたLC-HOSVD-DLinearを提案する。
論文 参考訳(メタデータ) (2024-11-26T13:43:50Z) - Iterative Methods for Full-Scale Gaussian Process Approximations for Large Spatial Data [9.913418444556486]
本稿では, FSAを用いた確率, 勾配, 予測分布の計算コストの削減に, 反復法をどのように利用できるかを示す。
また,推定法や反復法に依存する予測分散を計算する新しい,正確かつ高速な手法を提案する。
すべてのメソッドは、ハイレベルなPythonとRパッケージを備えたフリーのC++ソフトウェアライブラリで実装されている。
論文 参考訳(メタデータ) (2024-05-23T12:25:22Z) - An Efficient Data Analysis Method for Big Data using Multiple-Model
Linear Regression [4.085654010023149]
本稿では,Multiple Model linear regression (MMLR) と呼ばれる新たに定義された回帰モデルを用いて,ビッグデータの新しいデータ解析手法を提案する。
提案手法は,他の回帰法よりも効率的かつ柔軟であることが示されている。
論文 参考訳(メタデータ) (2023-08-24T10:20:15Z) - DF2: Distribution-Free Decision-Focused Learning [53.2476224456902]
決定中心学習(DFL)は近年,予測最適化問題に対する強力なアプローチとして出現している。
既存のエンドツーエンドDFL法は、モデル誤差、サンプル平均近似誤差、予測対象の分布に基づくパラメータ化の3つの重大なボトルネックによって妨げられている。
DF2は,これら3つのボトルネックに明示的に対処するために設計された,初となるテキストフリーな意思決定型学習手法である。
論文 参考訳(メタデータ) (2023-08-11T00:44:46Z) - Probabilistic Solar Proxy Forecasting with Neural Network Ensembles [0.0]
Space Environment Technologies (SET) は線形アルゴリズムを用いて$F_10.7 cm$を予測する。
本稿では,マルチ層パーセプトロン(MLP)と長短項メモリ(LSTM)を用いたニューラルネットワークアンサンブルを用いて,SET予測を改善する手法を提案する。
論文 参考訳(メタデータ) (2023-06-03T18:22:01Z) - MV-JAR: Masked Voxel Jigsaw and Reconstruction for LiDAR-Based
Self-Supervised Pre-Training [58.07391711548269]
Masked Voxel Jigsaw and Reconstruction (MV-JAR) method for LiDAR-based self-supervised pre-training
Masked Voxel Jigsaw and Reconstruction (MV-JAR) method for LiDAR-based self-supervised pre-training
論文 参考訳(メタデータ) (2023-03-23T17:59:02Z) - Overlap-guided Gaussian Mixture Models for Point Cloud Registration [61.250516170418784]
確率的3Dポイントクラウド登録法は、ノイズ、アウトレーヤ、密度変動を克服する競合性能を示した。
本稿では,一致したガウス混合モデル(GMM)パラメータから最適変換を演算する,重複誘導確率登録手法を提案する。
論文 参考訳(メタデータ) (2022-10-17T08:02:33Z) - Sparse high-dimensional linear regression with a partitioned empirical
Bayes ECM algorithm [62.997667081978825]
疎高次元線形回帰に対する計算効率が高く強力なベイズ的手法を提案する。
パラメータに関する最小の事前仮定は、プラグイン経験的ベイズ推定(英語版)を用いて用いられる。
提案手法はRパッケージプローブに実装されている。
論文 参考訳(メタデータ) (2022-09-16T19:15:50Z) - A Class of Two-Timescale Stochastic EM Algorithms for Nonconvex Latent
Variable Models [21.13011760066456]
expectation-Maximization (EM)アルゴリズムは、変数モデルを学習するための一般的な選択肢である。
本稿では,Two-Time Methodsと呼ばれる手法の一般クラスを提案する。
論文 参考訳(メタデータ) (2022-03-18T22:46:34Z) - Test Set Sizing Via Random Matrix Theory [91.3755431537592]
本稿ではランダム行列理論の手法を用いて、単純な線形回帰に対して理想的なトレーニング-テストデータ分割を求める。
それは「理想」を整合性計量を満たすものとして定義し、すなわち経験的モデル誤差は実際の測定ノイズである。
本論文は,任意のモデルのトレーニングとテストサイズを,真に最適な方法で解決した最初の論文である。
論文 参考訳(メタデータ) (2021-12-11T13:18:33Z) - Uncertainty Inspired RGB-D Saliency Detection [70.50583438784571]
本稿では,データラベリングプロセスから学習することで,RGB-D値検出の不確実性を利用した最初のフレームワークを提案する。
そこで本研究では,確率的RGB-Dサリエンシ検出を実現するために,サリエンシデータラベリングプロセスにインスパイアされた生成アーキテクチャを提案する。
6つの挑戦的RGB-Dベンチマークデータセットの結果から,サリエンシマップの分布を学習する際のアプローチの優れた性能が示された。
論文 参考訳(メタデータ) (2020-09-07T13:01:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。