論文の概要: Dealing with zero-inflated data: achieving SOTA with a two-fold machine
learning approach
- arxiv url: http://arxiv.org/abs/2310.08088v1
- Date: Thu, 12 Oct 2023 07:26:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-14 12:30:31.420033
- Title: Dealing with zero-inflated data: achieving SOTA with a two-fold machine
learning approach
- Title(参考訳): ゼロインフレーションデータによるディーリング:2倍の機械学習アプローチによるSOTAの実現
- Authors: Jo\v{z}e M. Ro\v{z}anec, Ga\v{s}per Petelin, Jo\~ao Costa, Bla\v{z}
Bertalani\v{c}, Gregor Cerar, Marko Gu\v{c}ek, Gregor Papa, Dunja Mladeni\'c
- Abstract要約: 本稿では,ゼロインフレーションデータに適用した階層モデルを用いて,実世界の2つのユースケース(ホームアプライアンス分類と空港シャトル需要予測)について述べる。
提案手法は, 比較したSOTA手法の4倍のエネルギー効率が期待できる。
- 参考スコア(独自算出の注目度): 0.18846515534317262
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In many cases, a machine learning model must learn to correctly predict a few
data points with particular values of interest in a broader range of data where
many target values are zero. Zero-inflated data can be found in diverse
scenarios, such as lumpy and intermittent demands, power consumption for home
appliances being turned on and off, impurities measurement in distillation
processes, and even airport shuttle demand prediction. The presence of zeroes
affects the models' learning and may result in poor performance. Furthermore,
zeroes also distort the metrics used to compute the model's prediction quality.
This paper showcases two real-world use cases (home appliances classification
and airport shuttle demand prediction) where a hierarchical model applied in
the context of zero-inflated data leads to excellent results. In particular,
for home appliances classification, the weighted average of Precision, Recall,
F1, and AUC ROC was increased by 27%, 34%, 49%, and 27%, respectively.
Furthermore, it is estimated that the proposed approach is also four times more
energy efficient than the SOTA approach against which it was compared to.
Two-fold models performed best in all cases when predicting airport shuttle
demand, and the difference against other models has been proven to be
statistically significant.
- Abstract(参考訳): 多くの場合、機械学習モデルは、ターゲット値がゼロの広い範囲のデータにおいて、特定の値を持ついくつかのデータポイントを正確に予測することを学ばなければならない。
ゼロ膨張データは、集中的かつ断続的な需要、家電製品の電源のオン/オフ、蒸留プロセスにおける不純物測定、さらには空港のシャトル需要予測といった様々なシナリオで見ることができる。
ゼロの存在はモデルの学習に影響し、パフォーマンスが低下する可能性がある。
さらにゼロは、モデルの予測品質を計算するために使われるメトリクスも歪ませる。
本稿では,ゼロ膨張データに適用した階層モデルが優れた結果をもたらす,実世界の2つのユースケース(ホームアプライアンス分類と空港シャトル需要予測)を紹介する。
特に家電品の分類では, 精度, リコール, F1, AUC ROCの重量平均が27%, 34%, 49%, 27%に増加した。
さらに, 提案手法は, sota法と比較してエネルギー効率が4倍高いことが推察された。
空港のシャトル需要を予測する場合、すべてのケースで2倍のモデルが最適であり、他のモデルとの差は統計的に有意であることが証明されている。
関連論文リスト
- A Systematic Approach to Robustness Modelling for Deep Convolutional
Neural Networks [0.294944680995069]
最近の研究は、より大きなモデルが制御された列車やテストセット外のデータに一般化できるかどうかという疑問を提起している。
本稿では,障害発生確率を時間関数としてモデル化する手法を提案する。
コスト、ロバスト性、レイテンシ、信頼性のトレードオフについて検討し、より大きなモデルが敵のロバスト性に大きく寄与しないことを示す。
論文 参考訳(メタデータ) (2024-01-24T19:12:37Z) - Air Quality Forecasting Using Machine Learning: A Global perspective
with Relevance to Low-Resource Settings [0.0]
大気汚染は世界第4位の死因である。
本研究では,2ヶ月の空気質データを用いた高精度な空気質予測のための新しい機械学習手法を提案する。
論文 参考訳(メタデータ) (2024-01-09T05:52:02Z) - Consensus-Adaptive RANSAC [104.87576373187426]
本稿では,パラメータ空間の探索を学習する新しいRANSACフレームワークを提案する。
注意機構は、ポイント・ツー・モデル残差のバッチで動作し、軽量のワンステップ・トランスフォーマーで見いだされたコンセンサスを考慮するために、ポイント・ツー・モデル推定状態を更新する。
論文 参考訳(メタデータ) (2023-07-26T08:25:46Z) - A Meta-Learning Approach to Predicting Performance and Data Requirements [163.4412093478316]
本稿では,モデルが目標性能に達するために必要なサンプル数を推定する手法を提案する。
モデル性能を推定するデファクト原理であるパワー法則が,小さなデータセットを使用する場合の誤差が大きいことが判明した。
本稿では,2つのデータを異なる方法で処理するPPL法について紹介する。
論文 参考訳(メタデータ) (2023-03-02T21:48:22Z) - DeepVol: Volatility Forecasting from High-Frequency Data with Dilated
Causal Convolutions [78.6363825307044]
本稿では,Dilated Causal Convolutionsに基づくDeepVolモデルを提案する。
拡張畳み込みフィルタは日内財務データから関連情報を抽出するのに最適であることを示す。
論文 参考訳(メタデータ) (2022-09-23T16:13:47Z) - Forecasting COVID-19 spreading trough an ensemble of classical and
machine learning models: Spain's case study [0.0]
我々は、新型コロナウイルスのパンデミックの近い将来の進化を予測するために、人口モデルと機械学習モデルのアンサンブルの適用性を評価する。
オープンかつパブリックなデータセットのみに依存しており、発生率、ワクチン接種、人間の移動性、気象データに頼っています。
論文 参考訳(メタデータ) (2022-07-12T08:16:44Z) - Data-Efficient Modeling for Precise Power Consumption Estimation of
Quadrotor Operations Using Ensemble Learning [3.722516004544342]
エレクトロニック・テイクオフ・アンド・ランディング (EVTOL) は、新興都市空力において主要な航空機であると考えられている。
本研究では,eVTOL航空機の消費電力モデル化のための枠組みを構築した。
そこで我々は,3種類の四重項の飛行記録を用いたデータ駆動モデルを構築するために,アンサンブル学習法,すなわち積み重ね法を用いた。
論文 参考訳(メタデータ) (2022-05-23T02:16:43Z) - X-model: Improving Data Efficiency in Deep Learning with A Minimax Model [78.55482897452417]
ディープラーニングにおける分類と回帰設定の両面でのデータ効率の向上を目標とする。
両世界の力を生かすために,我々は新しいX-モデルを提案する。
X-モデルは、特徴抽出器とタスク固有のヘッドの間でミニマックスゲームを行う。
論文 参考訳(メタデータ) (2021-10-09T13:56:48Z) - Back2Future: Leveraging Backfill Dynamics for Improving Real-time
Predictions in Future [73.03458424369657]
公衆衛生におけるリアルタイム予測では、データ収集は簡単で要求の多いタスクである。
過去の文献では「バックフィル」現象とそのモデル性能への影響についてはほとんど研究されていない。
我々は、与えられたモデルの予測をリアルタイムで洗練することを目的とした、新しい問題とニューラルネットワークフレームワークBack2Futureを定式化する。
論文 参考訳(メタデータ) (2021-06-08T14:48:20Z) - Churn Reduction via Distillation [54.5952282395487]
本研究は, 基礎モデルを教師として用いた蒸留によるトレーニングと, 予測的チャーンに対する明示的な制約によるトレーニングとの等価性を示す。
次に, 蒸留が近年の多くのベースラインに対する低チャーン訓練に有効であることを示す。
論文 参考訳(メタデータ) (2021-06-04T18:03:31Z) - A Data-Driven Machine Learning Approach for Consumer Modeling with Load
Disaggregation [1.6058099298620423]
本稿では,住宅利用者の消費データから導出したデータ駆動セミパラメトリックモデルの汎用クラスを提案する。
第1段階では、固定およびシフト可能なコンポーネントへの負荷の分散をハイブリッドアルゴリズムを用いて達成する。
第2段階では、モデルパラメータはL2ノルム、エプシロン非感受性回帰法を用いて推定される。
論文 参考訳(メタデータ) (2020-11-04T13:36:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。