論文の概要: Dealing with zero-inflated data: achieving SOTA with a two-fold machine
learning approach
- arxiv url: http://arxiv.org/abs/2310.08088v1
- Date: Thu, 12 Oct 2023 07:26:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-14 12:30:31.420033
- Title: Dealing with zero-inflated data: achieving SOTA with a two-fold machine
learning approach
- Title(参考訳): ゼロインフレーションデータによるディーリング:2倍の機械学習アプローチによるSOTAの実現
- Authors: Jo\v{z}e M. Ro\v{z}anec, Ga\v{s}per Petelin, Jo\~ao Costa, Bla\v{z}
Bertalani\v{c}, Gregor Cerar, Marko Gu\v{c}ek, Gregor Papa, Dunja Mladeni\'c
- Abstract要約: 本稿では,ゼロインフレーションデータに適用した階層モデルを用いて,実世界の2つのユースケース(ホームアプライアンス分類と空港シャトル需要予測)について述べる。
提案手法は, 比較したSOTA手法の4倍のエネルギー効率が期待できる。
- 参考スコア(独自算出の注目度): 0.18846515534317262
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In many cases, a machine learning model must learn to correctly predict a few
data points with particular values of interest in a broader range of data where
many target values are zero. Zero-inflated data can be found in diverse
scenarios, such as lumpy and intermittent demands, power consumption for home
appliances being turned on and off, impurities measurement in distillation
processes, and even airport shuttle demand prediction. The presence of zeroes
affects the models' learning and may result in poor performance. Furthermore,
zeroes also distort the metrics used to compute the model's prediction quality.
This paper showcases two real-world use cases (home appliances classification
and airport shuttle demand prediction) where a hierarchical model applied in
the context of zero-inflated data leads to excellent results. In particular,
for home appliances classification, the weighted average of Precision, Recall,
F1, and AUC ROC was increased by 27%, 34%, 49%, and 27%, respectively.
Furthermore, it is estimated that the proposed approach is also four times more
energy efficient than the SOTA approach against which it was compared to.
Two-fold models performed best in all cases when predicting airport shuttle
demand, and the difference against other models has been proven to be
statistically significant.
- Abstract(参考訳): 多くの場合、機械学習モデルは、ターゲット値がゼロの広い範囲のデータにおいて、特定の値を持ついくつかのデータポイントを正確に予測することを学ばなければならない。
ゼロ膨張データは、集中的かつ断続的な需要、家電製品の電源のオン/オフ、蒸留プロセスにおける不純物測定、さらには空港のシャトル需要予測といった様々なシナリオで見ることができる。
ゼロの存在はモデルの学習に影響し、パフォーマンスが低下する可能性がある。
さらにゼロは、モデルの予測品質を計算するために使われるメトリクスも歪ませる。
本稿では,ゼロ膨張データに適用した階層モデルが優れた結果をもたらす,実世界の2つのユースケース(ホームアプライアンス分類と空港シャトル需要予測)を紹介する。
特に家電品の分類では, 精度, リコール, F1, AUC ROCの重量平均が27%, 34%, 49%, 27%に増加した。
さらに, 提案手法は, sota法と比較してエネルギー効率が4倍高いことが推察された。
空港のシャトル需要を予測する場合、すべてのケースで2倍のモデルが最適であり、他のモデルとの差は統計的に有意であることが証明されている。
関連論文リスト
- Time-Series Foundation Model for Value-at-Risk [9.090616417812306]
広範囲で多様なデータセットで事前トレーニングされたファンデーションモデルは、比較的最小限のデータを持つゼロショット設定で使用できる。
TimesFMと呼ばれるGoogleのモデルの性能を従来のパラメトリックモデルと非パラメトリックモデルと比較する。
論文 参考訳(メタデータ) (2024-10-15T16:53:44Z) - Using Generative Models to Produce Realistic Populations of the United Kingdom Windstorms [0.0]
論文は、現実的な合成風速データを生成するための生成モデルの適用を探求する。
標準的なGAN、WGAN-GP、U-net拡散モデルを含む3つのモデルを使用して、イギリスの風図を作成した。
その結果、全てのモデルが一般的な空間特性を捉えるのに有効であるが、それぞれのモデルは異なる強みと弱みを示すことが明らかとなった。
論文 参考訳(メタデータ) (2024-09-16T19:53:33Z) - F-FOMAML: GNN-Enhanced Meta-Learning for Peak Period Demand Forecasting with Proxy Data [65.6499834212641]
本稿では,需要予測をメタラーニング問題として定式化し,F-FOMAMLアルゴリズムを開発した。
タスク固有のメタデータを通してドメインの類似性を考慮することにより、トレーニングタスクの数が増加するにつれて過剰なリスクが減少する一般化を改善した。
従来の最先端モデルと比較して,本手法では需要予測精度が著しく向上し,内部自動販売機データセットでは平均絶対誤差が26.24%,JD.comデータセットでは1.04%削減された。
論文 参考訳(メタデータ) (2024-06-23T21:28:50Z) - CaFA: Global Weather Forecasting with Factorized Attention on Sphere [7.687215328455751]
本稿では, この問題を緩和するために, 球面測地に適した因子化アテンションモデルを提案する。
提案モデルの1.5円および0-7日のリードタイムにおける決定論的予測精度は、最先端のデータ駆動型機械学習天気予報モデルと同等である。
論文 参考訳(メタデータ) (2024-05-12T23:18:14Z) - Air Quality Forecasting Using Machine Learning: A Global perspective
with Relevance to Low-Resource Settings [0.0]
大気汚染は世界第4位の死因である。
本研究では,2ヶ月の空気質データを用いた高精度な空気質予測のための新しい機械学習手法を提案する。
論文 参考訳(メタデータ) (2024-01-09T05:52:02Z) - Residual Corrective Diffusion Modeling for Km-scale Atmospheric Downscaling [58.456404022536425]
気象・気候からの物理的危険予知技術の現状には、粗い解像度のグローバルな入力によって駆動される高価なkmスケールの数値シミュレーションが必要である。
ここでは、コスト効率のよい機械学習代替手段として、このようなグローバルな入力をkmスケールにダウンスケールするために、生成拡散アーキテクチャを探索する。
このモデルは、台湾上空の地域気象モデルから2kmのデータを予測するために訓練され、世界25kmの再解析に基づいている。
論文 参考訳(メタデータ) (2023-09-24T19:57:22Z) - A Meta-Learning Approach to Predicting Performance and Data Requirements [163.4412093478316]
本稿では,モデルが目標性能に達するために必要なサンプル数を推定する手法を提案する。
モデル性能を推定するデファクト原理であるパワー法則が,小さなデータセットを使用する場合の誤差が大きいことが判明した。
本稿では,2つのデータを異なる方法で処理するPPL法について紹介する。
論文 参考訳(メタデータ) (2023-03-02T21:48:22Z) - X-model: Improving Data Efficiency in Deep Learning with A Minimax Model [78.55482897452417]
ディープラーニングにおける分類と回帰設定の両面でのデータ効率の向上を目標とする。
両世界の力を生かすために,我々は新しいX-モデルを提案する。
X-モデルは、特徴抽出器とタスク固有のヘッドの間でミニマックスゲームを行う。
論文 参考訳(メタデータ) (2021-10-09T13:56:48Z) - Back2Future: Leveraging Backfill Dynamics for Improving Real-time
Predictions in Future [73.03458424369657]
公衆衛生におけるリアルタイム予測では、データ収集は簡単で要求の多いタスクである。
過去の文献では「バックフィル」現象とそのモデル性能への影響についてはほとんど研究されていない。
我々は、与えられたモデルの予測をリアルタイムで洗練することを目的とした、新しい問題とニューラルネットワークフレームワークBack2Futureを定式化する。
論文 参考訳(メタデータ) (2021-06-08T14:48:20Z) - Churn Reduction via Distillation [54.5952282395487]
本研究は, 基礎モデルを教師として用いた蒸留によるトレーニングと, 予測的チャーンに対する明示的な制約によるトレーニングとの等価性を示す。
次に, 蒸留が近年の多くのベースラインに対する低チャーン訓練に有効であることを示す。
論文 参考訳(メタデータ) (2021-06-04T18:03:31Z) - A Data-Driven Machine Learning Approach for Consumer Modeling with Load
Disaggregation [1.6058099298620423]
本稿では,住宅利用者の消費データから導出したデータ駆動セミパラメトリックモデルの汎用クラスを提案する。
第1段階では、固定およびシフト可能なコンポーネントへの負荷の分散をハイブリッドアルゴリズムを用いて達成する。
第2段階では、モデルパラメータはL2ノルム、エプシロン非感受性回帰法を用いて推定される。
論文 参考訳(メタデータ) (2020-11-04T13:36:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。