論文の概要: DIM-SUM: Dynamic IMputation for Smart Utility Management
- arxiv url: http://arxiv.org/abs/2506.20023v1
- Date: Tue, 24 Jun 2025 21:38:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-26 21:00:42.540306
- Title: DIM-SUM: Dynamic IMputation for Smart Utility Management
- Title(参考訳): DIM-SUM: スマートユーティリティ管理のための動的インプット
- Authors: Ryan Hildebrant, Rahul Bhope, Sharad Mehrotra, Christopher Tull, Nalini Venkatasubramanian,
- Abstract要約: DIM-SUMは、頑健な計算モデルをトレーニングするための前処理フレームワークである。
DIM-SUMは、人工的にマスクされたトレーニングデータと本当の欠落パターンのギャップを埋める。
DIM-SUMは、処理時間が少なく、トレーニングデータも大幅に少ないため、従来の手法よりも優れていることを示す。
- 参考スコア(独自算出の注目度): 4.494470981739729
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Time series imputation models have traditionally been developed using complete datasets with artificial masking patterns to simulate missing values. However, in real-world infrastructure monitoring, practitioners often encounter datasets where large amounts of data are missing and follow complex, heterogeneous patterns. We introduce DIM-SUM, a preprocessing framework for training robust imputation models that bridges the gap between artificially masked training data and real missing patterns. DIM-SUM combines pattern clustering and adaptive masking strategies with theoretical learning guarantees to handle diverse missing patterns actually observed in the data. Through extensive experiments on over 2 billion readings from California water districts, electricity datasets, and benchmarks, we demonstrate that DIM-SUM outperforms traditional methods by reaching similar accuracy with lower processing time and significantly less training data. When compared against a large pre-trained model, DIM-SUM averages 2x higher accuracy with significantly less inference time.
- Abstract(参考訳): 時系列計算モデルは伝統的に、欠落した値をシミュレートするために、人工マスキングパターンを持つ完全なデータセットを使用して開発されてきた。
しかし、実際のインフラストラクチャ監視では、大量のデータが失われ、複雑で異質なパターンに従うデータセットに遭遇することが多い。
DIM-SUMは,人工的にマスクしたトレーニングデータと実際の欠落パターンとのギャップを埋める頑健な計算モデルをトレーニングするための前処理フレームワークである。
DIM-SUMは、パターンクラスタリングと適応マスキング戦略と理論的な学習保証を組み合わせることで、データで実際に観測された様々な欠落パターンを扱う。
カリフォルニアの水田、電気データセット、ベンチマークから得られた20億以上の読み出しに関する広範な実験を通じて、DIM-SUMは、処理時間が少なく、トレーニングデータも大幅に少ないことで、従来の手法よりも優れていることを実証した。
DIM-SUMは、トレーニング済みの大きなモデルと比較すると、2倍の精度で推論時間を著しく短縮する。
関連論文リスト
- Model Utility Law: Evaluating LLMs beyond Performance through Mechanism Interpretable Metric [99.56567010306807]
大規模言語モデル(LLM)は、学術、産業、そして日々のアプリケーションに欠かせないものになっている。
大規模言語モデル (LLM) 時代における評価の課題の1つは一般化問題である。
従来の性能スコアを補完するメカニズムの解釈可能性向上指標であるモデル利用指数(MUI)を提案する。
論文 参考訳(メタデータ) (2025-04-10T04:09:47Z) - Data Fusion of Deep Learned Molecular Embeddings for Property Prediction [44.99833362998488]
我々はデータ融合技術を用いて、様々な単一タスクモデルの学習された分子組込みを組み合わせ、この組込みについてマルチタスクモデルを訓練した。
融合マルチタスクモデルはスパースデータセットの標準マルチタスクモデルより優れており、単一タスクモデルと比較してデータ制限特性の予測が拡張可能であることを示す。
論文 参考訳(メタデータ) (2025-04-09T21:40:15Z) - Exploring Patterns Behind Sports [3.2838877620203935]
本稿では、ARIMAとLSTMを組み合わせたハイブリッドモデルを用いて、時系列予測のための包括的なフレームワークを提案する。
このモデルには埋め込みやPCAといった機能エンジニアリング技術が組み込まれており、生データを低次元の表現に変換する。
論文 参考訳(メタデータ) (2025-02-11T11:51:07Z) - Towards Theoretical Understandings of Self-Consuming Generative Models [56.84592466204185]
本稿では,自己消費ループ内で生成モデルを訓練する新たな課題に取り組む。
我々は,このトレーニングが将来のモデルで学習したデータ分布に与える影響を厳格に評価するための理論的枠組みを構築した。
カーネル密度推定の結果は,混合データトレーニングがエラー伝播に与える影響など,微妙な洞察を与える。
論文 参考訳(メタデータ) (2024-02-19T02:08:09Z) - In-Database Data Imputation [0.6157028677798809]
データの欠落は多くの領域で広く問題となり、データ分析と意思決定の課題を生み出します。
不完全なレコードを除外したり、単純な見積もりを示唆するといった、欠落したデータを扱う従来の手法は、計算的に効率的であるが、バイアスを導入し、変数の関係を乱す可能性がある。
モデルベースの計算手法は、データの変動性と関係を保存し、より堅牢なソリューションを提供するが、彼らは計算時間をはるかに多く要求する。
この作業は、広く使われているMICE方式を用いて、データベースシステム内の効率的で高品質でスケーラブルなデータ計算を可能にする。
論文 参考訳(メタデータ) (2024-01-07T01:57:41Z) - Deep Ensembles Meets Quantile Regression: Uncertainty-aware Imputation for Time Series [45.76310830281876]
量子回帰に基づくタスクネットワークのアンサンブルを用いて不確実性を推定する新しい手法であるQuantile Sub-Ensemblesを提案する。
提案手法は,高い損失率に頑健な高精度な計算法を生成するだけでなく,非生成モデルの高速な学習により,計算効率も向上する。
論文 参考訳(メタデータ) (2023-12-03T05:52:30Z) - MADS: Modulated Auto-Decoding SIREN for time series imputation [9.673093148930874]
我々は,暗黙のニューラル表現に基づく時系列計算のための新しい自動デコードフレームワークMADSを提案する。
実世界の2つのデータセット上で本モデルを評価し,時系列計算における最先端手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-07-03T09:08:47Z) - Non-Invasive Fairness in Learning through the Lens of Data Drift [88.37640805363317]
データや学習アルゴリズムを変更することなく、機械学習モデルの公平性を向上する方法を示す。
異なる集団間の傾向のばらつきと、学習モデルと少数民族間の連続的な傾向は、データドリフトと類似している。
このドリフトを解決するための2つの戦略(モデル分割とリウィーディング)を探索し、基礎となるデータに対するモデル全体の適合性を改善することを目的としている。
論文 参考訳(メタデータ) (2023-03-30T17:30:42Z) - HyperImpute: Generalized Iterative Imputation with Automatic Model
Selection [77.86861638371926]
カラムワイズモデルを適応的かつ自動的に構成するための一般化反復計算フレームワークを提案する。
既製の学習者,シミュレータ,インターフェースを備えた具体的な実装を提供する。
論文 参考訳(メタデータ) (2022-06-15T19:10:35Z) - Model-based micro-data reinforcement learning: what are the crucial
model properties and which model to choose? [0.2836066255205732]
我々は,マイクロデータモデルに基づく強化学習(MBRL)に寄与する。
マルチモーダルな後続予測を必要とする環境では、混合密度ネットは他のモデルよりも大きなマージンで優れていることがわかった。
また、決定論的モデルは同等であり、実際、確率論的モデルよりも一貫して(非目立ったことではないが)優れていることも見出した。
論文 参考訳(メタデータ) (2021-07-24T11:38:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。