論文の概要: Efficient Observation Time Window Segmentation for Administrative Data
Machine Learning
- arxiv url: http://arxiv.org/abs/2401.16537v2
- Date: Tue, 12 Mar 2024 19:01:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-14 17:27:26.946320
- Title: Efficient Observation Time Window Segmentation for Administrative Data
Machine Learning
- Title(参考訳): 行政データのための効率的な観測時間ウィンドウ分割
機械学習
- Authors: Musa Taib, Geoffrey G. Messier
- Abstract要約: 機械学習モデルは、タイムスタンプ管理データにおける時間的傾向から学ぶことができると恩恵を受ける。
モデルのトレーニング時間とパフォーマンスは、各機能を異なる時間解像度で表現することで改善できる。
本論文は, ビンニング(TAIB)技術を検討するために, 計算効率のよい時系列解析手法を提案する。
- 参考スコア(独自算出の注目度): 1.8130068086063336
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Machine learning models benefit when allowed to learn from temporal trends in
time-stamped administrative data. These trends can be represented by dividing a
model's observation window into time segments or bins. Model training time and
performance can be improved by representing each feature with a different time
resolution. However, this causes the time bin size hyperparameter search space
to grow exponentially with the number of features. The contribution of this
paper is to propose a computationally efficient time series analysis to
investigate binning (TAIB) technique that determines which subset of data
features benefit the most from time bin size hyperparameter tuning. This
technique is demonstrated using hospital and housing/homelessness
administrative data sets. The results show that TAIB leads to models that are
not only more efficient to train but can perform better than models that
default to representing all features with the same time bin size.
- Abstract(参考訳): 機械学習モデルは、タイムスタンプ管理データにおける時間的傾向から学ぶことができれば、メリットがある。
これらの傾向は、モデルの観察ウィンドウを時間セグメントまたはビンに分割することで表現できる。
モデルのトレーニング時間とパフォーマンスは、各機能を異なる時間解像度で表現することで改善できる。
しかし、これは時間ビンサイズのハイパーパラメータ探索空間が特徴数とともに指数関数的に増大する原因となる。
本研究は,時間ビンサイズハイパーパラメータチューニングにより,データ特徴のどの部分集合が最も有用かを決定するためのビンニング(TAIB)技術を検討するための,計算効率のよい時系列解析を提案する。
この手法は, 病院・住宅・住宅管理データを用いて実証した。
その結果、TAIBはトレーニングの効率が向上するだけでなく、標準ですべての機能を同じ時間ビンサイズで表現するモデルよりもパフォーマンスが良いモデルに導かれることがわかった。
関連論文リスト
- Data-Centric Machine Learning for Earth Observation: Necessary and Sufficient Features [5.143097874851516]
モデル記述法を利用して、モデルが最適な性能に達するために必要な特徴を特定する。
一部のデータセットは、時間的なインスタンスの20%未満で最適な精度に達することができるが、他のデータセットでは、1つのモダリティから1つのバンドの時系列が十分である。
論文 参考訳(メタデータ) (2024-08-21T07:26:43Z) - Pushing the Limits of Pre-training for Time Series Forecasting in the
CloudOps Domain [54.67888148566323]
クラウドオペレーションドメインから,大規模時系列予測データセットを3つ導入する。
強力なゼロショットベースラインであり、モデルとデータセットサイズの両方において、さらなるスケーリングの恩恵を受けています。
これらのデータセットと結果を取得することは、古典的および深層学習のベースラインを事前訓練された方法と比較した総合的なベンチマーク結果の集合である。
論文 参考訳(メタデータ) (2023-10-08T08:09:51Z) - The Languini Kitchen: Enabling Language Modelling Research at Different
Scales of Compute [66.84421705029624]
本稿では,アクセル時間で測定された等価計算に基づくモデル比較を可能にする実験的プロトコルを提案する。
私たちは、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さで上回る、大規模で多様で高品質な書籍データセットを前処理します。
この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
論文 参考訳(メタデータ) (2023-09-20T10:31:17Z) - Temporal Graph Benchmark for Machine Learning on Temporal Graphs [54.52243310226456]
テンポラルグラフベンチマーク(TGB)は、困難で多様なベンチマークデータセットのコレクションである。
各データセットをベンチマークし、共通のモデルのパフォーマンスがデータセット間で大きく異なることを発見した。
TGBは、再現可能でアクセス可能な時間グラフ研究のための自動機械学習パイプラインを提供する。
論文 参考訳(メタデータ) (2023-07-03T13:58:20Z) - HigeNet: A Highly Efficient Modeling for Long Sequence Time Series
Prediction in AIOps [30.963758935255075]
本稿では,HigeNetという高効率モデルを提案し,時系列時系列の予測を行う。
モデルのトレーニング時間,資源使用量,精度は,5つの最先端競合モデルよりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2022-11-13T13:48:43Z) - Benchmarking Learning Efficiency in Deep Reservoir Computing [23.753943709362794]
我々は、機械学習モデルがトレーニングデータからいかに早く学習するかを測定するために、データ効率の指標とともに、ますます困難なタスクのベンチマークを導入する。
我々は、RNN、LSTM、Transformersなどの確立された逐次教師付きモデルの学習速度を、貯水池計算に基づく比較的知られていない代替モデルと比較する。
論文 参考訳(メタデータ) (2022-09-29T08:16:52Z) - Compactness Score: A Fast Filter Method for Unsupervised Feature
Selection [66.84571085643928]
本稿では,CSUFS (Compactness Score) と呼ばれる高速な教師なし特徴選択手法を提案する。
提案アルゴリズムは既存のアルゴリズムよりも正確で効率的である。
論文 参考訳(メタデータ) (2022-01-31T13:01:37Z) - Efficient Nearest Neighbor Language Models [114.40866461741795]
非パラメトリックニューラルネットワークモデル(NLM)は、外部データストアを用いてテキストの予測分布を学習する。
比較性能を維持しながら、推論速度の最大6倍の高速化を実現する方法を示す。
論文 参考訳(メタデータ) (2021-09-09T12:32:28Z) - Sketches for Time-Dependent Machine Learning [8.824033416765106]
時系列データは、それらを生成する基盤となるプロセスの変化にさらされる可能性がある。
我々は、現在のデータ分布とその時間的進化に関する情報を機械学習アルゴリズムに組み込む方法を提案する。
論文 参考訳(メタデータ) (2021-08-26T17:24:56Z) - PSEUDo: Interactive Pattern Search in Multivariate Time Series with
Locality-Sensitive Hashing and Relevance Feedback [3.347485580830609]
PSEUDoは、マルチトラックシーケンシャルデータにおける視覚パターンを探索するための適応的機能学習技術である。
提案アルゴリズムは,サブ線形学習と推論時間を特徴とする。
我々は,PSEUDoの効率,精度,操縦性において優位性を示す。
論文 参考訳(メタデータ) (2021-04-30T13:00:44Z) - Visualising Deep Network's Time-Series Representations [93.73198973454944]
機械学習モデルの普及にもかかわらず、多くの場合、モデルの内部で起きていることに関する洞察のないブラックボックスとして運用される。
本稿では,多次元時系列データの可視化に着目し,この問題に対処する手法を提案する。
高周波在庫市場データセットの実験は、この方法が迅速かつ識別可能な可視化を提供することを示しています。
論文 参考訳(メタデータ) (2021-03-12T09:53:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。