論文の概要: Efficient Observation Time Window Segmentation for Administrative Data
Machine Learning
- arxiv url: http://arxiv.org/abs/2401.16537v1
- Date: Mon, 29 Jan 2024 20:18:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-31 17:18:18.010640
- Title: Efficient Observation Time Window Segmentation for Administrative Data
Machine Learning
- Title(参考訳): 管理データ機械学習のための効率的な観察時間窓セグメンテーション
- Authors: Musa Taib, Geoffrey G. Messier
- Abstract要約: 結果を予測するために管理データを使用することは、機械学習の重要な応用分野である。
本稿では,機械学習モデルの観測窓を時間セグメントや「ビン」に分割する方法について検討する。
- 参考スコア(独自算出の注目度): 1.8130068086063336
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Utilizing administrative data to predict outcomes is an important application
area of machine learning, particularly in healthcare. Most administrative data
records are timestamped and the pattern of records over time is a key input for
machine learning models. This paper explores how best to divide the observation
window of a machine learning model into time segments or "bins". A
computationally efficient process is presented that identifies which data
features benefit most from smaller, higher resolution time segments. Results
generated on healthcare and housing/homelessness administrative data
demonstrate that optimizing the time bin size of these high priority features
while using a single time bin for the other features achieves machine learning
models that are simpler and quicker to train. This approach also achieves
similar and sometimes better performance than more complex models that default
to representing all data features with the same time resolution.
- Abstract(参考訳): 結果を予測するために管理データを活用することは、特に医療において機械学習の重要な応用分野である。
ほとんどの管理データレコードはタイムスタンプされ、時間の経過とともにレコードのパターンが機械学習モデルのキー入力となる。
本稿では,機械学習モデルの観測窓を時間セグメントあるいは"ビン"に分割する最善の方法を検討する。
より小さく高解像度の時間セグメントから最も恩恵を受けるデータの特徴を特定する計算効率の良いプロセスが提示される。
医療・住宅・ホームレス管理データから得られた結果は、これらの優先度の高い特徴の時間ビンサイズを最適化し、他の特徴のために1つの時間ビンを使用することで、よりシンプルで訓練の速い機械学習モデルを実現することを示した。
このアプローチはまた、すべてのデータ特徴を同じ時間分解能で表現することをデフォルトとする、より複雑なモデルよりも、同様で時に優れたパフォーマンスを実現する。
関連論文リスト
- Data-Centric Machine Learning for Earth Observation: Necessary and Sufficient Features [5.143097874851516]
モデル記述法を利用して、モデルが最適な性能に達するために必要な特徴を特定する。
一部のデータセットは、時間的なインスタンスの20%未満で最適な精度に達することができるが、他のデータセットでは、1つのモダリティから1つのバンドの時系列が十分である。
論文 参考訳(メタデータ) (2024-08-21T07:26:43Z) - Pushing the Limits of Pre-training for Time Series Forecasting in the
CloudOps Domain [54.67888148566323]
クラウドオペレーションドメインから,大規模時系列予測データセットを3つ導入する。
強力なゼロショットベースラインであり、モデルとデータセットサイズの両方において、さらなるスケーリングの恩恵を受けています。
これらのデータセットと結果を取得することは、古典的および深層学習のベースラインを事前訓練された方法と比較した総合的なベンチマーク結果の集合である。
論文 参考訳(メタデータ) (2023-10-08T08:09:51Z) - The Languini Kitchen: Enabling Language Modelling Research at Different
Scales of Compute [66.84421705029624]
本稿では,アクセル時間で測定された等価計算に基づくモデル比較を可能にする実験的プロトコルを提案する。
私たちは、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さで上回る、大規模で多様で高品質な書籍データセットを前処理します。
この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
論文 参考訳(メタデータ) (2023-09-20T10:31:17Z) - Temporal Graph Benchmark for Machine Learning on Temporal Graphs [54.52243310226456]
テンポラルグラフベンチマーク(TGB)は、困難で多様なベンチマークデータセットのコレクションである。
各データセットをベンチマークし、共通のモデルのパフォーマンスがデータセット間で大きく異なることを発見した。
TGBは、再現可能でアクセス可能な時間グラフ研究のための自動機械学習パイプラインを提供する。
論文 参考訳(メタデータ) (2023-07-03T13:58:20Z) - HigeNet: A Highly Efficient Modeling for Long Sequence Time Series
Prediction in AIOps [30.963758935255075]
本稿では,HigeNetという高効率モデルを提案し,時系列時系列の予測を行う。
モデルのトレーニング時間,資源使用量,精度は,5つの最先端競合モデルよりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2022-11-13T13:48:43Z) - Benchmarking Learning Efficiency in Deep Reservoir Computing [23.753943709362794]
我々は、機械学習モデルがトレーニングデータからいかに早く学習するかを測定するために、データ効率の指標とともに、ますます困難なタスクのベンチマークを導入する。
我々は、RNN、LSTM、Transformersなどの確立された逐次教師付きモデルの学習速度を、貯水池計算に基づく比較的知られていない代替モデルと比較する。
論文 参考訳(メタデータ) (2022-09-29T08:16:52Z) - Compactness Score: A Fast Filter Method for Unsupervised Feature
Selection [66.84571085643928]
本稿では,CSUFS (Compactness Score) と呼ばれる高速な教師なし特徴選択手法を提案する。
提案アルゴリズムは既存のアルゴリズムよりも正確で効率的である。
論文 参考訳(メタデータ) (2022-01-31T13:01:37Z) - Efficient Nearest Neighbor Language Models [114.40866461741795]
非パラメトリックニューラルネットワークモデル(NLM)は、外部データストアを用いてテキストの予測分布を学習する。
比較性能を維持しながら、推論速度の最大6倍の高速化を実現する方法を示す。
論文 参考訳(メタデータ) (2021-09-09T12:32:28Z) - Sketches for Time-Dependent Machine Learning [8.824033416765106]
時系列データは、それらを生成する基盤となるプロセスの変化にさらされる可能性がある。
我々は、現在のデータ分布とその時間的進化に関する情報を機械学習アルゴリズムに組み込む方法を提案する。
論文 参考訳(メタデータ) (2021-08-26T17:24:56Z) - PSEUDo: Interactive Pattern Search in Multivariate Time Series with
Locality-Sensitive Hashing and Relevance Feedback [3.347485580830609]
PSEUDoは、マルチトラックシーケンシャルデータにおける視覚パターンを探索するための適応的機能学習技術である。
提案アルゴリズムは,サブ線形学習と推論時間を特徴とする。
我々は,PSEUDoの効率,精度,操縦性において優位性を示す。
論文 参考訳(メタデータ) (2021-04-30T13:00:44Z) - Visualising Deep Network's Time-Series Representations [93.73198973454944]
機械学習モデルの普及にもかかわらず、多くの場合、モデルの内部で起きていることに関する洞察のないブラックボックスとして運用される。
本稿では,多次元時系列データの可視化に着目し,この問題に対処する手法を提案する。
高周波在庫市場データセットの実験は、この方法が迅速かつ識別可能な可視化を提供することを示しています。
論文 参考訳(メタデータ) (2021-03-12T09:53:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。