Fugu-MT 論文翻訳(概要): Efficient Observation Time Window Segmentation for Administrative Data Machine Learning

論文の概要: Efficient Observation Time Window Segmentation for Administrative Data Machine Learning

arxiv url: http://arxiv.org/abs/2401.16537v1
Date: Mon, 29 Jan 2024 20:18:51 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-31 17:18:18.010640
Title: Efficient Observation Time Window Segmentation for Administrative Data Machine Learning
Title（参考訳）: 管理データ機械学習のための効率的な観察時間窓セグメンテーション
Authors: Musa Taib, Geoffrey G. Messier
Abstract要約: 結果を予測するために管理データを使用することは、機械学習の重要な応用分野である。本稿では,機械学習モデルの観測窓を時間セグメントや「ビン」に分割する方法について検討する。
参考スコア（独自算出の注目度）: 1.8130068086063336
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Utilizing administrative data to predict outcomes is an important application area of machine learning, particularly in healthcare. Most administrative data records are timestamped and the pattern of records over time is a key input for machine learning models. This paper explores how best to divide the observation window of a machine learning model into time segments or "bins". A computationally efficient process is presented that identifies which data features benefit most from smaller, higher resolution time segments. Results generated on healthcare and housing/homelessness administrative data demonstrate that optimizing the time bin size of these high priority features while using a single time bin for the other features achieves machine learning models that are simpler and quicker to train. This approach also achieves similar and sometimes better performance than more complex models that default to representing all data features with the same time resolution.
Abstract（参考訳）: 結果を予測するために管理データを活用することは、特に医療において機械学習の重要な応用分野である。ほとんどの管理データレコードはタイムスタンプされ、時間の経過とともにレコードのパターンが機械学習モデルのキー入力となる。本稿では,機械学習モデルの観測窓を時間セグメントあるいは"ビン"に分割する最善の方法を検討する。より小さく高解像度の時間セグメントから最も恩恵を受けるデータの特徴を特定する計算効率の良いプロセスが提示される。医療・住宅・ホームレス管理データから得られた結果は、これらの優先度の高い特徴の時間ビンサイズを最適化し、他の特徴のために1つの時間ビンを使用することで、よりシンプルで訓練の速い機械学習モデルを実現することを示した。このアプローチはまた、すべてのデータ特徴を同じ時間分解能で表現することをデフォルトとする、より複雑なモデルよりも、同様で時に優れたパフォーマンスを実現する。

関連論文リスト

Learning-Augmented Moment Estimation on Time-Decay Models [55.06256430461023]
私たちは、多くの基本的な問題に対して学習強化アルゴリズムを提供するために、データセットのヘビーヒッターにオラクルを使用します。提案手法は,実データおよび合成データセット上でのアルゴリズムの実用的効率を実証する実験的な評価によって理論的結果を補完するものである。
論文参考訳（メタデータ） (2026-03-03T00:42:34Z)
Compute-Optimal Scaling for Value-Based Deep RL [99.680827753493]
オンライン価値ベースディープRLの計算スケーリングについて検討する。解析の結果,モデルサイズ,バッチサイズ,UTD間の微妙な相互作用が明らかになった。この現象を理解するためのメンタルモデルを提供し、バッチサイズとUTDを選択するためのガイドラインを構築します。
論文参考訳（メタデータ） (2025-08-20T17:54:21Z)
Exploring Training and Inference Scaling Laws in Generative Retrieval [50.82554729023865]
生成検索は、検索を自己回帰生成タスクとして再構成し、大きな言語モデルがクエリから直接ターゲット文書を生成する。生成的検索におけるトレーニングと推論のスケーリング法則を体系的に検討し,モデルのサイズ,トレーニングデータスケール,推論時間計算が協調的に性能に与える影響について検討した。
論文参考訳（メタデータ） (2025-03-24T17:59:03Z)
Data-Centric Machine Learning for Earth Observation: Necessary and Sufficient Features [5.143097874851516]
モデル記述法を利用して、モデルが最適な性能に達するために必要な特徴を特定する。一部のデータセットは、時間的なインスタンスの20%未満で最適な精度に達することができるが、他のデータセットでは、1つのモダリティから1つのバンドの時系列が十分である。
論文参考訳（メタデータ） (2024-08-21T07:26:43Z)
EXPRTS: Exploring and Probing the Robustness of Time Series Forecasting Models [1.23187154417297]
我々は時系列を生成するための解釈可能でシンプルなフレームワークを開発する。本手法は時系列分解と解析関数を組み合わせることで,分布内データと分布外データの両方に一致する特性を持つ時系列を生成することができる。私たちは、モデルロバスト性を改善するために、我々のフレームワークが意味のあるOOD時系列を生成する方法を示します。
論文参考訳（メタデータ） (2024-03-06T07:34:47Z)
Pushing the Limits of Pre-training for Time Series Forecasting in the CloudOps Domain [54.67888148566323]
クラウドオペレーションドメインから,大規模時系列予測データセットを3つ導入する。強力なゼロショットベースラインであり、モデルとデータセットサイズの両方において、さらなるスケーリングの恩恵を受けています。これらのデータセットと結果を取得することは、古典的および深層学習のベースラインを事前訓練された方法と比較した総合的なベンチマーク結果の集合である。
論文参考訳（メタデータ） (2023-10-08T08:09:51Z)
The Languini Kitchen: Enabling Language Modelling Research at Different Scales of Compute [66.84421705029624]
本稿では,アクセル時間で測定された等価計算に基づくモデル比較を可能にする実験的プロトコルを提案する。私たちは、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さで上回る、大規模で多様で高品質な書籍データセットを前処理します。この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
論文参考訳（メタデータ） (2023-09-20T10:31:17Z)
Temporal Graph Benchmark for Machine Learning on Temporal Graphs [54.52243310226456]
テンポラルグラフベンチマーク(TGB)は、困難で多様なベンチマークデータセットのコレクションである。各データセットをベンチマークし、共通のモデルのパフォーマンスがデータセット間で大きく異なることを発見した。 TGBは、再現可能でアクセス可能な時間グラフ研究のための自動機械学習パイプラインを提供する。
論文参考訳（メタデータ） (2023-07-03T13:58:20Z)
HigeNet: A Highly Efficient Modeling for Long Sequence Time Series Prediction in AIOps [30.963758935255075]
本稿では,HigeNetという高効率モデルを提案し,時系列時系列の予測を行う。モデルのトレーニング時間,資源使用量,精度は,5つの最先端競合モデルよりも有意に優れていることを示す。
論文参考訳（メタデータ） (2022-11-13T13:48:43Z)
Benchmarking Learning Efficiency in Deep Reservoir Computing [23.753943709362794]
我々は、機械学習モデルがトレーニングデータからいかに早く学習するかを測定するために、データ効率の指標とともに、ますます困難なタスクのベンチマークを導入する。我々は、RNN、LSTM、Transformersなどの確立された逐次教師付きモデルの学習速度を、貯水池計算に基づく比較的知られていない代替モデルと比較する。
論文参考訳（メタデータ） (2022-09-29T08:16:52Z)
Compactness Score: A Fast Filter Method for Unsupervised Feature Selection [66.84571085643928]
本稿では,CSUFS (Compactness Score) と呼ばれる高速な教師なし特徴選択手法を提案する。提案アルゴリズムは既存のアルゴリズムよりも正確で効率的である。
論文参考訳（メタデータ） (2022-01-31T13:01:37Z)
Efficient Nearest Neighbor Language Models [114.40866461741795]
非パラメトリックニューラルネットワークモデル(NLM)は、外部データストアを用いてテキストの予測分布を学習する。比較性能を維持しながら、推論速度の最大6倍の高速化を実現する方法を示す。
論文参考訳（メタデータ） (2021-09-09T12:32:28Z)
Sketches for Time-Dependent Machine Learning [8.824033416765106]
時系列データは、それらを生成する基盤となるプロセスの変化にさらされる可能性がある。我々は、現在のデータ分布とその時間的進化に関する情報を機械学習アルゴリズムに組み込む方法を提案する。
論文参考訳（メタデータ） (2021-08-26T17:24:56Z)
PSEUDo: Interactive Pattern Search in Multivariate Time Series with Locality-Sensitive Hashing and Relevance Feedback [3.347485580830609]
PSEUDoは、マルチトラックシーケンシャルデータにおける視覚パターンを探索するための適応的機能学習技術である。提案アルゴリズムは,サブ線形学習と推論時間を特徴とする。我々は,PSEUDoの効率,精度,操縦性において優位性を示す。
論文参考訳（メタデータ） (2021-04-30T13:00:44Z)
Visualising Deep Network's Time-Series Representations [93.73198973454944]
機械学習モデルの普及にもかかわらず、多くの場合、モデルの内部で起きていることに関する洞察のないブラックボックスとして運用される。本稿では,多次元時系列データの可視化に着目し,この問題に対処する手法を提案する。高周波在庫市場データセットの実験は、この方法が迅速かつ識別可能な可視化を提供することを示しています。
論文参考訳（メタデータ） (2021-03-12T09:53:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。