論文の概要: CleanSurvival: Automated data preprocessing for time-to-event models using reinforcement learning
- arxiv url: http://arxiv.org/abs/2502.03946v1
- Date: Thu, 06 Feb 2025 10:33:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-07 14:32:01.112026
- Title: CleanSurvival: Automated data preprocessing for time-to-event models using reinforcement learning
- Title(参考訳): CleanSurvival:強化学習を用いた時間-時間モデルの自動データ前処理
- Authors: Yousef Koka, David Selby, Gerrit Großmann, Sebastian Vollmer,
- Abstract要約: データ前処理は、機械学習の重要かつ頻繁に無視される側面である。
CleanSurvivalは、プレプロセスパイプラインを最適化するための強化学習ベースのソリューションである。
連続的および分類的変数を処理し、Q-learningを使用して、データ計算、外れ値検出、特徴抽出のどの組み合わせが最適なパフォーマンスを達成するかを選択できる。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Data preprocessing is a critical yet frequently neglected aspect of machine learning, often paid little attention despite its potentially significant impact on model performance. While automated machine learning pipelines are starting to recognize and integrate data preprocessing into their solutions for classification and regression tasks, this integration is lacking for more specialized tasks like survival or time-to-event models. As a result, survival analysis not only faces the general challenges of data preprocessing but also suffers from the lack of tailored, automated solutions in this area. To address this gap, this paper presents 'CleanSurvival', a reinforcement-learning-based solution for optimizing preprocessing pipelines, extended specifically for survival analysis. The framework can handle continuous and categorical variables, using Q-learning to select which combination of data imputation, outlier detection and feature extraction techniques achieves optimal performance for a Cox, random forest, neural network or user-supplied time-to-event model. The package is available on GitHub: https://github.com/datasciapps/CleanSurvival Experimental benchmarks on real-world datasets show that the Q-learning-based data preprocessing results in superior predictive performance to standard approaches, finding such a model up to 10 times faster than undirected random grid search. Furthermore, a simulation study demonstrates the effectiveness in different types and levels of missingness and noise in the data.
- Abstract(参考訳): データ前処理は、機械学習の重要かつ頻繁に無視される側面であり、モデルパフォーマンスに潜在的に重大な影響があるにもかかわらず、ほとんど注意を払わなかった。
自動機械学習パイプラインは、分類タスクと回帰タスクのためのソリューションにデータ前処理を認識、統合し始めているが、この統合は、生存率や時間対イベントモデルといった、より特殊なタスクに欠けている。
その結果、サバイバル分析はデータ前処理の一般的な課題に直面するだけでなく、この領域で調整された自動化されたソリューションが欠如している。
このギャップに対処するため,本論文では,前処理パイプラインを最適化する強化学習ベースのソリューションであるCleanSurvivalについて述べる。
このフレームワークは、連続的および分類的変数を処理でき、Q-learningを使用して、データ計算、外れ値検出、特徴抽出のどの組み合わせを選択すれば、Cox、ランダムフォレスト、ニューラルネットワーク、あるいはユーザが提供するタイム・ツー・イベントモデルに対して最適なパフォーマンスが得られる。
https://github.com/datasciapps/CleanSurvival 実世界のデータセットに関する実験的ベンチマークによると、Qラーニングベースのデータ前処理は標準的なアプローチよりも予測性能が優れており、そのようなモデルが無方向のランダムグリッドサーチよりも最大10倍高速であることが示されている。
さらに、シミュレーション研究は、データ中の様々な種類の欠落とノイズのレベルにおいて、その効果を実証する。
関連論文リスト
- Beyond Data Scarcity: A Frequency-Driven Framework for Zero-Shot Forecasting [15.431513584239047]
時系列予測は多くの現実世界の応用において重要である。
従来の予測技術は、データが不足しているか、全く利用できない場合に苦労する。
近年の進歩は、このようなタスクに大規模な基礎モデルを活用することが多い。
論文 参考訳(メタデータ) (2024-11-24T07:44:39Z) - A Data-Centric Perspective on Evaluating Machine Learning Models for Tabular Data [9.57464542357693]
実世界のモデリングパイプラインは、しばしばデータセット固有の前処理と特徴工学を必要とするため、モデル中心の評価は偏りがあることを実証する。
Kaggleコンペティションから10の関連するデータセットを選択し、データセット毎に専門家レベルの前処理パイプラインを実装します。
データセット固有の機能エンジニアリングの後、モデルランキングは大幅に変化し、性能差が減少し、モデル選択の重要性が低下する。
論文 参考訳(メタデータ) (2024-07-02T09:54:39Z) - TimeSieve: Extracting Temporal Dynamics through Information Bottlenecks [31.10683149519954]
本稿では,時系列予測モデルTimeSieveを提案する。
提案手法では、ウェーブレット変換を用いて時系列データを前処理し、マルチスケールの特徴を効果的にキャプチャする。
本研究は,時系列予測における課題に対処するためのアプローチの有効性を検証した。
論文 参考訳(メタデータ) (2024-06-07T15:58:12Z) - Combating Missing Modalities in Egocentric Videos at Test Time [92.38662956154256]
現実のアプリケーションは、プライバシの懸念、効率性の必要性、ハードウェアの問題により、不完全なモダリティを伴う問題に直面することが多い。
再トレーニングを必要とせずに,テスト時にこの問題に対処する新しい手法を提案する。
MiDlは、欠落したモダリティをテスト時にのみ扱う、自己管理型のオンラインソリューションとしては初めてのものだ。
論文 参考訳(メタデータ) (2024-04-23T16:01:33Z) - Learning with Noisy Foundation Models [95.50968225050012]
本論文は、事前学習データセットにおけるノイズの性質を包括的に理解し分析する最初の研究である。
雑音の悪影響を緩和し、一般化を改善するため、特徴空間に適応するチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2024-03-11T16:22:41Z) - Zero-shot Retrieval: Augmenting Pre-trained Models with Search Engines [83.65380507372483]
大規模で事前訓練されたモデルは、問題を解決するのに必要なタスク固有のデータの量を劇的に削減するが、多くの場合、ドメイン固有のニュアンスを箱から取り出すのに失敗する。
本稿では,NLPとマルチモーダル学習の最近の進歩を活用して,検索エンジン検索による事前学習モデルを強化する方法について述べる。
論文 参考訳(メタデータ) (2023-11-29T05:33:28Z) - Learning Defect Prediction from Unrealistic Data [57.53586547895278]
事前訓練されたコードのモデルは、コード理解と生成タスクに人気がある。
このようなモデルは大きい傾向があり、訓練データの総量を必要とする。
人工的に注入されたバグのある関数など、はるかに大きくてもより現実的なデータセットを持つモデルをトレーニングすることが一般的になった。
このようなデータで訓練されたモデルは、実際のプログラムでは性能が劣りながら、同様のデータでのみうまく機能する傾向にある。
論文 参考訳(メタデータ) (2023-11-02T01:51:43Z) - An Automated Machine Learning Approach for Detecting Anomalous Peak
Patterns in Time Series Data from a Research Watershed in the Northeastern
United States Critical Zone [3.1747517745997014]
本稿では,米国北東部臨界水域におけるセンサによる時系列データの異常検出を支援する機械学習フレームワークを提案する。
このフレームワークは特に、センサーの故障や自然現象から生じるピークパターンの異常を識別することに焦点を当てている。
論文 参考訳(メタデータ) (2023-09-14T19:07:50Z) - MADS: Modulated Auto-Decoding SIREN for time series imputation [9.673093148930874]
我々は,暗黙のニューラル表現に基づく時系列計算のための新しい自動デコードフレームワークMADSを提案する。
実世界の2つのデータセット上で本モデルを評価し,時系列計算における最先端手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-07-03T09:08:47Z) - Improved Fine-tuning by Leveraging Pre-training Data: Theory and
Practice [52.11183787786718]
対象データに事前学習されたモデルを微調整することは、多くのディープラーニングアプリケーションで広く利用されている。
近年の研究では、スクラッチからのトレーニングが、この事前トレーニング戦略に比較して、最終的なパフォーマンスを示すことが実証されている。
本稿では,対象タスクの一般化を改善するために,事前学習データからサブセットを選択する新しい選択戦略を提案する。
論文 参考訳(メタデータ) (2021-11-24T06:18:32Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。