論文の概要: Conditioning on Time is All You Need for Synthetic Survival Data Generation
- arxiv url: http://arxiv.org/abs/2405.17333v1
- Date: Mon, 27 May 2024 16:34:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-28 14:33:59.914226
- Title: Conditioning on Time is All You Need for Synthetic Survival Data Generation
- Title(参考訳): 合成生存データ生成に必要な時間条件
- Authors: Mohd Ashhad, Ricardo Henao,
- Abstract要約: 本稿では,イベント時間に条件付き共変数を生成し,インジケータを検閲することにより,合成生存データを生成するための簡単なパラダイムを提案する。
提案手法は,サバイバルデータの生成において,複数の競争ベースラインを上回りながら,トレーニングした下流サバイバルモデルの性能を向上し,実データでテストする。
- 参考スコア(独自算出の注目度): 16.401141867387324
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Synthetic data generation holds considerable promise, offering avenues to enhance privacy, fairness, and data accessibility. Despite the availability of various methods for generating synthetic tabular data, challenges persist, particularly in specialized applications such as survival analysis. One significant obstacle in survival data generation is censoring, which manifests as not knowing the precise timing of observed (target) events for certain instances. Existing methods face difficulties in accurately reproducing the real distribution of event times for both observed (uncensored) events and censored events, i.e., the generated event-time distributions do not accurately match the underlying distributions of the real data. So motivated, we propose a simple paradigm to produce synthetic survival data by generating covariates conditioned on event times (and censoring indicators), thus allowing one to reuse existing conditional generative models for tabular data without significant computational overhead, and without making assumptions about the (usually unknown) generation mechanism underlying censoring. We evaluate this method via extensive experiments on real-world datasets. Our methodology outperforms multiple competitive baselines at generating survival data, while improving the performance of downstream survival models trained on it and tested on real data.
- Abstract(参考訳): 合成データ生成は、プライバシ、公正性、データアクセシビリティを高めるための道を提供する、かなりの約束を持っている。
合成表データを生成する様々な方法が利用可能であるにもかかわらず、特に生存分析のような特殊な応用において課題は持続する。
生存データ生成における重要な障害の1つは検閲であり、特定のインスタンスに対する観測(ターゲット)イベントの正確なタイミングを知らないことが示される。
既存の手法では、観測された(検閲されていない)イベントと検閲されたイベントの両方のイベント時間の実際の分布を正確に再現することは困難である。
そこで,本稿では,イベント時刻に条件付き共変量を生成して合成サバイバルデータを生成するための簡単なパラダイムを提案する。これにより,表計算上のオーバーヘッドを伴わずに,また,検閲の基盤となる(通常未知の)生成機構を仮定することなく,既存の条件生成モデルを再利用することができる。
本手法は実世界のデータセットに対する広範な実験により評価する。
提案手法は,サバイバルデータの生成において,複数の競争ベースラインを上回りながら,トレーニングした下流サバイバルモデルの性能を向上し,実データでテストする。
関連論文リスト
- Tackling Data Heterogeneity in Federated Time Series Forecasting [61.021413959988216]
時系列予測は、エネルギー消費予測、病気の伝染モニタリング、天気予報など、様々な実世界の応用において重要な役割を果たす。
既存のほとんどのメソッドは、分散デバイスから中央クラウドサーバに大量のデータを収集する、集中的なトレーニングパラダイムに依存しています。
本稿では,情報合成データを補助的知識キャリアとして生成することにより,データの均一性に対処する新しいフレームワークであるFed-TRENDを提案する。
論文 参考訳(メタデータ) (2024-11-24T04:56:45Z) - Multi-modal Data Binding for Survival Analysis Modeling with Incomplete Data and Annotations [19.560652381770243]
我々は、モダリティと検閲されたサバイバルラベルにまたがる不完全なデータを同時に扱う新しいフレームワークを導入する。
我々のアプローチでは、高度な基礎モデルを用いて個々のモダリティを符号化し、それらを普遍的な表現空間に整列させる。
提案手法は,2つのサバイバル分析タスクにおいて,両者が適用したデータセットの予測精度に優れることを示す。
論文 参考訳(メタデータ) (2024-07-25T02:55:39Z) - A Temporally Disentangled Contrastive Diffusion Model for Spatiotemporal Imputation [35.46631415365955]
C$2$TSDという条件拡散フレームワークを導入する。
実世界の3つのデータセットに対する我々の実験は、最先端のベースラインと比較して、我々のアプローチの優れた性能を示している。
論文 参考訳(メタデータ) (2024-02-18T11:59:04Z) - TripleSurv: Triplet Time-adaptive Coordinate Loss for Survival Analysis [15.496918127515665]
本稿では,学習過程の複雑さを扱える時間適応座標損失関数TripleSurvを提案する。
我々のTripleSurvは3つの実世界の生存データセットと公開合成データセットで評価されている。
論文 参考訳(メタデータ) (2024-01-05T08:37:57Z) - Time-series Generation by Contrastive Imitation [87.51882102248395]
モーメントマッチングの目的によってモチベーションされ、複合的エラーを軽減し、局所的(しかし前方的な)遷移ポリシーを最適化する。
推論において、学習されたポリシーは反復的なサンプリングのジェネレータとして機能し、学習されたエネルギーはサンプルの品質を評価するための軌道レベル尺度として機能する。
論文 参考訳(メタデータ) (2023-11-02T16:45:25Z) - CenTime: Event-Conditional Modelling of Censoring in Survival Analysis [49.44664144472712]
CenTimeは、イベントへの時間を直接見積もる、サバイバル分析の新しいアプローチである。
本手法は,非検閲データが少ない場合でも,堅牢なイベント条件検閲機構を特徴とする。
以上の結果から,CenTimeは同等の性能を維持しつつ,死までの時間を予測する上で,最先端のパフォーマンスを提供することがわかった。
論文 参考訳(メタデータ) (2023-09-07T17:07:33Z) - Copula-Based Deep Survival Models for Dependent Censoring [10.962520289040336]
本稿では, 条件付き独立性の仮定を緩和することにより, 現代の非線形生存分析を拡張できるパラメトリックモデルを提案する。
合成データと半合成データでは,データに条件付き独立性を仮定する標準よりも生存確率分布の推定が有意に向上する。
論文 参考訳(メタデータ) (2023-06-20T21:51:13Z) - SurvivalGAN: Generating Time-to-Event Data for Survival Analysis [121.84429525403694]
検閲と時間的地平線の不均衡は、生成モデルに生存分析に特有の3つの新しい障害モードを経験させる。
本稿では,検閲やイベントの地平線における不均衡に対処し,生存データを扱う生成モデルであるSurvivalGANを提案する。
医療データセットに関する広範な実験により,本手法の評価を行った。
論文 参考訳(メタデータ) (2023-02-24T17:03:51Z) - Delving into High-Quality Synthetic Face Occlusion Segmentation Datasets [83.749895930242]
そこで本研究では,高品質な自然主義的合成隠蔽顔を製造するための2つの手法を提案する。
両手法の有効性とロバスト性を実証的に示す。
我々は,RealOccとRealOcc-Wildという,微細なアノテーションを付加した高精細な実世界の顔データセットを2つ提示する。
論文 参考訳(メタデータ) (2022-05-12T17:03:57Z) - Hide-and-Seek Privacy Challenge [88.49671206936259]
NeurIPS 2020 Hide-and-Seek Privacy Challengeは、両方の問題を解決するための新しい2トラックの競争だ。
我々の頭から頭までのフォーマットでは、新しい高品質な集中ケア時系列データセットを用いて、合成データ生成トラック(「ヒッシャー」)と患者再識別トラック(「シーカー」)の参加者が直接対決する。
論文 参考訳(メタデータ) (2020-07-23T15:50:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。