論文の概要: Generating Accurate Synthetic Survival Data by Conditioning on Outcomes
- arxiv url: http://arxiv.org/abs/2405.17333v2
- Date: Tue, 05 Aug 2025 20:45:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-07 20:09:22.24949
- Title: Generating Accurate Synthetic Survival Data by Conditioning on Outcomes
- Title(参考訳): アウトカムの条件付けによる正確な合成生存データの生成
- Authors: Mohd Ashhad, Ricardo Henao,
- Abstract要約: 合成されたデータは、プライバシ、公正性、データアクセシビリティを改善することができる。
この設定における重要な課題の1つは検閲、すなわちイベントのタイミングが不明な場合である。
既存の手法では、合成データを生成する際に観測時間と検閲時間の両方の分布を正確に再現することが困難である。
- 参考スコア(独自算出の注目度): 16.401141867387324
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Synthetically generated data can improve privacy, fairness, and data accessibility; however, it can be challenging in specialized scenarios such as survival analysis. One key challenge in this setting is censoring, i.e., the timing of an event is unknown in some cases. Existing methods struggle to accurately reproduce the distributions of both observed and censored event times when generating synthetic data. We propose a conceptually simple approach that generates covariates conditioned on event times and censoring indicators by leveraging existing tabular data generation models without making assumptions about the mechanism underlying censoring. Experiments on real-world datasets demonstrate that our method consistently outperforms baselines and improves downstream survival model performance.
- Abstract(参考訳): 合成されたデータは、プライバシ、公正性、データアクセシビリティを改善することができるが、生存分析のような特殊なシナリオでは困難である。
この設定における重要な課題の1つは検閲、すなわちイベントのタイミングが不明な場合である。
既存の手法では、合成データを生成する際に観測時間と検閲時間の両方の分布を正確に再現することが困難である。
本稿では,既存の表表データ生成モデルを活用して,その基盤となる検閲機構を仮定することなく,イベント時間に条件付き共変量を生成し,インジケータを検閲する,概念的にシンプルなアプローチを提案する。
実世界のデータセット実験により,本手法はベースラインを一貫して上回り,ダウンストリームサバイバルモデルの性能を向上することを示した。
関連論文リスト
- Latent Noise Injection for Private and Statistically Aligned Synthetic Data Generation [7.240170769827935]
データの合成は、スケーラブルでプライバシー保護の統計分析に欠かせないものとなっている。
マスク付き自己回帰流(MAF)を用いた潜時ノイズ注入法を提案する。
トレーニングされたモデルから直接サンプリングする代わりに、我々のメソッドは潜在空間の各データポイントを摂動させ、それをデータドメインにマップします。
論文 参考訳(メタデータ) (2025-06-19T22:22:57Z) - Beyond the Norm: A Survey of Synthetic Data Generation for Rare Events [5.619671817895425]
市場崩壊、自然災害、パンデミックなどの極端な出来事は稀だが大惨事である。
データ駆動型メソッドは、極端なイベントモデリングに強力な機能を提供するが、豊富なトレーニングデータを必要とするが、極端なイベントデータは本質的に不足している。
この調査は、極端な事象に対する合成データ生成の最初の概要を提供する。
論文 参考訳(メタデータ) (2025-06-04T20:21:23Z) - Tackling Data Heterogeneity in Federated Time Series Forecasting [61.021413959988216]
時系列予測は、エネルギー消費予測、病気の伝染モニタリング、天気予報など、様々な実世界の応用において重要な役割を果たす。
既存のほとんどのメソッドは、分散デバイスから中央クラウドサーバに大量のデータを収集する、集中的なトレーニングパラダイムに依存しています。
本稿では,情報合成データを補助的知識キャリアとして生成することにより,データの均一性に対処する新しいフレームワークであるFed-TRENDを提案する。
論文 参考訳(メタデータ) (2024-11-24T04:56:45Z) - Multi-modal Data Binding for Survival Analysis Modeling with Incomplete Data and Annotations [19.560652381770243]
我々は、モダリティと検閲されたサバイバルラベルにまたがる不完全なデータを同時に扱う新しいフレームワークを導入する。
我々のアプローチでは、高度な基礎モデルを用いて個々のモダリティを符号化し、それらを普遍的な表現空間に整列させる。
提案手法は,2つのサバイバル分析タスクにおいて,両者が適用したデータセットの予測精度に優れることを示す。
論文 参考訳(メタデータ) (2024-07-25T02:55:39Z) - A Temporally Disentangled Contrastive Diffusion Model for Spatiotemporal Imputation [35.46631415365955]
C$2$TSDという条件拡散フレームワークを導入する。
実世界の3つのデータセットに対する我々の実験は、最先端のベースラインと比較して、我々のアプローチの優れた性能を示している。
論文 参考訳(メタデータ) (2024-02-18T11:59:04Z) - TripleSurv: Triplet Time-adaptive Coordinate Loss for Survival Analysis [15.496918127515665]
本稿では,学習過程の複雑さを扱える時間適応座標損失関数TripleSurvを提案する。
我々のTripleSurvは3つの実世界の生存データセットと公開合成データセットで評価されている。
論文 参考訳(メタデータ) (2024-01-05T08:37:57Z) - Time-series Generation by Contrastive Imitation [87.51882102248395]
モーメントマッチングの目的によってモチベーションされ、複合的エラーを軽減し、局所的(しかし前方的な)遷移ポリシーを最適化する。
推論において、学習されたポリシーは反復的なサンプリングのジェネレータとして機能し、学習されたエネルギーはサンプルの品質を評価するための軌道レベル尺度として機能する。
論文 参考訳(メタデータ) (2023-11-02T16:45:25Z) - CenTime: Event-Conditional Modelling of Censoring in Survival Analysis [49.44664144472712]
CenTimeは、イベントへの時間を直接見積もる、サバイバル分析の新しいアプローチである。
本手法は,非検閲データが少ない場合でも,堅牢なイベント条件検閲機構を特徴とする。
以上の結果から,CenTimeは同等の性能を維持しつつ,死までの時間を予測する上で,最先端のパフォーマンスを提供することがわかった。
論文 参考訳(メタデータ) (2023-09-07T17:07:33Z) - Copula-Based Deep Survival Models for Dependent Censoring [10.962520289040336]
本稿では, 条件付き独立性の仮定を緩和することにより, 現代の非線形生存分析を拡張できるパラメトリックモデルを提案する。
合成データと半合成データでは,データに条件付き独立性を仮定する標準よりも生存確率分布の推定が有意に向上する。
論文 参考訳(メタデータ) (2023-06-20T21:51:13Z) - SurvivalGAN: Generating Time-to-Event Data for Survival Analysis [121.84429525403694]
検閲と時間的地平線の不均衡は、生成モデルに生存分析に特有の3つの新しい障害モードを経験させる。
本稿では,検閲やイベントの地平線における不均衡に対処し,生存データを扱う生成モデルであるSurvivalGANを提案する。
医療データセットに関する広範な実験により,本手法の評価を行った。
論文 参考訳(メタデータ) (2023-02-24T17:03:51Z) - Membership Inference Attacks against Synthetic Data through Overfitting
Detection [84.02632160692995]
我々は、攻撃者が基礎となるデータ分布についてある程度の知識を持っていると仮定する現実的なMIA設定について論じる。
生成モデルの局所的なオーバーフィッティングをターゲットとして,メンバシップを推論することを目的とした密度ベースMIAモデルであるDOMIASを提案する。
論文 参考訳(メタデータ) (2023-02-24T11:27:39Z) - Breaking the Spurious Causality of Conditional Generation via Fairness
Intervention with Corrective Sampling [77.15766509677348]
条件生成モデルは、トレーニングデータセットから急激な相関を継承することが多い。
これは別の潜在属性に対して不均衡なラベル条件分布をもたらす。
この問題を緩和するための一般的な2段階戦略を提案する。
論文 参考訳(メタデータ) (2022-12-05T08:09:33Z) - Delving into High-Quality Synthetic Face Occlusion Segmentation Datasets [83.749895930242]
そこで本研究では,高品質な自然主義的合成隠蔽顔を製造するための2つの手法を提案する。
両手法の有効性とロバスト性を実証的に示す。
我々は,RealOccとRealOcc-Wildという,微細なアノテーションを付加した高精細な実世界の顔データセットを2つ提示する。
論文 参考訳(メタデータ) (2022-05-12T17:03:57Z) - Hide-and-Seek Privacy Challenge [88.49671206936259]
NeurIPS 2020 Hide-and-Seek Privacy Challengeは、両方の問題を解決するための新しい2トラックの競争だ。
我々の頭から頭までのフォーマットでは、新しい高品質な集中ケア時系列データセットを用いて、合成データ生成トラック(「ヒッシャー」)と患者再識別トラック(「シーカー」)の参加者が直接対決する。
論文 参考訳(メタデータ) (2020-07-23T15:50:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。