論文の概要: Toward Valid Generative Clinical Trial Data with Survival Endpoints
- arxiv url: http://arxiv.org/abs/2511.16551v1
- Date: Thu, 20 Nov 2025 17:03:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-21 17:08:52.745064
- Title: Toward Valid Generative Clinical Trial Data with Survival Endpoints
- Title(参考訳): サバイバルエンドポイントを用いた有意な臨床治験データ作成に向けて
- Authors: Perrine Chassat, Van Tuan Nguyen, Lucas Ducrot, Emilie Lanoy, Agathe Guilloux,
- Abstract要約: 既存の生成的アプローチは、主にGANベースであり、データハングリーであり、不安定であり、独立検閲のような強い前提に依存している。
独立検閲を前提とせず,混合型共変数と生存結果とを協調的に生成する変分オートエンコーダ(VAE)を導入する。
本手法は,タイプIエラーとパワーの系統的誤校正を図りながら,忠実度,ユーティリティ,プライバシの指標に基づいてGANの基準線を上回ります。
- 参考スコア(独自算出の注目度): 4.7846041866823965
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Clinical trials face mounting challenges: fragmented patient populations, slow enrollment, and unsustainable costs, particularly for late phase trials in oncology and rare diseases. While external control arms built from real-world data have been explored, a promising alternative is the generation of synthetic control arms using generative AI. A central challenge is the generation of time-to-event outcomes, which constitute primary endpoints in oncology and rare disease trials, but are difficult to model under censoring and small sample sizes. Existing generative approaches, largely GAN-based, are data-hungry, unstable, and rely on strong assumptions such as independent censoring. We introduce a variational autoencoder (VAE) that jointly generates mixed-type covariates and survival outcomes within a unified latent variable framework, without assuming independent censoring. Across synthetic and real trial datasets, we evaluate our model in two realistic scenarios: (i) data sharing under privacy constraints, where synthetic controls substitute for original data, and (ii) control-arm augmentation, where synthetic patients mitigate imbalances between treated and control groups. Our method outperforms GAN baselines on fidelity, utility, and privacy metrics, while revealing systematic miscalibration of type I error and power. We propose a post-generation selection procedure that improves calibration, highlighting both progress and open challenges for generative survival modeling.
- Abstract(参考訳): 臨床試験は、断片化された患者集団、遅い入院、持続不可能なコスト、特に腫瘍学や希少疾患の後期段階の臨床試験など、大きな課題に直面している。
現実世界のデータから構築された外部制御アームが探索されているが、有望な代替手段は、生成AIを使用した合成制御アームの生成である。
中心的な課題は、腫瘍学や希少な疾患の治験において主要なエンドポイントを構成する時間対結果の生成であるが、検閲や小さなサンプルサイズの下ではモデル化が困難である。
既存の生成的アプローチは、主にGANベースであり、データハングリーであり、不安定であり、独立検閲のような強い前提に依存している。
独立検閲を前提とせず,混合型共変量と生存結果の同時生成が可能な変分オートエンコーダ(VAE)を提案する。
合成および実トライアルデータセット全体で、我々のモデルを2つの現実的なシナリオで評価する。
一 プライバシー上の制約によるデータ共有であって、原データに代えて合成制御を行うもの
合成患者が治療群と対照群の間の不均衡を緩和するコントロールアーム増強。
提案手法は,タイプIエラーとパワーの系統的誤校正を図りながら,忠実度,ユーティリティ,プライバシの指標に基づくGANのベースラインを上回ります。
本稿では,キャリブレーションを改善したポストジェネレーション選択手法を提案する。
関連論文リスト
- Synthetic Survival Control: Extending Synthetic Controls for "When-If" Decision [14.313335826236722]
観測データからの時間-時間結果に対する因果効果の推定は,検閲,サンプルサイズ制限,非ランダム処理の割り当てなどにより困難である。
本稿では,パネルデータ設定において,有害事象を推定するためのSSC(Synthetic Survival Control)を提案する。
論文 参考訳(メタデータ) (2025-11-18T04:36:20Z) - Improving the Generation and Evaluation of Synthetic Data for Downstream Medical Causal Inference [89.5628648718851]
因果推論は医療介入の開発と評価に不可欠である。
現実の医療データセットは、規制障壁のためアクセスが難しいことが多い。
本稿では,医学における治療効果分析のための新しい合成データ生成法STEAMを提案する。
論文 参考訳(メタデータ) (2025-10-21T16:16:00Z) - Deconstructing Intraocular Pressure: A Non-invasive Multi-Stage Probabilistic Inverse Framework [0.0]
緑内障は眼圧上昇(IOP)による可逆性失明の主因である
非侵襲的に測定不能な変数をスパースなルーチンデータから推定するフレームワークを開発する。
本フレームワークは, 直接物理機器に匹敵する精度で, 最先端のトノグラフィーと良好な一致を実現している。
論文 参考訳(メタデータ) (2025-09-17T16:50:23Z) - Adaptable Cardiovascular Disease Risk Prediction from Heterogeneous Data using Large Language Models [70.64969663547703]
AdaCVDは、英国バイオバンクから50万人以上の参加者を対象に、大規模な言語モデルに基づいて構築された適応可能なCVDリスク予測フレームワークである。
包括的かつ可変的な患者情報を柔軟に取り込み、構造化データと非構造化テキストの両方をシームレスに統合し、最小限の追加データを使用して新規患者の集団に迅速に適応する。
論文 参考訳(メタデータ) (2025-05-30T14:42:02Z) - Challenges and Limitations in the Synthetic Generation of mHealth Sensor Data [3.10770247120758]
本稿では,合成データの本質的品質と,下流予測タスクにおける有用性の両方を測定するために設計された新しい評価フレームワークを提案する。
以上の結果から,既存のアプローチ,特に相互整合性を維持する上での限界が明らかとなった。
我々は,mHealthにおける合成時系列生成の促進と生成モデルの適用性向上に向けた今後の研究方針を述べる。
論文 参考訳(メタデータ) (2025-05-20T11:05:06Z) - Latent Drifting in Diffusion Models for Counterfactual Medical Image Synthesis [55.959002385347645]
遅延ドリフトにより、医療画像に対して拡散モデルを条件付けし、反ファクト画像生成の複雑なタスクに適合させることができる。
我々は,脳MRIと胸部X線による3つの時系列的ベンチマークデータセットを用いて,対物画像生成法について検討した。
論文 参考訳(メタデータ) (2024-12-30T01:59:34Z) - Generation of synthetic gait data: application to multiple sclerosis patients' gait patterns [0.0]
多発性硬化症(Multiple sclerosis, MS)は、若年者における非外傷性障害の主要な原因であり、その頻度は世界中で増加している。
MSにおける歩行障害の変動は、定量的歩行評価のための非侵襲的で敏感で費用対効果の高いツールの開発を必要とする。
eGait運動センサは、股関節回転を表す単位四元数時系列(QTS)を通して人間の歩行を特徴付けるように設計されており、有望なアプローチである。
しかし、臨床研究に典型的な小さなサンプルサイズは、歩行データ解析ツールの安定性に課題をもたらす。
論文 参考訳(メタデータ) (2024-11-15T17:32:01Z) - Bootstrapping Your Own Positive Sample: Contrastive Learning With
Electronic Health Record Data [62.29031007761901]
本稿では,新しいコントラスト型正規化臨床分類モデルを提案する。
EHRデータに特化した2つのユニークなポジティブサンプリング戦略を紹介します。
私たちのフレームワークは、現実世界のCOVID-19 EHRデータの死亡リスクを予測するために、競争の激しい実験結果をもたらします。
論文 参考訳(メタデータ) (2021-04-07T06:02:04Z) - Hide-and-Seek Privacy Challenge [88.49671206936259]
NeurIPS 2020 Hide-and-Seek Privacy Challengeは、両方の問題を解決するための新しい2トラックの競争だ。
我々の頭から頭までのフォーマットでは、新しい高品質な集中ケア時系列データセットを用いて、合成データ生成トラック(「ヒッシャー」)と患者再識別トラック(「シーカー」)の参加者が直接対決する。
論文 参考訳(メタデータ) (2020-07-23T15:50:59Z) - A General Framework for Survival Analysis and Multi-State Modelling [70.31153478610229]
ニューラル常微分方程式を多状態生存モデル推定のためのフレキシブルで一般的な方法として用いる。
また,本モデルでは,サバイバルデータセット上での最先端性能を示すとともに,マルチステート環境での有効性を示す。
論文 参考訳(メタデータ) (2020-06-08T19:24:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。