論文の概要: TCDiff: Triplex Cascaded Diffusion for High-fidelity Multimodal EHRs Generation with Incomplete Clinical Data
- arxiv url: http://arxiv.org/abs/2508.01615v1
- Date: Sun, 03 Aug 2025 06:24:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 18:25:21.969138
- Title: TCDiff: Triplex Cascaded Diffusion for High-fidelity Multimodal EHRs Generation with Incomplete Clinical Data
- Title(参考訳): TCDiff:不完全臨床データを用いた高忠実度多モードEHR生成のための三相カスケード拡散法
- Authors: Yandong Yan, Chenxi Li, Yu Huang, Dexuan Xu, Jiaqi Zhu, Zhongyan Chai, Huamin Zhang,
- Abstract要約: 実世界のEHRデータの特徴を学習するために,3つの拡散ネットワークをカスケードする新しいEHR生成フレームワークTCDiffを提案する。
TCDiffは、さまざまな欠落率でデータ忠実度の平均10%で、最先端のベースラインを一貫して上回っている。
これは、現実のヘルスケアシナリオにおける我々のアプローチの有効性、堅牢性、一般化性を強調します。
- 参考スコア(独自算出の注目度): 7.661128607911307
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The scarcity of large-scale and high-quality electronic health records (EHRs) remains a major bottleneck in biomedical research, especially as large foundation models become increasingly data-hungry. Synthesizing substantial volumes of de-identified and high-fidelity data from existing datasets has emerged as a promising solution. However, existing methods suffer from a series of limitations: they struggle to model the intrinsic properties of heterogeneous multimodal EHR data (e.g., continuous, discrete, and textual modalities), capture the complex dependencies among them, and robustly handle pervasive data incompleteness. These challenges are particularly acute in Traditional Chinese Medicine (TCM). To this end, we propose TCDiff (Triplex Cascaded Diffusion Network), a novel EHR generation framework that cascades three diffusion networks to learn the features of real-world EHR data, formatting a multi-stage generative process: Reference Modalities Diffusion, Cross-Modal Bridging, and Target Modality Diffusion. Furthermore, to validate our proposed framework, besides two public datasets, we also construct and introduce TCM-SZ1, a novel multimodal EHR dataset for benchmarking. Experimental results show that TCDiff consistently outperforms state-of-the-art baselines by an average of 10% in data fidelity under various missing rate, while maintaining competitive privacy guarantees. This highlights the effectiveness, robustness, and generalizability of our approach in real-world healthcare scenarios.
- Abstract(参考訳): 大規模で高品質な電子健康記録(EHRs)の不足は、特に大規模な基礎モデルがデータ不足を増すにつれ、バイオメディカル研究において大きなボトルネックとなっている。
既存のデータセットから大量の非識別データと高忠実データを合成することが、有望な解決策として浮上した。
しかし、既存の手法では、不均一なマルチモーダルEHRデータ(例えば、連続的、離散的、テキスト的モダリティ)の本質的な特性をモデル化し、それら間の複雑な依存関係を捕捉し、広範囲なデータの不完全性を頑健に扱うのに苦労している。
これらの課題は、中国伝統医学(TCM)において特に深刻である。
この目的のために,TDiff(Triplex Cascaded Diffusion Network)を提案する。これは3つの拡散ネットワークをカスケードして実世界のEHRデータの特徴を学習し,多段階生成プロセス(参照モダリティ拡散,クロスモーダルブリッジ,ターゲットモダリティ拡散)をフォーマットする新しいEHR生成フレームワークである。
さらに,2つの公開データセットに加えて,ベンチマークのための新しいマルチモーダルEHRデータセットであるTCM-SZ1を構築し,導入する。
実験結果から、TCDiffは、競争力のあるプライバシー保証を維持しながら、データの忠実度を平均10%向上させ、常に最先端のベースラインを上回っていることがわかった。
これは、現実のヘルスケアシナリオにおける我々のアプローチの有効性、堅牢性、一般化性を強調します。
関連論文リスト
- Anomaly Detection and Generation with Diffusion Models: A Survey [51.61574868316922]
異常検出(AD)は、サイバーセキュリティ、金融、医療、工業製造など、さまざまな分野において重要な役割を担っている。
近年のディープラーニング,特に拡散モデル(DM)の進歩は,大きな関心を集めている。
この調査は、研究者や実践者が様々なアプリケーションにまたがる革新的なADソリューションにDMを利用することをガイドすることを目的としている。
論文 参考訳(メタデータ) (2025-06-11T03:29:18Z) - Multi-Modal Dataset Distillation in the Wild [75.64263877043615]
そこで我々は,マルチモーダル・データセット蒸留法(MDW)を提案し,ノイズの多いマルチモーダル・データセットをコンパクトなクリーン・データセットに蒸留し,効果的かつ効率的なモデルトレーニングを行う。
具体的には、MDWは蒸留中の学習可能な微粒な対応を導入し、蒸留されたデータを適応的に最適化し、対応識別領域を強調する。
MDWの理論的および経験的有効性は、様々な圧縮比で従来の手法を15%以上上回る、顕著なスケーラビリティで検証されている。
論文 参考訳(メタデータ) (2025-06-02T12:18:20Z) - mmE5: Improving Multimodal Multilingual Embeddings via High-quality Synthetic Data [71.352883755806]
マルチモーダル埋め込みモデルは、テキストや画像などの様々なモダリティからデータを統一表現空間にマッピングする能力において、大きな注目を集めている。
しかし、ラベル付きマルチモーダルデータは、しばしば埋め込み性能を妨げる。
近年のアプローチでは、この問題に対処するためにデータ合成を活用しているが、合成データの質は依然として重大なボトルネックとなっている。
論文 参考訳(メタデータ) (2025-02-12T15:03:33Z) - Continually Evolved Multimodal Foundation Models for Cancer Prognosis [50.43145292874533]
がん予後は、患者の予後と生存率を予測する重要なタスクである。
これまでの研究では、臨床ノート、医療画像、ゲノムデータなどの多様なデータモダリティを統合し、補完的な情報を活用している。
既存のアプローチには2つの大きな制限がある。まず、各病院の患者記録など、各種のトレーニングに新しく到着したデータを組み込むことに苦慮する。
第二に、ほとんどのマルチモーダル統合手法は単純化された結合やタスク固有のパイプラインに依存しており、モダリティ間の複雑な相互依存を捉えることができない。
論文 参考訳(メタデータ) (2025-01-30T06:49:57Z) - ITCFN: Incomplete Triple-Modal Co-Attention Fusion Network for Mild Cognitive Impairment Conversion Prediction [12.893857146169045]
アルツハイマー病(英語: Alzheimer's disease、AD)は、高齢者の神経変性疾患である。
軽度認知障害(MCI)の早期予測と時間的介入は、ADに進むリスクを減少させる可能性がある。
論文 参考訳(メタデータ) (2025-01-20T05:12:31Z) - FedCVD: The First Real-World Federated Learning Benchmark on Cardiovascular Disease Data [52.55123685248105]
心臓血管疾患(CVD)は、現在世界でも主要な死因であり、早期診断と治療の要点を浮き彫りにしている。
機械学習(ML)手法はCVDの早期診断に役立つが、その性能は高品質なデータへのアクセスに依存している。
本稿では、FedCVDという心臓血管疾患検出のための、世界初の実世界のFLベンチマークを示す。
論文 参考訳(メタデータ) (2024-10-28T02:24:01Z) - Multi-OCT-SelfNet: Integrating Self-Supervised Learning with Multi-Source Data Fusion for Enhanced Multi-Class Retinal Disease Classification [2.5091334993691206]
網膜疾患診断のための堅牢なディープラーニングモデルの開発には、トレーニングのためのかなりのデータセットが必要である。
より小さなデータセットで効果的に一般化する能力は、依然として永続的な課題である。
さまざまなデータソースを組み合わせて、パフォーマンスを改善し、新しいデータに一般化しています。
論文 参考訳(メタデータ) (2024-09-17T17:22:35Z) - MMA-DFER: MultiModal Adaptation of unimodal models for Dynamic Facial Expression Recognition in-the-wild [81.32127423981426]
実世界のアプリケーションでは,音声およびビデオデータに基づくマルチモーダル感情認識が重要である。
近年の手法は、強力なマルチモーダルエンコーダの事前学習に自己教師付き学習(SSL)の進歩を活用することに重点を置いている。
SSL-pre-trained disimodal encoders を用いて,この問題に対する異なる視点とマルチモーダル DFER の性能向上について検討する。
論文 参考訳(メタデータ) (2024-04-13T13:39:26Z) - Multi-Modal Federated Learning for Cancer Staging over Non-IID Datasets with Unbalanced Modalities [9.476402318365446]
本研究では,データサンプルの不均一性だけでなく,機関間のデータモダリティの固有不均一性と不均一性を両立する新しいFLアーキテクチャを提案する。
マルチモーダルFLに適した分散勾配ブレンディングと近接対応クライアント重み付け戦略を考案した。
論文 参考訳(メタデータ) (2024-01-07T23:45:01Z) - HEALNet: Multimodal Fusion for Heterogeneous Biomedical Data [10.774128925670183]
本稿では,フレキシブルなマルチモーダル融合アーキテクチャであるHybrid Early-fusion Attention Learning Network (HEALNet)を提案する。
The Cancer Genome Atlas (TCGA) の4つのがんデータセットにおける全スライド画像と多モードデータを用いたマルチモーダルサバイバル解析を行った。
HEALNetは、他のエンドツーエンドの訓練された融合モデルと比較して最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-11-15T17:06:26Z) - Synthesizing Mixed-type Electronic Health Records using Diffusion Models [10.973115905786129]
合成データ生成は、機密性の高い患者情報を共有する際のプライバシー上の懸念を軽減するための有望なソリューションである。
近年の研究では、拡散モデルは、より現実的な合成データの生成や、画像、テキスト、音声などのデータモダリティの生成における安定したトレーニングなど、GANに対していくつかの利点があることが示された。
実験の結果,TabDDPMは,プライバシーとユーティリティのトレードオフを確認するプライバシー以外のすべての評価指標において,最先端モデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-02-28T15:42:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。