論文の概要: DISCO-TAB: A Hierarchical Reinforcement Learning Framework for Privacy-Preserving Synthesis of Complex Clinical Data
- arxiv url: http://arxiv.org/abs/2604.01481v1
- Date: Wed, 01 Apr 2026 23:37:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-03 14:21:10.159793
- Title: DISCO-TAB: A Hierarchical Reinforcement Learning Framework for Privacy-Preserving Synthesis of Complex Clinical Data
- Title(参考訳): DISCO-TAB:複合臨床データのプライバシー保護のための階層的強化学習フレームワーク
- Authors: Arshia Ilaty, Hossein Shirazi, Amir Rahmani, Hajar Homayouni,
- Abstract要約: DISCO-TABは、Reinforcement Learningによって最適化された多目的識別器システムを用いて、微調整LDMをオーケストレーションする新しいフレームワークである。
私たちは、高次元の小さな医療データセットを含むさまざまなベンチマークで、私たちのフレームワークを厳格に検証しています。
以上の結果から, 階層的フィードバックは最先端の成果をもたらすことが示され, 下流の臨床的有用性は最大38.2%向上した。
- 参考スコア(独自算出の注目度): 2.3915781021862332
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The development of robust clinical decision support systems is frequently impeded by the scarcity of high-fidelity, privacy-preserving biomedical data. While Generative Large Language Models (LLMs) offer a promising avenue for synthetic data generation, they often struggle to capture the complex, non-linear dependencies and severe class imbalances inherent in Electronic Health Records (EHR), leading to statistically plausible but clinically invalid records. To bridge this gap, we introduce DISCO-TAB (DIScriminator-guided COntrol for TABular synthesis), a novel framework that orchestrates a fine-tuned LLM with a multi-objective discriminator system optimized via Reinforcement Learning. Unlike prior methods relying on scalar feedback, DISCO-TAB evaluates synthesis at four granularities, token, sentence, feature, and row, while integrating Automated Constraint Discovery and Inverse-Frequency Reward Shaping to autonomously preserve latent medical logic and resolve minority-class collapse. We rigorously validate our framework across diverse benchmarks, including high-dimensional, small-sample medical datasets (e.g., Heart Failure, Parkinson's). Our results demonstrate that hierarchical feedback yields state-of-the-art performance, achieving up to 38.2% improvement in downstream clinical classifier utility compared to GAN and Diffusion baselines, while ensuring exceptional statistical fidelity (JSD < 0.01) and robust resistance to membership inference attacks. This work establishes a new standard for generating trustworthy, utility-preserving synthetic tabular data for sensitive healthcare applications.
- Abstract(参考訳): 堅牢な臨床診断支援システムの開発は、高忠実でプライバシー保護のバイオメディカルデータの不足によってしばしば妨げられる。
生成型大規模言語モデル(LLMs)は、合成データ生成に有望な道を提供するが、電子健康記録(EHR)に固有の複雑で非線形な依存関係と深刻な階級不均衡を捉えるのにしばしば苦労し、統計的に妥当だが臨床的に無効な記録を生み出す。
このギャップを埋めるために,我々はDIScriminator-guided Control (DIScriminator-Guided Control for TABular synthesis)を導入した。
DISCO-TABは、スカラーフィードバックに依存する従来の方法とは異なり、トークン、文、特徴、行の4つの粒度で合成を評価し、自動制約発見と逆周波数リワード整形を統合して、潜在する医療論理を自律的に保存し、マイノリティクラスの崩壊を解決する。
当社のフレームワークは、高次元の小さな医療データセット(例えば、心不全、パーキンソン病など)など、さまざまなベンチマークで厳格に検証しています。
以上の結果から, 階層的フィードバックは, GAN, Diffusionベースラインと比較して, 下流臨床分類ユーティリティの38.2%向上を達成し, 異常な統計的忠実度 (JSD < 0.01) と, メンバーシップ推論攻撃に対する頑健な抵抗性を確保した。
この研究は、機密性の高い医療アプリケーションのために、信頼性が高く、実用的に保存される合成表データを生成するための新しい標準を確立します。
関連論文リスト
- Retrieval-aligned Tabular Foundation Models Enable Robust Clinical Risk Prediction in Electronic Health Records Under Real-world Constraints [6.949977336110437]
古典的, 深層的, TICLのモデルを, 様々なデータスケールで比較したベンチマークを示す。
教師付き埋め込み学習と軽量アダプタを用いたタスク整合型検索フレームワークAWAREを提案する。
論文 参考訳(メタデータ) (2026-04-02T09:56:17Z) - Cross-Linguistic Persona-Driven Data Synthesis for Robust Multimodal Cognitive Decline Detection [20.599682298329213]
我々は、制御可能なゼロショットマルチモーダルデータ合成とChain-of-Thought deductionファインチューニングを統合する新しいフレームワークであるSynCogを紹介する。
この生成パラダイムは、様々な言語にまたがる臨床コーパスの迅速でゼロショット展開を可能にする。
ADReSSとADReSSoベンチマークの実験は、限られた臨床データを合成表現型で増強することで、競争力のある診断性能が得られることを示した。
論文 参考訳(メタデータ) (2026-02-08T14:10:05Z) - A Federated and Parameter-Efficient Framework for Large Language Model Training in Medicine [59.78991974851707]
大規模言語モデル(LLM)は、質問応答や診断など、医療ベンチマークにおいて強力なパフォーマンスを示している。
ほとんどの医療用LDMは、異種システムの一般化性と安全性の制限に直面している単一の機関のデータに基づいて訓練されている。
本稿では, LLMを医療応用に適用するためのモデルに依存しない, パラメータ効率のよいフェデレーション学習フレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-29T18:48:21Z) - Improving Cardiac Risk Prediction Using Data Generation Techniques [37.94487163156369]
本研究は,実世界の観測と整合したリアルな臨床記録の合成のためのアーキテクチャを提案する。
主な目的は、心的リスク予測モデルの性能を高めるため、利用可能なデータセットのサイズと多様性を高めることである。
論文 参考訳(メタデータ) (2025-12-19T10:17:00Z) - A Hybrid Machine Learning Approach for Synthetic Data Generation with Post Hoc Calibration for Clinical Tabular Datasets [0.9940728137241215]
医療研究と開発は、データ不足と厳格なプライバシー規制のために重大な障害に直面している。
患者プライバシを保護しながら、実際のデータ統計をエミュレートする人工データセットを作成します。
このスケーラブルでプライバシ保護のアプローチは、最先端の手法と一致し、医療における共同配布の忠実性のための新しいベンチマークを設定します。
論文 参考訳(メタデータ) (2025-10-12T09:23:43Z) - SynLLM: A Comparative Analysis of Large Language Models for Medical Tabular Synthetic Data Generation via Prompt Engineering [1.5020330976600738]
オープンソースのLarge Language Modelsを用いて高品質な合成医療データを生成するためのモジュラーフレームワークであるSynLLMを提案する。
SynLLMは糖尿病, 硬変, ストロークを含む3つの公的医療データセットで評価した。
以上の結果から,プロンプトエンジニアリングがデータ品質とプライバシリスクに大きく影響し,ルールベースのプロンプトが最高のプライバシ品質バランスを達成することが示唆された。
論文 参考訳(メタデータ) (2025-08-11T23:56:42Z) - Clinical NLP with Attention-Based Deep Learning for Multi-Disease Prediction [44.0876796031468]
本稿では,電子健康記録テキストの非構造的性質と高次元意味論的複雑さがもたらす課題について論じる。
情報抽出と多ラベル病予測のための統合モデリングを実現するために,注意機構に基づく深層学習手法を提案する。
論文 参考訳(メタデータ) (2025-07-02T07:45:22Z) - Machine Learning for ALSFRS-R Score Prediction: Making Sense of the Sensor Data [44.99833362998488]
筋萎縮性側索硬化症(Amyotrophic Lateral Sclerosis、ALS)は、急速に進行する神経変性疾患である。
iDPP@CLEF 2024チャレンジを先導した今回の調査は,アプリから得られるセンサデータを活用することに焦点を当てている。
論文 参考訳(メタデータ) (2024-07-10T19:17:23Z) - Improving Multiple Sclerosis Lesion Segmentation Across Clinical Sites:
A Federated Learning Approach with Noise-Resilient Training [75.40980802817349]
深層学習モデルは、自動的にMS病変を分節する約束を示しているが、正確な注釈付きデータの不足は、この分野の進歩を妨げている。
我々は,MS病変の不均衡分布とファジィ境界を考慮したDecoupled Hard Label Correction(DHLC)戦略を導入する。
また,集約型中央モデルを利用したCELC(Centrally Enhanced Label Correction)戦略も導入した。
論文 参考訳(メタデータ) (2023-08-31T00:36:10Z) - TREEMENT: Interpretable Patient-Trial Matching via Personalized Dynamic
Tree-Based Memory Network [54.332862955411656]
臨床試験は薬物開発に不可欠であるが、しばしば高価で非効率な患者募集に苦しむ。
近年,患者と臨床試験を自動マッチングすることで患者採用を高速化する機械学習モデルが提案されている。
本稿では,TREement という名前の動的ツリーベースメモリネットワークモデルを導入する。
論文 参考訳(メタデータ) (2023-07-19T12:35:09Z) - Bootstrapping Your Own Positive Sample: Contrastive Learning With
Electronic Health Record Data [62.29031007761901]
本稿では,新しいコントラスト型正規化臨床分類モデルを提案する。
EHRデータに特化した2つのユニークなポジティブサンプリング戦略を紹介します。
私たちのフレームワークは、現実世界のCOVID-19 EHRデータの死亡リスクを予測するために、競争の激しい実験結果をもたらします。
論文 参考訳(メタデータ) (2021-04-07T06:02:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。