Fugu-MT 論文翻訳(概要): SynEHRgy: Synthesizing Mixed-Type Structured Electronic Health Records using Decoder-Only Transformers

論文の概要: SynEHRgy: Synthesizing Mixed-Type Structured Electronic Health Records using Decoder-Only Transformers

arxiv url: http://arxiv.org/abs/2411.13428v1
Date: Wed, 20 Nov 2024 16:11:20 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:49.523677
Title: SynEHRgy: Synthesizing Mixed-Type Structured Electronic Health Records using Decoder-Only Transformers
Title（参考訳）: SynEHRgy:デコーダオンリートランスを用いた混合型構造化電子健康記録の合成
Authors: Hojjat Karami, David Atienza, Anisoara Ionescu,
Abstract要約: 構造化EHRデータに適した新しいトークン化戦略を提案する。我々は、生成したデータの忠実度、実用性、プライバシを最先端のモデルと比較する。
参考スコア（独自算出の注目度）: 3.9018723423306003
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Generating synthetic Electronic Health Records (EHRs) offers significant potential for data augmentation, privacy-preserving data sharing, and improving machine learning model training. We propose a novel tokenization strategy tailored for structured EHR data, which encompasses diverse data types such as covariates, ICD codes, and irregularly sampled time series. Using a GPT-like decoder-only transformer model, we demonstrate the generation of high-quality synthetic EHRs. Our approach is evaluated using the MIMIC-III dataset, and we benchmark the fidelity, utility, and privacy of the generated data against state-of-the-art models.
Abstract（参考訳）: 合成電子健康記録(EHRs)の生成は、データ拡張、プライバシ保護データ共有、マシンラーニングモデルトレーニングの改善に重要な可能性を秘めている。本稿では,共変量,ICD符号,不規則サンプル時系列などの多種多様なデータ型を含む構造化ERHデータに適した新しいトークン化戦略を提案する。 GPT型デコーダのみのトランスモデルを用いて,高品質な合成EHRの生成を実証する。提案手法はMIMIC-IIIデータセットを用いて評価され, 生成したデータの忠実度, 実用性, プライバシを, 最先端モデルと比較して評価する。

関連論文リスト

A Reinforcement Learning Approach to Synthetic Data Generation [8.293402602656736]
RLSynは患者記録に対するポリシーとしてデータジェネレータをモデル化する新しいフレームワークである。我々は、プライバシー、実用性、忠実度を評価する上で、最先端のジェネレーティブ・敵ネットワーク(GAN)と拡散に基づく手法を比較検討した。
論文参考訳（メタデータ） (2025-12-24T19:26:37Z)
Generative Models for Synthetic Data: Transforming Data Mining in the GenAI Era [49.46005489386284]
このチュートリアルでは、合成データ生成の基礎と最新の進歩を紹介する。 Atendeesは、生成的合成データを活用してデータマイニングの研究と実践を強化する、実用的な洞察を得る。
論文参考訳（メタデータ） (2025-08-27T05:04:07Z)
Synthetic Data Generation and Differential Privacy using Tensor Networks' Matrix Product States (MPS) [33.032422801043495]
マトリックス製品状態(MPS)を用いたプライバシー保護のための高品質な合成データ生成手法を提案する。我々は,MPSベースの生成モデルをCTGAN,VAE,PrivBayesといった最先端モデルと比較した。以上の結果から,MPSは特に厳格なプライバシー制約の下で,従来のモデルよりも優れていたことが示唆された。
論文参考訳（メタデータ） (2025-08-08T12:14:57Z)
A Statistical Approach for Synthetic EEG Data Generation [2.5648452174203062]
本研究では,相関解析とランダムサンプリングを組み合わせて,リアルな合成脳波データを生成する手法を提案する。生の脳波と生の脳波を区別するために訓練されたランダムフォレストモデルは、偶然に高い忠実度を示す。この方法は、脳波データセットを拡張するためのスケーラブルでプライバシー保護のアプローチを提供し、メンタルヘルス研究におけるより効率的なモデルトレーニングを可能にする。
論文参考訳（メタデータ） (2025-04-22T06:48:42Z)
Scaling Laws of Synthetic Data for Language Models [132.67350443447611]
プレトレーニングコーパスを多種多様な高品質な合成データセットに変換するスケーラブルなフレームワークであるSynthLLMを紹介した。提案手法は,グラフアルゴリズムを用いて複数の文書にまたがるハイレベルな概念を自動的に抽出し,再結合することで実現している。
論文参考訳（メタデータ） (2025-03-25T11:07:12Z)
Little Giants: Synthesizing High-Quality Embedding Data at Scale [71.352883755806]
SPEEDは,オープンソースの小型モデルと協調して大規模な埋め込みデータを効率的に生成するフレームワークである。 SPEEDはGPT API呼び出しの1/10未満しか使用せず、両者が合成データのみに基づいてトレーニングされている場合、最先端の埋め込みモデルE5_mistralよりも優れている。
論文参考訳（メタデータ） (2024-10-24T10:47:30Z)
Mitigating the Privacy Issues in Retrieval-Augmented Generation (RAG) via Pure Synthetic Data [51.41288763521186]
Retrieval-augmented Generation (RAG)は、外部知識ソースから取得した関連情報を統合することにより、言語モデルの出力を強化する。 RAGシステムは、プライベートデータを取得する際に深刻なプライバシーリスクに直面する可能性がある。検索データに対するプライバシー保護の代替として,合成データを用いる方法を提案する。
論文参考訳（メタデータ） (2024-06-20T22:53:09Z)
Synthesizing Multimodal Electronic Health Records via Predictive Diffusion Models [69.06149482021071]
EHRPDと呼ばれる新しいEHRデータ生成モデルを提案する。時間間隔推定を組み込んだ拡散モデルである。我々は2つの公開データセットで実験を行い、忠実さ、プライバシー、実用性の観点からEPHPDを評価する。
論文参考訳（メタデータ） (2024-06-20T02:20:23Z)
CEHR-GPT: Generating Electronic Health Records with Chronological Patient Timelines [14.386260536090628]
我々は合成データ生成に焦点をあて、特定の患者表現を用いてGPTモデルを訓練する能力を実証する。これにより、観察医療成果パートナーシップ(OMOP)データフォーマットにシームレスに変換できる患者シーケンスを生成することができる。
論文参考訳（メタデータ） (2024-02-06T20:58:36Z)
Reimagining Synthetic Tabular Data Generation through Data-Centric AI: A Comprehensive Benchmark [56.8042116967334]
合成データは、機械学習モデルのトレーニングの代替となる。合成データが現実世界データの複雑なニュアンスを反映することを保証することは、難しい作業です。本稿では,データ中心型AI技術の統合による合成データ生成プロセスのガイドの可能性について検討する。
論文参考訳（メタデータ） (2023-10-25T20:32:02Z)
TSGM: A Flexible Framework for Generative Modeling of Synthetic Time Series [61.436361263605114]
時系列データは、研究者と産業組織間のデータの共有を妨げるため、しばしば不足または非常に敏感である。本稿では,合成時系列の生成モデリングのためのオープンソースフレームワークである時系列生成モデリング(TSGM)を紹介する。
論文参考訳（メタデータ） (2023-05-19T10:11:21Z)
Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文参考訳（メタデータ） (2023-05-16T07:30:29Z)
Synthesizing Mixed-type Electronic Health Records using Diffusion Models [10.973115905786129]
合成データ生成は、機密性の高い患者情報を共有する際のプライバシー上の懸念を軽減するための有望なソリューションである。近年の研究では、拡散モデルは、より現実的な合成データの生成や、画像、テキスト、音声などのデータモダリティの生成における安定したトレーニングなど、GANに対していくつかの利点があることが示された。実験の結果,TabDDPMは,プライバシーとユーティリティのトレードオフを確認するプライバシー以外のすべての評価指標において,最先端モデルよりも優れていることがわかった。
論文参考訳（メタデータ） (2023-02-28T15:42:30Z)
DPD-fVAE: Synthetic Data Generation Using Federated Variational Autoencoders With Differentially-Private Decoder [0.76146285961466]
そこで我々は,新たなラベル付きデータセットを合成するためのPD-fVAEを提案する。 FLとデコーダコンポーネントのみを同期させることで、エポック毎のプライバシーコストを削減できます。 MNIST, Fashion-MNIST, CelebAの評価では, DPD-fVAEの利点を示し, 競争性能を報告する。
論文参考訳（メタデータ） (2022-11-21T15:45:15Z)
TTS-CGAN: A Transformer Time-Series Conditional GAN for Biosignal Data Augmentation [5.607676459156789]
我々は,既存のマルチクラスデータセットに基づいて学習し,クラス固有の合成時系列列を生成する条件付きGANモデルであるTS-CGANを提案する。我々のモデルによって生成された合成シーケンスは、実データとは区別できないため、同じタイプの実信号の補完や置換に使うことができる。
論文参考訳（メタデータ） (2022-06-28T01:01:34Z)
Differentially Private Synthetic Medical Data Generation using Convolutional GANs [7.2372051099165065]
R'enyiの差分プライバシーを用いた合成データ生成のための差分プライベートフレームワークを開発する。提案手法は, 畳み込み自己エンコーダと畳み込み生成対向ネットワークを利用して, 生成した合成データの重要な特性をある程度保存する。私たちのモデルは、同じプライバシー予算の下で既存の最新モデルを上回ることを実証します。
論文参考訳（メタデータ） (2020-12-22T01:03:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。