論文の概要: DANIEL: A Distributed and Scalable Approach for Global Representation Learning with EHR Applications
- arxiv url: http://arxiv.org/abs/2511.02754v1
- Date: Tue, 04 Nov 2025 17:35:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 18:47:06.122458
- Title: DANIEL: A Distributed and Scalable Approach for Global Representation Learning with EHR Applications
- Title(参考訳): DANIEL: EHRアプリケーションによるグローバル表現学習のための分散的でスケーラブルなアプローチ
- Authors: Zebin Wang, Ziming Gan, Weijing Tang, Zongqi Xia, Tianrun Cai, Tianxi Cai, Junwei Lu,
- Abstract要約: 確率的クラスタリングモデルは、現代のデータ環境において根本的な課題に直面します。
分散フレームワークを開発し、バイナリデータからスケーラブルでプライバシ表現を学習する。
本アルゴリズムは,多施設電子健康記録(EHR)データセットを用いて評価する。
- 参考スコア(独自算出の注目度): 8.530466871734564
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Classical probabilistic graphical models face fundamental challenges in modern data environments, which are characterized by high dimensionality, source heterogeneity, and stringent data-sharing constraints. In this work, we revisit the Ising model, a well-established member of the Markov Random Field (MRF) family, and develop a distributed framework that enables scalable and privacy-preserving representation learning from large-scale binary data with inherent low-rank structure. Our approach optimizes a non-convex surrogate loss function via bi-factored gradient descent, offering substantial computational and communication advantages over conventional convex approaches. We evaluate our algorithm on multi-institutional electronic health record (EHR) datasets from 58,248 patients across the University of Pittsburgh Medical Center (UPMC) and Mass General Brigham (MGB), demonstrating superior performance in global representation learning and downstream clinical tasks, including relationship detection, patient phenotyping, and patient clustering. These results highlight a broader potential for statistical inference in federated, high-dimensional settings while addressing the practical challenges of data complexity and multi-institutional integration.
- Abstract(参考訳): 古典的確率的グラフィカルモデルは、高次元性、ソースの不均一性、厳密なデータ共有制約を特徴とする、現代のデータ環境における根本的な課題に直面している。
本研究では,Markov Random Field (MRF) ファミリーの確立されたメンバであるIsingモデルを再検討し,大規模バイナリデータから低ランクな構造を持つスケーラブルでプライバシ保護された表現学習を実現する分散フレームワークを開発する。
提案手法は,二要素勾配勾配による非凸代理損失関数を最適化し,従来の凸法よりも計算的および通信的優位性を実現する。
我々は,ピッツバーグ大学医学センター(UPMC)とブリガム大学(MGB)の58,248人の患者を対象に,多施設間電子健康記録(EHR)データセットを用いてアルゴリズムの評価を行った。
これらの結果は、データ複雑性と多施設統合の実践的な課題に対処しつつ、フェデレーション付き高次元設定における統計的推測の幅広い可能性を強調している。
関連論文リスト
- Integrating Genomics into Multimodal EHR Foundation Models [56.31910745104141]
本稿では,ポリジェニックリスクスコア(PRS)を基本データモダリティとして統合した,革新的なEHR基盤モデルを提案する。
このフレームワークは、臨床データと遺伝子前置詞の複雑な関係を学習することを目的としている。
このアプローチは、病気の予測、積極的な健康管理、リスク階層化、パーソナライズされた治療戦略に対する新たな洞察を解放するために重要である。
論文 参考訳(メタデータ) (2025-10-24T15:56:40Z) - Adapting HFMCA to Graph Data: Self-Supervised Learning for Generalizable fMRI Representations [57.054499278843856]
機能的磁気共鳴画像(fMRI)解析は、データセットのサイズが限られ、研究間でのドメインの変動が原因で大きな課題に直面している。
コンピュータビジョンにインスパイアされた従来の自己教師付き学習手法は、正と負のサンプルペアに依存することが多い。
本稿では,最近開発された階層関数最大相関アルゴリズム(HFMCA)をグラフ構造fMRIデータに適用することを提案する。
論文 参考訳(メタデータ) (2025-10-05T12:35:01Z) - Adaptable Cardiovascular Disease Risk Prediction from Heterogeneous Data using Large Language Models [70.64969663547703]
AdaCVDは、英国バイオバンクから50万人以上の参加者を対象に、大規模な言語モデルに基づいて構築された適応可能なCVDリスク予測フレームワークである。
包括的かつ可変的な患者情報を柔軟に取り込み、構造化データと非構造化テキストの両方をシームレスに統合し、最小限の追加データを使用して新規患者の集団に迅速に適応する。
論文 参考訳(メタデータ) (2025-05-30T14:42:02Z) - Semi-supervised Clustering Through Representation Learning of Large-scale EHR Data [5.591260685112265]
SCOREは、患者埋め込みを通じて多領域の疾患プロファイルをキャプチャする半教師付き表現学習フレームワークである。
大規模データの計算課題に対処するため、ハイブリッド期待最大化(EM)とガウス変分近似(GVA)アルゴリズムを導入している。
分析の結果,ラベル付きデータの導入により精度が向上し,ラベル不足に対する感度が低下することがわかった。
論文 参考訳(メタデータ) (2025-05-27T05:20:17Z) - A Foundational Brain Dynamics Model via Stochastic Optimal Control [15.8358479596609]
最適制御(SOC)と償却推論を利用する脳力学の基礎モデルを提案する。
本手法は,fMRI信号の複雑なノイズ特性を頑健に扱える連続離散状態空間モデル(SSM)を特徴とする。
我々のモデルは、人口統計予測、形質分析、疾患診断、予後など、さまざまな下流課題において最先端の結果が得られる。
論文 参考訳(メタデータ) (2025-02-07T12:57:26Z) - Multi-OCT-SelfNet: Integrating Self-Supervised Learning with Multi-Source Data Fusion for Enhanced Multi-Class Retinal Disease Classification [2.5091334993691206]
網膜疾患診断のための堅牢なディープラーニングモデルの開発には、トレーニングのためのかなりのデータセットが必要である。
より小さなデータセットで効果的に一般化する能力は、依然として永続的な課題である。
さまざまなデータソースを組み合わせて、パフォーマンスを改善し、新しいデータに一般化しています。
論文 参考訳(メタデータ) (2024-09-17T17:22:35Z) - Addressing Data Heterogeneity in Federated Learning of Cox Proportional Hazards Models [8.798959872821962]
本稿では,フェデレーションサバイバル分析の分野,特にCox Proportional Hazards(CoxPH)モデルについて概説する。
本稿では,合成データセットと実世界のアプリケーション間のモデル精度を向上させるために,特徴ベースのクラスタリングを用いたFLアプローチを提案する。
論文 参考訳(メタデータ) (2024-07-20T18:34:20Z) - Differentiable Agent-based Epidemiology [71.81552021144589]
GradABM(GradABM)は、エージェントベースのモデリングのためのスケーラブルで微分可能な設計で、勾配に基づく学習と自動微分が可能である。
GradABMは、コモディティハードウェア上で数秒で数百万の人口をシミュレートし、ディープニューラルネットワークと統合し、異種データソースを取り込みます。
論文 参考訳(メタデータ) (2022-07-20T07:32:02Z) - Bootstrapping Your Own Positive Sample: Contrastive Learning With
Electronic Health Record Data [62.29031007761901]
本稿では,新しいコントラスト型正規化臨床分類モデルを提案する。
EHRデータに特化した2つのユニークなポジティブサンプリング戦略を紹介します。
私たちのフレームワークは、現実世界のCOVID-19 EHRデータの死亡リスクを予測するために、競争の激しい実験結果をもたらします。
論文 参考訳(メタデータ) (2021-04-07T06:02:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。