論文の概要: PEHRT: A Common Pipeline for Harmonizing Electronic Health Record data for Translational Research
- arxiv url: http://arxiv.org/abs/2509.08553v1
- Date: Wed, 10 Sep 2025 12:59:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-11 15:16:52.424059
- Title: PEHRT: A Common Pipeline for Harmonizing Electronic Health Record data for Translational Research
- Title(参考訳): PEHRT:翻訳研究のための電子健康記録データの調和のための共通パイプライン
- Authors: Jessica Gronsbell, Vidul Ayakulangara Panickan, Chris Lin, Thomas Charlon, Chuan Hong, Doudou Zhou, Linshanshan Wang, Jianhui Gao, Shirley Zhou, Yuan Tian, Yaqi Shi, Ziming Gan, Tianxi Cai,
- Abstract要約: $textitPEHRT$は効率的なEHRデータ調和のための標準化されたパイプラインである。
PEHRTは、EHRデータを標準的なコーディングシステムにマッピングし、高度な機械学習を使用して研究可能なデータセットを生成する。
我々は、ユーザフレンドリーなチュートリアルを伴って、オープンソースソフトウェアの完全なスイートを提供し、多様な医療システムからのデータを用いて、様々なタスクにおけるPEHRTの有用性を実証する。
- 参考スコア(独自算出の注目度): 9.99981188138716
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Integrative analysis of multi-institutional Electronic Health Record (EHR) data enhances the reliability and generalizability of translational research by leveraging larger, more diverse patient cohorts and incorporating multiple data modalities. However, harmonizing EHR data across institutions poses major challenges due to data heterogeneity, semantic differences, and privacy concerns. To address these challenges, we introduce $\textit{PEHRT}$, a standardized pipeline for efficient EHR data harmonization consisting of two core modules: (1) data pre-processing and (2) representation learning. PEHRT maps EHR data to standard coding systems and uses advanced machine learning to generate research-ready datasets without requiring individual-level data sharing. Our pipeline is also data model agnostic and designed for streamlined execution across institutions based on our extensive real-world experience. We provide a complete suite of open source software, accompanied by a user-friendly tutorial, and demonstrate the utility of PEHRT in a variety of tasks using data from diverse healthcare systems.
- Abstract(参考訳): 多施設電子健康記録(EHR)データの統合分析は、より大きく多様な患者コホートを活用し、複数のデータモダリティを取り入れることで、翻訳研究の信頼性と一般化性を高める。
しかし、機関間でのEHRデータの調和は、データの異質性、セマンティックな違い、プライバシー上の懸念などによる大きな課題を引き起こす。
これらの課題に対処するために、(1)データ前処理と(2)表現学習という2つのコアモジュールからなる効率的なEHRデータ調和のための標準化パイプラインである$\textit{PEHRT}$を紹介した。
PEHRTは、EHRデータを標準的なコーディングシステムにマッピングし、高度な機械学習を使用して、個々のレベルのデータ共有を必要とせずに研究可能なデータセットを生成する。
当社のパイプラインはデータモデル非依存で、私たちの広範な実世界の経験に基づいて、機関間での合理化された実行用に設計されています。
我々は,ユーザフレンドリなチュートリアルを伴って,オープンソースソフトウェアの完全なスイートを提供し,多様な医療システムからのデータを用いて,さまざまなタスクにおけるPEHRTの有用性を実証する。
関連論文リスト
- The CRITICAL Records Integrated Standardization Pipeline (CRISP): End-to-End Processing of Large-scale Multi-institutional OMOP CDM Data [1.3724581418672368]
このデータセットは、地理的に多様な4つのCTSA機関にわたる371,365人の患者の95億件の記録を含んでいる。
CRITICALのユニークな強みは、ICU前、ICU前、ICU後など、フルスペクトルの患者旅行を捉えることである。
この貴重なリソースの可能性を最大限に活用するためにCRISPを提示する。
論文 参考訳(メタデータ) (2025-09-10T03:06:24Z) - DR.EHR: Dense Retrieval for Electronic Health Record with Knowledge Injection and Synthetic Data [2.9929405444223205]
EHRは臨床実践において重要な役割を担っているが、その検索は主に意味的ギャップの問題によって困難である。
近年の高密度検索の進歩は有望なソリューションを提供するが、医療知識の不足やトレーニングコーパスのミスマッチにより、一般ドメインとバイオメディカルドメインの両方の既存のモデルは不足している。
本稿では,EHR検索に適した高密度検索モデルであるtexttDR.EHRを紹介する。
論文 参考訳(メタデータ) (2025-07-24T17:02:46Z) - A Unified Data Representation Learning for Non-parametric Two-sample Testing [50.27067977793069]
本稿では,表現学習型2サンプルテスト(RL-TST)フレームワークを提案する。
RL-TSTはまず、データセット全体に対して純粋に自己教師付き表現学習を行う。
識別モデルはこれらの赤外線で訓練され、識別表現(DR)を学習する。
論文 参考訳(メタデータ) (2024-11-30T23:23:52Z) - Tackling Data Heterogeneity in Federated Time Series Forecasting [61.021413959988216]
時系列予測は、エネルギー消費予測、病気の伝染モニタリング、天気予報など、様々な実世界の応用において重要な役割を果たす。
既存のほとんどのメソッドは、分散デバイスから中央クラウドサーバに大量のデータを収集する、集中的なトレーニングパラダイムに依存しています。
本稿では,情報合成データを補助的知識キャリアとして生成することにより,データの均一性に対処する新しいフレームワークであるFed-TRENDを提案する。
論文 参考訳(メタデータ) (2024-11-24T04:56:45Z) - Putting Data at the Centre of Offline Multi-Agent Reinforcement Learning [3.623224034411137]
オフラインマルチエージェント強化学習(英語: offline multi-agent reinforcement learning, MARL)は、静的データセットを用いてマルチエージェントシステムの最適制御ポリシーを見つける研究のエキサイティングな方向である。
この分野は定義上はデータ駆動型だが、これまでのところ、最先端の結果を達成するための努力は、データを無視してきた。
研究の大部分は、一貫した方法論を使わずに独自のデータセットを生成し、これらのデータセットの特徴に関するまばらな情報を提供する。
論文 参考訳(メタデータ) (2024-09-18T14:13:24Z) - Multi-Modal Dataset Creation for Federated Learning with DICOM Structured Reports [26.2463670182172]
フェデレーショントレーニングは、多種多様なデータストレージオプション、一貫性のない命名方式、さまざまなアノテーション手順、ラベル品質の相違により、しばしば異種データセットによって妨げられる。
これは、均一なデータ表現とフィルタリングオプションを含むデータセット調和が最重要となる、新興のマルチモーダル学習パラダイムにおいて特に顕著である。
我々は、マルチモーダルデータセットの組み立てプロセスを簡単にする、データ統合と対話型フィルタリング機能のためのオープンプラットフォームを開発した。
論文 参考訳(メタデータ) (2024-07-12T07:34:10Z) - A Versatile Data Fabric for Advanced IoT-Based Remote Health Monitoring [0.8789651809819904]
本稿では,デジタルヘルスアプリケーション用に設計された,データ中心でセキュリティを重視したデータファブリックについて述べる。
提案するデータファブリックは、異種データソースの統合を容易にするアーキテクチャとツールキットから構成される。
本稿では,高齢者を対象とした在宅遠隔監視研究プロジェクトにおいて,データファブリックの実装について紹介する。
論文 参考訳(メタデータ) (2023-10-02T22:05:48Z) - Data Sampling Affects the Complexity of Online SGD over Dependent Data [54.92366535993012]
本研究では,データサンプリング方式の違いが,高依存データに対するオンライン勾配勾配勾配の複雑さにどのように影響するかを示す。
データサンプルのサブサンプリングさえも、高度に依存したデータに対するオンラインSGDの収束を加速することができる。
論文 参考訳(メタデータ) (2022-03-31T07:48:30Z) - Deep Reinforcement Learning Assisted Federated Learning Algorithm for
Data Management of IIoT [82.33080550378068]
産業用IoT(Industrial Internet of Things)の継続的な拡大により、IIoT機器は毎回大量のユーザデータを生成する。
IIoTの分野で、これらの時系列データを効率的かつ安全な方法で管理する方法は、依然として未解決の問題である。
本稿では,無線ネットワーク環境におけるIIoT機器データ管理におけるFL技術の適用について検討する。
論文 参考訳(メタデータ) (2022-02-03T07:12:36Z) - Unsupervised Domain Adaptive Learning via Synthetic Data for Person
Re-identification [101.1886788396803]
人物再識別(re-ID)は、ビデオ監視に広く応用されているため、ますます注目を集めている。
残念なことに、主流のディープラーニング手法では、モデルをトレーニングするために大量のラベル付きデータが必要です。
本稿では,コンピュータゲーム内で合成されたre-IDサンプルを自動的に生成するデータコレクタを開発し,同時にアノテートするデータラベラを構築した。
論文 参考訳(メタデータ) (2021-09-12T15:51:41Z) - Multi-modal AsynDGAN: Learn From Distributed Medical Image Data without
Sharing Private Information [55.866673486753115]
プライバシーとセキュリティを守るために拡張可能で弾力性のある学習フレームワークを提案します。
提案するフレームワークは分散Asynchronized Discriminator Generative Adrial Networks (AsynDGAN) である。
論文 参考訳(メタデータ) (2020-12-15T20:41:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。