論文の概要: meds_reader: A fast and efficient EHR processing library
- arxiv url: http://arxiv.org/abs/2409.09095v2
- Date: Fri, 15 Nov 2024 04:48:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-18 18:55:22.791102
- Title: meds_reader: A fast and efficient EHR processing library
- Title(参考訳): meds_reader: 高速で効率的なEHR処理ライブラリ
- Authors: Ethan Steinberg, Michael Wornow, Suhana Bedi, Jason Alan Fries, Matthew B. A. McDermott, Nigam H. Shah,
- Abstract要約: meds_readerは効率的なEHRデータ処理のための最適化されたPythonパッケージである。
2つの主要なEHR処理パイプラインのキーコンポーネントを再実装することで、meds_readerの利点を実証する。
- 参考スコア(独自算出の注目度): 6.1110396688576065
- License:
- Abstract: The growing demand for machine learning in healthcare requires processing increasingly large electronic health record (EHR) datasets, but existing pipelines are not computationally efficient or scalable. In this paper, we introduce meds_reader, an optimized Python package for efficient EHR data processing that is designed to take advantage of many intrinsic properties of EHR data for improved speed. We then demonstrate the benefits of meds_reader by reimplementing key components of two major EHR processing pipelines, achieving 10-100x improvements in memory, speed, and disk usage. The code for meds_reader can be found at https://github.com/som-shahlab/meds_reader.
- Abstract(参考訳): 医療における機械学習の需要の増加は、ますます大きな電子健康記録(EHR)データセットを処理する必要があるが、既存のパイプラインは計算効率が良く、スケーラブルではない。
本稿では,効率的なEHRデータ処理のために最適化されたPythonパッケージであるmeds_readerを紹介する。
次に、主要な2つのEHR処理パイプラインのキーコンポーネントを再実装し、メモリ、スピード、ディスク使用率を10~100倍改善することで、meds_readerの利点を実証する。
meds_readerのコードはhttps://github.com/som-shahlab/meds_readerにある。
関連論文リスト
- Efficient Tabular Data Preprocessing of ML Pipelines [9.23424733090734]
データ前処理パイプラインは機械学習(ML)トレーニングの重要なコンポーネントである。
Piperは、データ前処理のためのハードウェアアクセラレータで、FPGA上でプロトタイプし、商用レコメンデータシステムのパイプラインをトレーニングする可能性を実証している。
Piperは128コアのCPUサーバ上でのレイテンシの高速化を4.7$sim$ 71.3$times$達成し、バイナリ入力を使用する場合のデータセンタGPUの4.8$sim$ 20.3$times$を上回っている。
論文 参考訳(メタデータ) (2024-09-23T11:07:57Z) - DocMamba: Efficient Document Pre-training with State Space Model [56.84200017560988]
本稿では,状態空間モデルに基づく新しいフレームワークDocMambaを紹介する。
グローバルなモデリング能力を保ちながら、計算複雑性を線形に減らすように設計されている。
HRDocの実験では、DocMambaの長さ外挿の可能性が確認された。
論文 参考訳(メタデータ) (2024-09-18T11:34:28Z) - Efficient Graph Encoder Embedding for Large Sparse Graphs in Python [3.5374094795720854]
グラフ埋め込み(GEE)は最も高速なグラフ埋め込み技術として示されており、様々なネットワークデータアプリケーションに適している。
GEEの改良版であるスパースGEEを提案し、スパース行列におけるゼロエントリの計算と保存を最適化し、ランニング時間をさらに向上する。
実験により, スパース版は, 大規模なスパースグラフをPythonで実装したオリジナルのGEEと比較して, 大幅な高速化を実現しており, スパースGEEは標準ラップトップで数分で数百万のエッジを処理することができることがわかった。
論文 参考訳(メタデータ) (2024-06-06T03:49:34Z) - Semi-Parametric Retrieval via Binary Token Index [71.78109794895065]
Semi-parametric Vocabulary Disentangled Retrieval (SVDR) は、新しい半パラメトリック検索フレームワークである。
既存のニューラル検索手法に似た、高い有効性のための埋め込みベースのインデックスと、従来の用語ベースの検索に似た、迅速かつ費用対効果の高いセットアップを可能にするバイナリトークンインデックスの2つのタイプをサポートする。
埋め込みベースインデックスを使用する場合の高密度検索器DPRよりも3%高いトップ1検索精度と、バイナリトークンインデックスを使用する場合のBM25よりも9%高いトップ1検索精度を実現する。
論文 参考訳(メタデータ) (2024-05-03T08:34:13Z) - High Performance Computing Applied to Logistic Regression: A CPU and GPU
Implementation Comparison [0.0]
汎用GPUによるロジスティック回帰(LR)の並列バージョンを提案する。
我々の実装は、X. Zouらによって提案された並列なグラディエントDescent Logistic Regressionアルゴリズムの直接変換である。
本手法は,画像認識,スパム検出,不正検出などのリアルタイム予測に特に有用である。
論文 参考訳(メタデータ) (2023-08-19T14:49:37Z) - Efficient Joint Learning for Clinical Named Entity Recognition and
Relation Extraction Using Fourier Networks: A Use Case in Adverse Drug Events [0.11470070927586018]
臨床情報抽出への現在のアプローチは、計算コストとメモリ消費の点で非効率である。
可変長文書に対する名前付きエンティティ認識と関係抽出のタスクを協調的に学習するための,効率的なエンドツーエンドモデルであるJoint-NER-RE-Fourier (JNRF)を提案する。
その結果、提案手法は22倍高速で、GPUメモリ使用量を1.75倍に削減し、適切なパフォーマンストレードオフは90%であることがわかった。
論文 参考訳(メタデータ) (2023-02-08T16:44:27Z) - PARTIME: Scalable and Parallel Processing Over Time with Deep Neural
Networks [68.96484488899901]
PartIMEは、データが継続的にストリーミングされるたびにニューラルネットワークを高速化するように設計されたライブラリです。
PartIMEは、ストリームから利用可能になった時点で、各データサンプルの処理を開始する。
オンライン学習において、PartialIMEと古典的な非並列ニューラル計算を経験的に比較するために実験が行われる。
論文 参考訳(メタデータ) (2022-10-17T14:49:14Z) - NumS: Scalable Array Programming for the Cloud [82.827921577004]
タスクベース分散システム上でNumPyのような表現を最適化する配列プログラミングライブラリであるNumSを提案する。
これはLoad Simulated Hierarchical Scheduling (LSHS)と呼ばれる新しいスケジューラによって実現される。
LSHSは、ネットワーク負荷を2倍減らし、メモリを4倍減らし、ロジスティック回帰問題において実行時間を10倍減らし、Rayの性能を向上させる。
論文 参考訳(メタデータ) (2022-06-28T20:13:40Z) - Injecting Domain Adaptation with Learning-to-hash for Effective and
Efficient Zero-shot Dense Retrieval [49.98615945702959]
我々は,TAS-B高密度検索器の下流ゼロショット検索精度を向上させるためのLTHおよびベクトル圧縮技術を評価する。
以上の結果から, 従来の研究とは異なり, LTH法はゼロショットTAS-B高密度レトリバーを平均14%のnDCG@10で過小評価できることがわかった。
論文 参考訳(メタデータ) (2022-05-23T17:53:44Z) - IRLI: Iterative Re-partitioning for Learning to Index [104.72641345738425]
分散環境でのロードバランスとスケーラビリティを維持しながら、高い精度を得る方法とのトレードオフが必要だ。
クエリ項目関連データから直接バケットを学習することで、アイテムを反復的に分割するIRLIと呼ばれる新しいアプローチを提案する。
我々は,irliが極めて自然な仮定の下で高い確率で正しい項目を検索し,優れた負荷分散を実現することを数学的に示す。
論文 参考訳(メタデータ) (2021-03-17T23:13:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。