論文の概要: Distributed Record Linkage in Healthcare Data with Apache Spark
- arxiv url: http://arxiv.org/abs/2404.07939v1
- Date: Sat, 9 Mar 2024 05:18:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-14 13:13:23.199385
- Title: Distributed Record Linkage in Healthcare Data with Apache Spark
- Title(参考訳): Apache Sparkによるヘルスケアデータの分散レコードリンク
- Authors: Mohammad Heydari, Reza Sarshar, Mohammad Ali Soltanshahi,
- Abstract要約: 我々はApache Spark Machine Learningライブラリに基づいた分散データマッチングモデルを開発した。
以上の結果から, 研究データは過度に適合せず, 過度に適合していないことが示され, この結果から, モデルがデータに対して良好に機能していることが示唆された。
- 参考スコア(独自算出の注目度): 0.9217021281095907
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Healthcare data is a valuable resource for research, analysis, and decision-making in the medical field. However, healthcare data is often fragmented and distributed across various sources, making it challenging to combine and analyze effectively. Record linkage, also known as data matching, is a crucial step in integrating and cleaning healthcare data to ensure data quality and accuracy. Apache Spark, a powerful open-source distributed big data processing framework, provides a robust platform for performing record linkage tasks with the aid of its machine learning library. In this study, we developed a new distributed data-matching model based on the Apache Spark Machine Learning library. To ensure the correct functioning of our model, the validation phase has been performed on the training data. The main challenge is data imbalance because a large amount of data is labeled false, and a small number of records are labeled true. By utilizing SVM and Regression algorithms, our results demonstrate that research data was neither over-fitted nor under-fitted, and this shows that our distributed model works well on the data.
- Abstract(参考訳): 医療データは医療分野の研究、分析、意思決定に貴重な資源である。
しかし、医療データは断片化され、様々なソースに分散されることが多いため、効果的に組み合わせて分析することは困難である。
データマッチングとしても知られるレコードリンクは、データ品質と正確性を保証するために、医療データの統合とクリーニングにおいて重要なステップである。
オープンソースの分散ビッグデータ処理フレームワークApache Sparkは、同社の機械学習ライブラリの助けを借りて、レコードリンケージタスクを実行するための堅牢なプラットフォームを提供する。
本研究では,Apache Spark Machine Learningライブラリに基づく分散データマッチングモデルを開発した。
モデルの正しい機能を保証するため、トレーニングデータ上で検証フェーズが実施されている。
主な課題は、大量のデータが偽であるとラベル付けされ、少数のレコードが真であるとラベル付けされるため、データの不均衡である。
SVMとRegressionのアルゴリズムを利用することで、研究データが過度に適合したり、不適当であったりすることはなく、我々の分散モデルがデータに対してうまく機能していることを示す。
関連論文リスト
- Dataset Distillation-based Hybrid Federated Learning on Non-IID Data [19.01147151081893]
本稿では,データセット蒸留を統合して,独立および等分散(IID)データを生成するハイブリッド・フェデレーション学習フレームワークHFLDDを提案する。
クライアントを異種クラスタに分割し、クラスタ内の異なるクライアント間でのデータラベルがバランスが取れないようにします。
このトレーニングプロセスは、従来のIDデータに対するフェデレーション学習に似ているため、モデルトレーニングにおける非IIDデータの影響を効果的に軽減する。
論文 参考訳(メタデータ) (2024-09-26T03:52:41Z) - Training on the Benchmark Is Not All You Need [52.01920740114261]
本稿では,複数選択肢の内容に基づいた簡易かつ効果的なデータ漏洩検出手法を提案する。
本手法は,モデルトレーニングデータや重みを使用せずに,ブラックボックス条件下で動作することができる。
我々は,4つのベンチマークデータセットを用いて,31個の主要なオープンソースLCMのデータ漏洩の程度を評価する。
論文 参考訳(メタデータ) (2024-09-03T11:09:44Z) - Scaling Laws for Data Filtering -- Data Curation cannot be Compute Agnostic [99.3682210827572]
ビジョン言語モデル(VLM)は、慎重にキュレートされたWebデータセット上で数千のGPU時間でトレーニングされる。
データキュレーション戦略は通常、トレーニングに利用可能な計算を知らないように開発されている。
ウェブデータの非均一性を考慮したニューラルスケーリング法則を導入する。
論文 参考訳(メタデータ) (2024-04-10T17:27:54Z) - Federated Learning on Transcriptomic Data: Model Quality and Performance
Trade-Offs [0.0]
大規模なゲノムまたは転写データの機械学習は、多くの新しい健康アプリケーションにとって重要である。
プライバシーと規制上の理由から、信頼できるサードパーティですべてのデータを集約することも問題となる。
生データを交換することなく、分散型で協調的な機械学習を可能にするため、フェデレーション学習は有望なソリューションである。
論文 参考訳(メタデータ) (2024-02-22T13:21:26Z) - Machine Learning Based Missing Values Imputation in Categorical Datasets [2.5611256859404983]
この研究では、分類データセットのギャップを埋めるための機械学習アルゴリズムの使用について検討した。
Error Correction Output Codesフレームワークを使用して構築されたアンサンブルモデルに重点が置かれた。
大量のラベル付きデータの要求を含む、これらの奨励的な結果にもかかわらず、データ計算の欠如に対する深い学習には障害がある。
論文 参考訳(メタデータ) (2023-06-10T03:29:48Z) - Learning from aggregated data with a maximum entropy model [73.63512438583375]
我々は,観測されていない特徴分布を最大エントロピー仮説で近似することにより,ロジスティック回帰と類似した新しいモデルが,集約データからのみ学習されることを示す。
我々は、この方法で学習したモデルが、完全な非凝集データでトレーニングされたロジスティックモデルに匹敵するパフォーマンスを達成することができるという、いくつかの公開データセットに関する実証的な証拠を提示する。
論文 参考訳(メタデータ) (2022-10-05T09:17:27Z) - Too Fine or Too Coarse? The Goldilocks Composition of Data Complexity
for Robust Left-Right Eye-Tracking Classifiers [0.0]
我々は、細粒度データと粗粒度データの両方からなる混合データセットを用いて機械学習モデルを訓練する。
我々の目的のために、細粒度データはより複雑な方法で収集されたデータを指すのに対し、粗粒度データはより単純な方法で収集されたデータを指す。
論文 参考訳(メタデータ) (2022-08-24T23:18:08Z) - Data-SUITE: Data-centric identification of in-distribution incongruous
examples [81.21462458089142]
Data-SUITEは、ID(In-distriion)データの不連続領域を特定するためのデータ中心のフレームワークである。
我々は,Data-SUITEの性能保証とカバレッジ保証を実証的に検証する。
論文 参考訳(メタデータ) (2022-02-17T18:58:31Z) - A communication efficient distributed learning framework for smart
environments [0.4898659895355355]
本稿では,データ生成箇所にデータ分析を近づける分散学習フレームワークを提案する。
分散機械学習技術を使用することで、クラウドソリューションに匹敵するパフォーマンスを確保しながら、ネットワークオーバーヘッドを大幅に削減することができる。
分析はまた、ノード上のデータの特定の分布に基づいて、各分散学習アプローチがいつ好ましいかを示す。
論文 参考訳(メタデータ) (2021-09-27T13:44:34Z) - Hidden Biases in Unreliable News Detection Datasets [60.71991809782698]
データ収集中の選択バイアスがデータセットの望ましくないアーティファクトにつながることを示す。
クリーンスプリットでテストされたすべてのモデルに対して,列車/テストソースの重なりが無く,精度が大幅に低下した(>10%)。
将来的なデータセット生成には、困難/バイアスプローブとしての単純なモデルと、クリーンな非重複サイトと日付分割を使用する将来のモデル開発が含まれることを提案する。
論文 参考訳(メタデータ) (2021-04-20T17:16:41Z) - Self-Training with Improved Regularization for Sample-Efficient Chest
X-Ray Classification [80.00316465793702]
挑戦的なシナリオで堅牢なモデリングを可能にするディープラーニングフレームワークを提案する。
その結果,85%のラベル付きデータを用いて,大規模データ設定で学習した分類器の性能に適合する予測モデルを構築することができた。
論文 参考訳(メタデータ) (2020-05-03T02:36:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。