論文の概要: Interactive exploration of population scale pharmacoepidemiology
datasets
- arxiv url: http://arxiv.org/abs/2005.09890v1
- Date: Wed, 20 May 2020 07:34:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-01 06:08:20.048640
- Title: Interactive exploration of population scale pharmacoepidemiology
datasets
- Title(参考訳): 人口規模薬剤疫学データセットの相互探索
- Authors: Tengel Ekrem Skar, Einar Holsb{\o}, Kristian Svendsen, Lars Ailo Bongo
- Abstract要約: 有害薬物反応(ADR)に関連付けられた集団規模の薬物処方データは、薬物使用やADRパターンを検出するのに十分な大きさのモデルの適合を支援する。
大規模なデータセットでADRパターンを検出するには、スケーラブルなデータ処理、データ分析のための機械学習、インタラクティブな可視化のためのツールが必要である。
数百万のサンプルで処方用データセットのパターンをインタラクティブに探索するツールを開発しました。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Population-scale drug prescription data linked with adverse drug reaction
(ADR) data supports the fitting of models large enough to detect drug use and
ADR patterns that are not detectable using traditional methods on smaller
datasets. However, detecting ADR patterns in large datasets requires tools for
scalable data processing, machine learning for data analysis, and interactive
visualization. To our knowledge no existing pharmacoepidemiology tool supports
all three requirements. We have therefore created a tool for interactive
exploration of patterns in prescription datasets with millions of samples. We
use Spark to preprocess the data for machine learning and for analyses using
SQL queries. We have implemented models in Keras and the scikit-learn
framework. The model results are visualized and interpreted using live Python
coding in Jupyter. We apply our tool to explore a 384 million prescription data
set from the Norwegian Prescription Database combined with a 62 million
prescriptions for elders that were hospitalized. We preprocess the data in two
minutes, train models in seconds, and plot the results in milliseconds. Our
results show the power of combining computational power, short computation
times, and ease of use for analysis of population scale pharmacoepidemiology
datasets. The code is open source and available at:
https://github.com/uit-hdl/norpd_prescription_analyses
- Abstract(参考訳): 有害薬物反応(ADR)データに関連付けられた集団規模の薬物処方データは、より小さなデータセットで従来の方法では検出できない薬物使用やADRパターンを検出するのに十分な大きさのモデルの適合をサポートする。
しかし、大規模データセットにおけるadrパターンの検出には、スケーラブルなデータ処理、データ分析のための機械学習、インタラクティブな可視化のためのツールが必要である。
私たちの知る限り、既存の薬理疫学ツールが3つの要件すべてをサポートすることはない。
そこで我々は、数百万のサンプルで処方用データセットのパターンをインタラクティブに探索するツールを開発した。
Sparkを使ってデータを機械学習やSQLクエリを使用した分析のために前処理します。
我々はkerasとscikit-learnフレームワークにモデルを実装した。
モデル結果はjupyterのライブpythonコーディングを使って可視化され、解釈される。
我々は,ノルウェーの処方薬データベースから3億8400万件の処方薬データを検索し,入院した高齢者の処方薬を6200万件検索した。
データを2分で前処理し、モデルを秒単位でトレーニングし、結果をミリ秒でプロットします。
以上の結果から,人口規模薬剤疫学データセットの分析において,計算能力,計算時間の短縮,使いやすさの両立効果が示された。
コードはオープンソースで、https://github.com/uit-hdl/norpd_prescription_analysesで入手できる。
関連論文リスト
- PharmacoMatch: Efficient 3D Pharmacophore Screening through Neural Subgraph Matching [0.5113447003407372]
本稿では,ニューラルサブグラフマッチングに基づく新しいコントラスト学習手法であるPharmacoMatchを紹介する。
以上の結果から,製薬室マッチングのランタイムが大幅に短くなり,非常に大規模なデータセットのスクリーニングに有望なスピードアップが期待できることがわかった。
論文 参考訳(メタデータ) (2024-09-10T08:17:06Z) - Drug Synergistic Combinations Predictions via Large-Scale Pre-Training
and Graph Structure Learning [82.93806087715507]
薬物併用療法は、より有効で安全性の低い疾患治療のための確立された戦略である。
ディープラーニングモデルは、シナジスティックな組み合わせを発見する効率的な方法として登場した。
我々のフレームワークは、他のディープラーニングベースの手法と比較して最先端の結果を達成する。
論文 参考訳(メタデータ) (2023-01-14T15:07:43Z) - On the data requirements of probing [20.965328323152608]
本稿では,データセットの探索に必要なデータサンプル数を推定する新しい手法を提案する。
我々のフレームワークは、ニューラルネットワークNLPモデルの診断のために、探索データセットを体系的に構築するのに役立つ。
論文 参考訳(メタデータ) (2022-02-25T16:27:06Z) - A Real Use Case of Semi-Supervised Learning for Mammogram Classification
in a Local Clinic of Costa Rica [0.5541644538483946]
ディープラーニングモデルのトレーニングには、かなりの量のラベル付きイメージが必要です。
多くの公開データセットが、さまざまな病院や診療所のデータで構築されている。
ラベルなしデータを利用した半教師付き深層学習手法であるMixMatchを提案し評価した。
論文 参考訳(メタデータ) (2021-07-24T22:26:50Z) - PyHealth: A Python Library for Health Predictive Models [53.848478115284195]
PyHealthは、医療データ上で様々な予測モデルを開発するためのオープンソースのPythonツールボックスである。
データ前処理モジュールにより、複雑なヘルスケアデータセットを機械学習フレンドリーなフォーマットに変換できます。
予測モデリングモジュールは、確立されたアンサンブルツリーとディープニューラルネットワークベースのアプローチを含む30以上の機械学習モデルを提供します。
論文 参考訳(メタデータ) (2021-01-11T22:02:08Z) - DecAug: Augmenting HOI Detection via Decomposition [54.65572599920679]
現在のアルゴリズムでは、データセット内のトレーニングサンプルやカテゴリの不均衡が不足している。
本稿では,HOI検出のためのDECAugと呼ばれる効率的かつ効率的なデータ拡張手法を提案する。
実験の結果,V-COCOおよびHICODETデータセットの3.3mAPと1.6mAPの改善が得られた。
論文 参考訳(メタデータ) (2020-10-02T13:59:05Z) - Fast, Accurate, and Simple Models for Tabular Data via Augmented
Distillation [97.42894942391575]
本研究では、FAST-DADを用いて、任意の複雑なアンサンブル予測を、高木、無作為林、深層ネットワークなどの個々のモデルに抽出する。
我々の個々の蒸留モデルは、H2O/AutoSklearnのようなAutoMLツールが生成するアンサンブル予測よりも10倍高速で精度が高い。
論文 参考訳(メタデータ) (2020-06-25T09:57:47Z) - Ensemble Transfer Learning for the Prediction of Anti-Cancer Drug
Response [49.86828302591469]
本稿では,抗がん剤感受性の予測にトランスファーラーニングを適用した。
我々は、ソースデータセット上で予測モデルをトレーニングし、ターゲットデータセット上でそれを洗練する古典的な転送学習フレームワークを適用した。
アンサンブル転送学習パイプラインは、LightGBMと異なるアーキテクチャを持つ2つのディープニューラルネットワーク(DNN)モデルを使用して実装されている。
論文 参考訳(メタデータ) (2020-05-13T20:29:48Z) - Unsupervised Pre-trained Models from Healthy ADLs Improve Parkinson's
Disease Classification of Gait Patterns [3.5939555573102857]
パーキンソン病分類のための加速度計歩行データに関連する特徴を抽出する方法を示す。
我々の事前学習したソースモデルは畳み込みオートエンコーダで構成されており、ターゲット分類モデルは単純な多層パーセプトロンモデルである。
本研究は,Parkinson病分類の課題に対する事前学習モデルの選択が与える影響を,異なる活動群を用いて訓練した2つの異なるソースモデルについて検討する。
論文 参考訳(メタデータ) (2020-05-06T04:08:19Z) - PyODDS: An End-to-end Outlier Detection System with Automated Machine
Learning [55.32009000204512]
PyODDSは、データベースサポート付きアウトレイラ検出のための、エンドツーエンドのPythonシステムである。
具体的には,探索空間を外乱検出パイプラインで定義し,与えられた探索空間内で探索戦略を作成する。
また、データサイエンスや機械学習のバックグラウンドの有無に関わらず、統一されたインターフェイスと視覚化を提供する。
論文 参考訳(メタデータ) (2020-03-12T03:30:30Z) - Deep generative models in DataSHIELD [0.0]
例えば、ドイツでは、患者の同意なしに研究目的で異なる病院からの定期的なデータをプールすることは不可能である。
DataSHIELDソフトウェアは、分散データの共同分析のためのインフラストラクチャと統計手法のセットを提供する。
我々は,分散患者データから複雑なパターンを保存する人工データを作成するために,DataSHIELD上に構築されたソフトウェア実装とともに方法論を提案する。
論文 参考訳(メタデータ) (2020-03-11T10:15:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。