論文の概要: Efficient Analysis of COVID-19 Clinical Data using Machine Learning
Models
- arxiv url: http://arxiv.org/abs/2110.09606v1
- Date: Mon, 18 Oct 2021 20:06:01 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-21 03:14:39.543950
- Title: Efficient Analysis of COVID-19 Clinical Data using Machine Learning
Models
- Title(参考訳): 機械学習モデルを用いたCOVID-19臨床データの効率的な分析
- Authors: Sarwan Ali, Yijing Zhou, Murray Patterson
- Abstract要約: 膨大な量のデータとケーススタディが公開されており、研究者がトレンドを見つけるユニークな機会を提供している。
機械学習ベースのアルゴリズムをこのビッグデータに適用することは、この目的を達成するための自然なアプローチである。
効率的な特徴選択アルゴリズムにより,ほとんどの場合,90%以上の予測精度が得られることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Because of the rapid spread of COVID-19 to almost every part of the globe,
huge volumes of data and case studies have been made available, providing
researchers with a unique opportunity to find trends and make discoveries like
never before, by leveraging such big data. This data is of many different
varieties, and can be of different levels of veracity e.g., precise, imprecise,
uncertain, and missing, making it challenging to extract important information
from such data. Yet, efficient analyses of this continuously growing and
evolving COVID-19 data is crucial to inform -- often in real-time -- the
relevant measures needed for controlling, mitigating, and ultimately avoiding
viral spread. Applying machine learning based algorithms to this big data is a
natural approach to take to this aim, since they can quickly scale to such
data, and extract the relevant information in the presence of variety and
different levels of veracity. This is important for COVID-19, and for potential
future pandemics in general.
In this paper, we design a straightforward encoding of clinical data (on
categorical attributes) into a fixed-length feature vector representation, and
then propose a model that first performs efficient feature selection from such
representation. We apply this approach on two clinical datasets of the COVID-19
patients and then apply different machine learning algorithms downstream for
classification purposes. We show that with the efficient feature selection
algorithm, we can achieve a prediction accuracy of more than 90\% in most
cases. We also computed the importance of different attributes in the dataset
using information gain. This can help the policy makers to focus on only
certain attributes for the purposes of studying this disease rather than
focusing on multiple random factors that may not be very informative to patient
outcomes.
- Abstract(参考訳): 新型コロナウイルス(covid-19)が世界中のほぼすべての地域に急速に拡散しているため、膨大なデータとケーススタディが利用可能になり、研究者はそのようなビッグデータを活用することで、これまでにないようなトレンドを見つけ、発見する機会を研究者に与えている。
このデータは多種多様であり、正確さ、不正確さ、不確かさ、欠如など、さまざまなレベルの検証性を持つため、そのようなデータから重要な情報を抽出することは困難である。
しかし、新型コロナウイルス(covid-19)の継続的な成長と進化に関するデータの効率的な分析は、ウイルスの拡散をコントロールし、緩和し、最終的に避けるために必要な適切な手段をリアルタイムで知らせる上で重要である。
機械学習ベースのアルゴリズムをこのビッグデータに適用することは、このようなデータに迅速にスケールし、多様性と異なるレベルの妥当性の存在下で関連する情報を抽出できるため、この目的を達成するための自然なアプローチである。
これは新型コロナウイルス、将来のパンデミック全般にとって重要である。
本稿では,臨床データ(分類属性)を固定長特徴ベクトル表現に簡単に符号化し,その表現から効率的な特徴選択を行うモデルを提案する。
このアプローチをcovid-19患者の2つの臨床データセットに適用し,分類目的で下流の異なる機械学習アルゴリズムを適用する。
効率的な特徴選択アルゴリズムにより,ほとんどの場合,予測精度が90%以上になることを示す。
また、情報ゲインを用いてデータセット内の異なる属性の重要性を計算した。
このことは、政策立案者が患者の結果にあまり意味のない複数のランダムな要因に注目するのではなく、この疾患を研究する目的のために特定の属性のみに焦点を合わせるのに役立つ。
関連論文リスト
- Local-to-Global Self-Supervised Representation Learning for Diabetic Retinopathy Grading [0.0]
本研究では,自己指導型学習と知識蒸留を用いた新しいハイブリッド学習モデルを提案する。
我々のアルゴリズムでは、自己教師型学習および知識蒸留モデルの中で初めて、テストデータセットがトレーニングデータセットよりも50%大きい。
類似の最先端モデルと比較すると,より高精度で効率的な表現空間が得られた。
論文 参考訳(メタデータ) (2024-10-01T15:19:16Z) - LESS: Selecting Influential Data for Targeted Instruction Tuning [64.78894228923619]
本稿では,データの影響を推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムであるLESSを提案する。
LESS選択したデータの5%のトレーニングは、さまざまなダウンストリームタスクにわたる完全なデータセットでのトレーニングよりも優れています。
我々の方法は、意図した下流アプリケーションに必要な推論スキルを識別するために、表面的なフォームキューを超えています。
論文 参考訳(メタデータ) (2024-02-06T19:18:04Z) - ProtoKD: Learning from Extremely Scarce Data for Parasite Ova
Recognition [5.224806515926022]
ProtoKDは,極端に少ないデータを用いたマルチクラス寄生生物認識の課題に対処するための最初のアプローチの一つである。
我々は、この重要な方向の研究を推進し、提案したProtoKDフレームワークが最先端のパフォーマンスを達成することを検証するために、新しいベンチマークを構築した。
論文 参考訳(メタデータ) (2023-09-18T23:49:04Z) - Core-set Selection Using Metrics-based Explanations (CSUME) for
multiclass ECG [2.0520503083305073]
高品質なデータを選択することで、ディープラーニングモデルの性能が向上することを示す。
実験の結果,9.67%,8.69%の精度とリコール改善が得られた。
論文 参考訳(メタデータ) (2022-05-28T19:36:28Z) - Selecting the suitable resampling strategy for imbalanced data
classification regarding dataset properties [62.997667081978825]
医学、情報検索、サイバーセキュリティ、ソーシャルメディアなどの多くのアプリケーションドメインでは、分類モデルの導入に使用されるデータセットは、各クラスのインスタンスの不平等な分布を持つことが多い。
この状況は不均衡データ分類と呼ばれ、少数民族の例では予測性能が低い。
オーバーサンプリングとアンダーサンプリングの技術は、各クラスの例の数とバランスをとることでこの問題に対処する、よく知られた戦略である。
論文 参考訳(メタデータ) (2021-12-15T18:56:39Z) - Classifying COVID-19 Spike Sequences from Geographic Location Using Deep
Learning [0.0]
我々はまず,$k$-merssを用いてSARS-CoV-2のスパイクタンパク質配列の数値表現を計算するアルゴリズムを提案する。
また、スパイク配列における異なるアミノ酸の重要性を、真のクラスラベルに対応する情報ゲインを計算することによって示す。
論文 参考訳(メタデータ) (2021-10-02T14:09:30Z) - Bootstrapping Your Own Positive Sample: Contrastive Learning With
Electronic Health Record Data [62.29031007761901]
本稿では,新しいコントラスト型正規化臨床分類モデルを提案する。
EHRデータに特化した2つのユニークなポジティブサンプリング戦略を紹介します。
私たちのフレームワークは、現実世界のCOVID-19 EHRデータの死亡リスクを予測するために、競争の激しい実験結果をもたらします。
論文 参考訳(メタデータ) (2021-04-07T06:02:04Z) - Diverse Complexity Measures for Dataset Curation in Self-driving [80.55417232642124]
トラフィックシーンの面白さを定量化する多様な基準を活用した新たなデータ選択手法を提案する。
実験の結果,提案するキュレーションパイプラインは,より汎用的で高いパフォーマンスをもたらすデータセットを選択できることが判明した。
論文 参考訳(メタデータ) (2021-01-16T23:45:02Z) - Select-ProtoNet: Learning to Select for Few-Shot Disease Subtype
Prediction [55.94378672172967]
本研究は, 類似患者のサブグループを同定し, 数発の疾患のサブタイプ予測問題に焦点を当てた。
新しいモデルを開発するためにメタラーニング技術を導入し、関連する臨床課題から共通の経験や知識を抽出する。
我々の新しいモデルは、単純だが効果的なメタ学習マシンであるPrototypeal Networkと呼ばれる、慎重に設計されたメタラーナーに基づいて構築されている。
論文 参考訳(メタデータ) (2020-09-02T02:50:30Z) - Unsupervised Pre-trained Models from Healthy ADLs Improve Parkinson's
Disease Classification of Gait Patterns [3.5939555573102857]
パーキンソン病分類のための加速度計歩行データに関連する特徴を抽出する方法を示す。
我々の事前学習したソースモデルは畳み込みオートエンコーダで構成されており、ターゲット分類モデルは単純な多層パーセプトロンモデルである。
本研究は,Parkinson病分類の課題に対する事前学習モデルの選択が与える影響を,異なる活動群を用いて訓練した2つの異なるソースモデルについて検討する。
論文 参考訳(メタデータ) (2020-05-06T04:08:19Z) - Self-Training with Improved Regularization for Sample-Efficient Chest
X-Ray Classification [80.00316465793702]
挑戦的なシナリオで堅牢なモデリングを可能にするディープラーニングフレームワークを提案する。
その結果,85%のラベル付きデータを用いて,大規模データ設定で学習した分類器の性能に適合する予測モデルを構築することができた。
論文 参考訳(メタデータ) (2020-05-03T02:36:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。