論文の概要: Machine Learning and Data Science approach towards trend and predictors
analysis of CDC Mortality Data for the USA
- arxiv url: http://arxiv.org/abs/2009.05400v1
- Date: Fri, 11 Sep 2020 12:46:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-19 21:59:05.488704
- Title: Machine Learning and Data Science approach towards trend and predictors
analysis of CDC Mortality Data for the USA
- Title(参考訳): 米国におけるCDC死亡データの動向と予測要因分析への機械学習とデータサイエンスのアプローチ
- Authors: Yasir Nadeem, Awais Ahmed
- Abstract要約: 調査では、性別やその中心的な傾向に関わらず(サンプルに基づいて)平均寿命が決定された。
この研究は、機械学習の予測が、データにとって明らかなほど有効ではないことを示しています。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The research on mortality is an active area of research for any country where
the conclusions are driven from the provided data and conditions. The domain
knowledge is an essential but not a mandatory skill (though some knowledge is
still required) in order to derive conclusions based on data intuition using
machine learning and data science practices. The purpose of conducting this
project was to derive conclusions based on the statistics from the provided
dataset and predict label(s) of the dataset using supervised or unsupervised
learning algorithms. The study concluded (based on a sample) life expectancy
regardless of gender, and their central tendencies; Marital status of the
people also affected how frequent deaths were for each of them. The study also
helped in finding out that due to more categorical and numerical data, anomaly
detection or under-sampling could be a viable solution since there are
possibilities of more class labels than the other(s). The study shows that
machine learning predictions aren't as viable for the data as it might be
apparent.
- Abstract(参考訳): 死亡率の研究は、提供されたデータと条件から結論が導かれる国において活発な研究領域である。
機械学習とデータサイエンスのプラクティスを使ってデータ直感に基づいて結論を導き出すには、ドメイン知識は必須だが必須のスキルではない(一部の知識はまだ必要である)。
このプロジェクトの目的は、提供されたデータセットから統計に基づいて結論を導き、教師なしまたは教師なしの学習アルゴリズムを用いてデータセットのラベルを予測することである。
調査では、性別やその中心的な傾向に関わらず(サンプルに基づいて)平均寿命が決定された。
この研究は、分類学的および数値的データにより、他のラベルよりも多くのクラスラベルが存在する可能性があるため、異常検出またはアンダーサンプリングが有効な解決策になり得ることを発見するのに役立った。
この研究は、機械学習の予測が、明らかにデータにとって不可能であることを示している。
関連論文リスト
- Data-Centric AI in the Age of Large Language Models [51.20451986068925]
本稿では,大規模言語モデル(LLM)に着目した,AI研究におけるデータ中心の視点を提案する。
本研究では,LLMの発達段階(事前学習や微調整など)や推論段階(文脈内学習など)において,データが有効であることを示す。
データを中心とした4つのシナリオを特定し、データ中心のベンチマークとデータキュレーション、データ属性、知識伝達、推論コンテキスト化をカバーします。
論文 参考訳(メタデータ) (2024-06-20T16:34:07Z) - A Survey on Data Selection for Language Models [148.300726396877]
データ選択方法は、トレーニングデータセットに含まれるデータポイントを決定することを目的としている。
ディープラーニングは、主に実証的な証拠によって駆動され、大規模なデータに対する実験は高価である。
広範なデータ選択研究のリソースを持つ組織はほとんどない。
論文 参考訳(メタデータ) (2024-02-26T18:54:35Z) - ASPEST: Bridging the Gap Between Active Learning and Selective
Prediction [56.001808843574395]
選択予測は、不確実な場合の予測を棄却する信頼性のあるモデルを学ぶことを目的としている。
アクティブラーニングは、最も有意義な例を問うことで、ラベリングの全体、すなわち人間の依存度を下げることを目的としている。
本研究では,移動対象領域からより情報のあるサンプルを検索することを目的とした,新たな学習パラダイムである能動的選択予測を導入する。
論文 参考訳(メタデータ) (2023-04-07T23:51:07Z) - Towards Assessing Data Bias in Clinical Trials [0.0]
医療データセットはデータバイアスの影響を受けます。
データバイアスは現実の歪んだ見方を与え、誤った分析結果をもたらし、結果として決定を下す。
i)データセットに存在する可能性のあるデータバイアスの種類を定義し、(ii)適切なメトリクスでデータバイアスを特徴付け、定量化し、(iii)異なるデータソースに対してデータバイアスを特定し、測定し、緩和するためのガイドラインを提供する。
論文 参考訳(メタデータ) (2022-12-19T17:10:06Z) - Do Deep Neural Networks Always Perform Better When Eating More Data? [82.6459747000664]
Identically Independent Distribution(IID)とOut of Distribution(OOD)による実験を設計する。
IID条件下では、情報の量は各サンプルの効果度、サンプルの寄与度、クラス間の差がクラス情報の量を決定する。
OOD条件下では、試料のクロスドメイン度が寄与を決定づけ、無関係元素によるバイアス適合はクロスドメインの重要な要素である。
論文 参考訳(メタデータ) (2022-05-30T15:40:33Z) - Predicting Seriousness of Injury in a Traffic Accident: A New Imbalanced
Dataset and Benchmark [62.997667081978825]
本稿では,交通事故における傷害の重大性を予測するために,機械学習アルゴリズムの性能を評価する新しいデータセットを提案する。
データセットは、英国運輸省から公開されているデータセットを集約することで作成される。
論文 参考訳(メタデータ) (2022-05-20T21:15:26Z) - Potential sources of dataset bias complicate investigation of
underdiagnosis by machine learning algorithms [20.50071537200745]
Seyed-Kalantariらは、3つの胸部X線データセットで訓練されたモデルが偽陽性率の差をもたらすことを発見した。
この研究は、これらのモデルが体系的な下垂体手術を展示し、潜在的に増幅していると結論付けている。
論文 参考訳(メタデータ) (2022-01-19T20:51:38Z) - TRAPDOOR: Repurposing backdoors to detect dataset bias in machine
learning-based genomic analysis [15.483078145498085]
データセット内のグループの下位表現は、特定のグループの不正確な予測につながる可能性があるため、システム的識別問題を悪化させる可能性がある。
本稿では,ニューラルネットワークのバックドアであるTRAPDOORを提案する。
実世界のがんデータセットを用いて、すでに白人個人に対して存在するバイアスでデータセットを分析し、データセットにバイアスを人工的に導入する。
論文 参考訳(メタデータ) (2021-08-14T17:02:02Z) - An introduction to causal reasoning in health analytics [2.199093822766999]
従来の機械学習と統計的アプローチで発生する可能性のある欠点のいくつかを強調して、観測データを分析します。
一般的な機械学習問題に対処するための因果推論の応用を実演する。
論文 参考訳(メタデータ) (2021-05-10T20:25:56Z) - Enabling Counterfactual Survival Analysis with Balanced Representations [64.17342727357618]
生存データは様々な医学的応用、すなわち薬物開発、リスクプロファイリング、臨床試験で頻繁に見られる。
本稿では,生存結果に適用可能な対実的推論のための理論的基盤を持つ統一的枠組みを提案する。
論文 参考訳(メタデータ) (2020-06-14T01:15:00Z) - Overly Optimistic Prediction Results on Imbalanced Data: a Case Study of
Flaws and Benefits when Applying Over-sampling [13.463035357173045]
データを相互に排他的なトレーニングとテストセットに分割する前にオーバーサンプリングを適用する。
この結果が,2つの人工データセットを用いて偏りを生じさせ,この欠陥が同定された研究結果を再現することを示す。
論文 参考訳(メタデータ) (2020-01-15T12:53:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。