論文の概要: Investigation of a Data Split Strategy Involving the Time Axis in
Adverse Event Prediction Using Machine Learning
- arxiv url: http://arxiv.org/abs/2204.08682v1
- Date: Tue, 19 Apr 2022 05:58:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-20 22:45:14.635572
- Title: Investigation of a Data Split Strategy Involving the Time Axis in
Adverse Event Prediction Using Machine Learning
- Title(参考訳): 機械学習を用いた有害事象予測における時間軸を含むデータ分割戦略の検討
- Authors: Katsuhisa Morita, Tadahaya Mizuno, and Hiroyuki Kusuhara
- Abstract要約: 逆イベントは薬物開発において深刻な問題であり、機械学習を用いた予測手法が数多く開発されている。
ランダムスプリット・クロスバリデーションは、機械学習におけるモデル構築と評価のデファクトスタンダードである。
時間とランダムスプリットを用いて得られたモデル性能の違いは、完全には理解されていない。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Adverse events are a serious issue in drug development and many prediction
methods using machine learning have been developed. The random split
cross-validation is the de facto standard for model building and evaluation in
machine learning, but care should be taken in adverse event prediction because
this approach tends to be overoptimistic compared with the real-world
situation. The time split, which uses the time axis, is considered suitable for
real-world prediction. However, the differences in model performance obtained
using the time and random splits are not fully understood. To understand the
differences, we compared the model performance between the time and random
splits using eight types of compound information as input, eight adverse events
as targets, and six machine learning algorithms. The random split showed higher
area under the curve values than did the time split for six of eight targets.
The chemical spaces of the training and test datasets of the time split were
similar, suggesting that the concept of applicability domain is insufficient to
explain the differences derived from the splitting. The area under the curve
differences were smaller for the protein interaction than for the other
datasets. Subsequent detailed analyses suggested the danger of confounding in
the use of knowledge-based information in the time split. These findings
indicate the importance of understanding the differences between the time and
random splits in adverse event prediction and suggest that appropriate use of
the splitting strategies and interpretation of results are necessary for the
real-world prediction of adverse events.
- Abstract(参考訳): 副作用は薬物開発において深刻な問題であり,機械学習を用いた予測手法が開発されている。
ランダムスプリット・クロスバリデーションは、機械学習におけるモデル構築と評価のデファクトスタンダードであるが、このアプローチは現実の状況と比較して過度に最適化される傾向があるため、悪い事象予測に注意する必要がある。
時間軸を用いた時間分割は実世界の予測に適していると考えられる。
しかし、時間とランダム分割を用いたモデル性能の違いは、完全には理解されていない。
この差を理解するために,入力として8種類の複合情報,ターゲットとして8つの有害事象,および6つの機械学習アルゴリズムを用いて,時間分割とランダム分割のモデル性能を比較した。
ランダムスプリットは8つの目標のうち6つの時間スプリットよりも曲線値より高い領域を示した。
時間分割のトレーニングとテストデータセットの化学空間は類似しており、応用可能性領域の概念は分裂から生じる相違を説明するのに不十分であることが示唆された。
曲線差の下の領域は、他のデータセットよりもタンパク質相互作用が小さい。
その後の詳細な分析から、知識に基づく情報の利用の混乱の危険性が示唆された。
これらの結果は,悪事象予測における時間分割とランダム分割の違いを理解することの重要性を示し,実世界の悪事象予測には分割戦略の適切な利用と結果の解釈が必要であることを示唆する。
関連論文リスト
- Fair Generalized Linear Mixed Models [0.0]
機械学習の公正性は、データとモデルの不正確さのバイアスが差別的な決定に結びつかないことを保証することを目的としている。
両問題を同時に処理できるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-05-15T11:42:41Z) - Probabilistic Contrastive Learning for Long-Tailed Visual Recognition [78.70453964041718]
細長い分布は、少数の少数派が限られた数のサンプルを含む実世界のデータにしばしば現れる。
近年の研究では、教師付きコントラスト学習がデータ不均衡を緩和する有望な可能性を示していることが明らかになっている。
本稿では,特徴空間の各クラスからのサンプルデータ分布を推定する確率論的コントラスト学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-11T13:44:49Z) - Exploring new ways: Enforcing representational dissimilarity to learn
new features and reduce error consistency [1.7497479054352052]
非常に異なる中間表現は相関の少ない出力予測と若干の誤差整合性をもたらすことを示す。
これにより、中間表現間の接続とその出力予測への影響について、第1の光を当てる。
論文 参考訳(メタデータ) (2023-07-05T14:28:46Z) - Equivariance Allows Handling Multiple Nuisance Variables When Analyzing
Pooled Neuroimaging Datasets [53.34152466646884]
本稿では,構造空間上でインスタンス化された同変表現学習における最近の結果と,因果推論における古典的結果の簡易な利用が,いかに効果的に実現されたかを示す。
いくつかの仮定の下で、我々のモデルが複数のニュアンス変数を扱えることを実証し、そうでなければサンプルの大部分を取り除く必要のあるシナリオにおいて、プールされた科学データセットの分析を可能にする。
論文 参考訳(メタデータ) (2022-03-29T04:54:06Z) - Conformal prediction for the design problem [72.14982816083297]
機械学習の現実的な展開では、次にテストすべきデータを選択するために予測アルゴリズムを使用します。
このような設定では、トレーニングデータとテストデータの間には、異なるタイプの分散シフトがある。
このような環境で予測の不確実性を定量化する手法を提案する。
論文 参考訳(メタデータ) (2022-02-08T02:59:12Z) - TACTiS: Transformer-Attentional Copulas for Time Series [76.71406465526454]
時間変化量の推定は、医療や金融などの分野における意思決定の基本的な構成要素である。
本稿では,アテンションベースデコーダを用いて関節分布を推定する多元的手法を提案する。
本研究では,本モデルが実世界の複数のデータセットに対して最先端の予測を生成することを示す。
論文 参考訳(メタデータ) (2022-02-07T21:37:29Z) - Double Robust Representation Learning for Counterfactual Prediction [68.78210173955001]
そこで本稿では, 対実予測のための2次ロバスト表現を学習するための, スケーラブルな新しい手法を提案する。
我々は、個々の治療効果と平均的な治療効果の両方に対して、堅牢で効率的な対実的予測を行う。
このアルゴリズムは,実世界の最先端技術と合成データとの競合性能を示す。
論文 参考訳(メタデータ) (2020-10-15T16:39:26Z) - Time-series Imputation and Prediction with Bi-Directional Generative
Adversarial Networks [0.3162999570707049]
本稿では,不規則に観測された時系列データと不規則なエントリを含む長さの時系列データの計算と予測を併用したタスクのモデルを提案する。
我々のモデルは、入力時間ステップ(予測)の内側または外側の欠落した要素をインプットする方法を学び、したがって、時系列データに有効な任意の時間予測ツールとして機能する。
論文 参考訳(メタデータ) (2020-09-18T15:47:51Z) - Enabling Counterfactual Survival Analysis with Balanced Representations [64.17342727357618]
生存データは様々な医学的応用、すなわち薬物開発、リスクプロファイリング、臨床試験で頻繁に見られる。
本稿では,生存結果に適用可能な対実的推論のための理論的基盤を持つ統一的枠組みを提案する。
論文 参考訳(メタデータ) (2020-06-14T01:15:00Z) - Modeling Rare Interactions in Time Series Data Through Qualitative
Change: Application to Outcome Prediction in Intensive Care Units [1.0349800230036503]
本稿では,高次元時系列データから得られる結果の最も高い確率で相互作用を明らかにするためのモデルを提案する。
小さな相互作用の類似テンプレートが結果に寄与するという仮定を用いて、探索タスクを再構成し、データから最も類似したテンプレートを検索する。
論文 参考訳(メタデータ) (2020-04-03T08:49:40Z) - Fisher-Schultz Lecture: Generic Machine Learning Inference on
Heterogenous Treatment Effects in Randomized Experiments, with an Application
to Immunization in India [3.3449509626538543]
ランダム化実験における異種効果の重要な特徴を推定し,推定する手法を提案する。
主な特徴は、機械学習プロキシを使用した効果の最良の線形予測器、インパクトグループによってソートされた平均効果、および最も最も最も影響の少ないユニットの平均特性である。
論文 参考訳(メタデータ) (2017-12-13T14:47:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。