論文の概要: Filter Drug-induced Liver Injury Literature with Natural Language
Processing and Ensemble Learning
- arxiv url: http://arxiv.org/abs/2203.11015v1
- Date: Wed, 9 Mar 2022 23:53:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-27 11:32:12.865497
- Title: Filter Drug-induced Liver Injury Literature with Natural Language
Processing and Ensemble Learning
- Title(参考訳): 自然言語処理とアンサンブル学習を用いたフィルター薬物による肝障害文学
- Authors: Xianghao Zhan, Fanjin Wang, Olivier Gevaert
- Abstract要約: 薬物性肝障害 (DILI) は、肝臓を損傷する薬物の副作用である。
重度DILI症例では肝不全や死亡などの生命予後も報告された。
過去の出版物からのデータ抽出は手動ラベリングに大きく依存している。
バイオメディカルテキストの自動処理を可能にする人工知能の最近の進歩
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Drug-induced liver injury (DILI) describes the adverse effects of drugs that
damage liver. Life-threatening results including liver failure or death were
also reported in severe DILI cases. Therefore, DILI-related events are strictly
monitored for all approved drugs and the liver toxicity became important
assessments for new drug candidates. These DILI-related reports are documented
in hospital records, in clinical trial results, and also in research papers
that contain preliminary in vitro and in vivo experiments. Conventionally, data
extraction from previous publications relies heavily on resource-demanding
manual labelling, which considerably decreased the efficiency of the
information extraction process. The recent development of artificial
intelligence, particularly, the rise of natural language processing (NLP)
techniques, enabled the automatic processing of biomedical texts. In this
study, based on around 28,000 papers (titles and abstracts) provided by the
Critical Assessment of Massive Data Analysis (CAMDA) challenge, we benchmarked
model performances on filtering out DILI literature. Among four word
vectorization techniques, the model using term frequency-inverse document
frequency (TF-IDF) and logistic regression outperformed others with an accuracy
of 0.957 with our in-house test set. Furthermore, an ensemble model with
similar overall performances was implemented and was fine-tuned to lower the
false-negative cases to avoid neglecting potential DILI reports. The ensemble
model achieved a high accuracy of 0.954 and an F1 score of 0.955 in the
hold-out validation data provided by the CAMDA committee. Moreover, important
words in positive/negative predictions were identified via model
interpretation. Overall, the ensemble model reached satisfactory classification
results, which can be further used by researchers to rapidly filter
DILI-related literature.
- Abstract(参考訳): 薬物性肝障害 (DILI) は、肝臓を損傷する薬物の副作用である。
重度DILI症例では肝不全や死亡などの生命予後も報告された。
したがって、DILI関連事象は承認されたすべての薬物に対して厳格に監視され、肝毒性は新しい薬物候補にとって重要な評価基準となった。
これらのDILI関連報告は、病院の記録、臨床試験の結果、およびin vitroおよびin vivoの実験を含む研究論文に記録されている。
従来、過去の出版物からのデータ抽出は、情報抽出の効率を大幅に低下させるリソース要求のマニュアルラベリングに大きく依存していた。
近年の人工知能、特に自然言語処理(NLP)技術の発展により、バイオメディカルテキストの自動処理が可能になった。
本研究では,camda(massive data analysis)チャレンジの批判的評価から得られた約28,000の論文(タイトルと要約)に基づいて,dili文献のフィルタリングによるモデル性能のベンチマークを行った。
4つの単語ベクトル化手法のうち,TF-IDFとロジスティック回帰を用いたモデルでは,社内テストセットで0.957の精度で性能が向上した。
さらに、同様の全体的な性能を持つアンサンブルモデルが実装され、潜在的なdiliレポートの無視を避けるために偽陰性症例を小さくするために微調整された。
CAMDA委員会によって提供されたホールドアウト検証データにおいて,アンサンブルモデルの精度は0.954,F1スコアは0.955であった。
さらに, 肯定的/否定的予測における重要な単語をモデル解釈により同定した。
全体として、アンサンブルモデルは十分な分類結果に達し、研究者はDILI関連の文献を迅速にフィルタリングすることができる。
関連論文リスト
- CRTRE: Causal Rule Generation with Target Trial Emulation Framework [47.2836994469923]
ターゲットトライアルエミュレーションフレームワーク(CRTRE)を用いた因果ルール生成という新しい手法を提案する。
CRTREは、アソシエーションルールの因果効果を推定するためにランダム化トライアル設計原則を適用している。
次に、病気発症予測などの下流アプリケーションにそのような関連ルールを組み込む。
論文 参考訳(メタデータ) (2024-11-10T02:40:06Z) - Data-Driven Machine Learning Approaches for Predicting In-Hospital Sepsis Mortality [0.0]
本研究の目的は,臨床専門家が院内死亡を予測できるように,解釈可能かつ正確なMLモデルを開発することである。
特定基準に基づいてMIMIC-IIIデータベースからICU患者の記録を分析し,関連データを抽出した。
ランダムフォレストモデルは敗血症関連院内死亡の予測に最も効果的であった。
論文 参考訳(メタデータ) (2024-08-03T00:28:25Z) - Machine Learning for ALSFRS-R Score Prediction: Making Sense of the Sensor Data [44.99833362998488]
筋萎縮性側索硬化症(Amyotrophic Lateral Sclerosis、ALS)は、急速に進行する神経変性疾患である。
iDPP@CLEF 2024チャレンジを先導した今回の調査は,アプリから得られるセンサデータを活用することに焦点を当てている。
論文 参考訳(メタデータ) (2024-07-10T19:17:23Z) - Detecting the Clinical Features of Difficult-to-Treat Depression using
Synthetic Data from Large Language Models [0.20971479389679337]
我々は,日常的に収集された物語(自由テキスト)電子健康記録データを問うことができるLarge Language Model(LLM)ベースのツールの開発を目指している。
LLM生成合成データ(GPT3.5)と非最大抑圧(NMS)アルゴリズムを用いてBERTに基づくスパン抽出モデルを訓練する。
以上の結果から,20因子のセットによる臨床データによる総合成績 (0.70 F1) と重要なDTDのサブセットにおける高いパフォーマンス (0.85 F1 と 0.95 の精度) が得られた。
論文 参考訳(メタデータ) (2024-02-12T13:34:33Z) - MedDistant19: A Challenging Benchmark for Distantly Supervised
Biomedical Relation Extraction [19.046156065686308]
遠隔監視は、注釈付きデータの不足に対処するために一般的に使用される。
バイオDSREモデルは、いくつかのベンチマークで非常に正確な結果が得られるように見える。
しかし,タスクの難易度を考慮し,このような印象的な結果の有効性について検討した。
論文 参考訳(メタデータ) (2022-04-10T22:07:25Z) - Assessment of contextualised representations in detecting outcome
phrases in clinical trials [14.584741378279316]
本稿では,300 PubMed の要約を専門的に注釈付けしたデータセット "EBM-COMET" を紹介する。
結果の抽出には,事前学習した文脈表現を微調整する。
ベストモデル(BioBERT)は81.5%のF1、81.3%の感度、98.0%の特異性を達成している。
論文 参考訳(メタデータ) (2022-02-13T15:08:00Z) - Bootstrapping Your Own Positive Sample: Contrastive Learning With
Electronic Health Record Data [62.29031007761901]
本稿では,新しいコントラスト型正規化臨床分類モデルを提案する。
EHRデータに特化した2つのユニークなポジティブサンプリング戦略を紹介します。
私たちのフレームワークは、現実世界のCOVID-19 EHRデータの死亡リスクを予測するために、競争の激しい実験結果をもたらします。
論文 参考訳(メタデータ) (2021-04-07T06:02:04Z) - HINT: Hierarchical Interaction Network for Trial Outcome Prediction
Leveraging Web Data [56.53715632642495]
臨床試験は、有効性、安全性、または患者採用の問題により、不確実な結果に直面する。
本稿では,より一般的な臨床試験結果予測のための階層型Interaction Network(HINT)を提案する。
論文 参考訳(メタデータ) (2021-02-08T15:09:07Z) - UNITE: Uncertainty-based Health Risk Prediction Leveraging Multi-sourced
Data [81.00385374948125]
我々はUNcertaInTyベースのhEalth Risk Prediction(UNITE)モデルを提案する。
UNITEは、複数ソースの健康データを活用した正確な疾患リスク予測と不確実性推定を提供する。
非アルコール性脂肪肝疾患(NASH)とアルツハイマー病(AD)の実態予測タスクにおけるUNITEの評価を行った。
UNITEはAD検出のF1スコアで最大0.841点、NASH検出のPR-AUCで最大0.609点を達成し、最高のベースラインで最大19%の高パフォーマンスを達成している。
論文 参考訳(メタデータ) (2020-10-22T02:28:11Z) - Understanding Clinical Trial Reports: Extracting Medical Entities and
Their Relations [33.30381080306156]
医療専門家は、意思決定を知らせるために、手動で記事から情報を取り出す必要がある。
本研究は, (a) 臨床試験を記載した全文記事から治療結果と成果を抽出し, (b) 後者に関して, 前者に対して報告された結果の推測を行うことの両目的について考察する。
論文 参考訳(メタデータ) (2020-10-07T17:50:58Z) - Predicting Clinical Diagnosis from Patients Electronic Health Records
Using BERT-based Neural Networks [62.9447303059342]
医療コミュニティにおけるこの問題の重要性を示す。
本稿では,変換器 (BERT) モデルによる2方向表現の分類順序の変更について述べる。
約400万人のユニークな患者訪問からなる、大規模なロシアのEHRデータセットを使用します。
論文 参考訳(メタデータ) (2020-07-15T09:22:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。