論文の概要: Filter Drug-induced Liver Injury Literature with Natural Language
Processing and Ensemble Learning
- arxiv url: http://arxiv.org/abs/2203.11015v1
- Date: Wed, 9 Mar 2022 23:53:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-27 11:32:12.865497
- Title: Filter Drug-induced Liver Injury Literature with Natural Language
Processing and Ensemble Learning
- Title(参考訳): 自然言語処理とアンサンブル学習を用いたフィルター薬物による肝障害文学
- Authors: Xianghao Zhan, Fanjin Wang, Olivier Gevaert
- Abstract要約: 薬物性肝障害 (DILI) は、肝臓を損傷する薬物の副作用である。
重度DILI症例では肝不全や死亡などの生命予後も報告された。
過去の出版物からのデータ抽出は手動ラベリングに大きく依存している。
バイオメディカルテキストの自動処理を可能にする人工知能の最近の進歩
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Drug-induced liver injury (DILI) describes the adverse effects of drugs that
damage liver. Life-threatening results including liver failure or death were
also reported in severe DILI cases. Therefore, DILI-related events are strictly
monitored for all approved drugs and the liver toxicity became important
assessments for new drug candidates. These DILI-related reports are documented
in hospital records, in clinical trial results, and also in research papers
that contain preliminary in vitro and in vivo experiments. Conventionally, data
extraction from previous publications relies heavily on resource-demanding
manual labelling, which considerably decreased the efficiency of the
information extraction process. The recent development of artificial
intelligence, particularly, the rise of natural language processing (NLP)
techniques, enabled the automatic processing of biomedical texts. In this
study, based on around 28,000 papers (titles and abstracts) provided by the
Critical Assessment of Massive Data Analysis (CAMDA) challenge, we benchmarked
model performances on filtering out DILI literature. Among four word
vectorization techniques, the model using term frequency-inverse document
frequency (TF-IDF) and logistic regression outperformed others with an accuracy
of 0.957 with our in-house test set. Furthermore, an ensemble model with
similar overall performances was implemented and was fine-tuned to lower the
false-negative cases to avoid neglecting potential DILI reports. The ensemble
model achieved a high accuracy of 0.954 and an F1 score of 0.955 in the
hold-out validation data provided by the CAMDA committee. Moreover, important
words in positive/negative predictions were identified via model
interpretation. Overall, the ensemble model reached satisfactory classification
results, which can be further used by researchers to rapidly filter
DILI-related literature.
- Abstract(参考訳): 薬物性肝障害 (DILI) は、肝臓を損傷する薬物の副作用である。
重度DILI症例では肝不全や死亡などの生命予後も報告された。
したがって、DILI関連事象は承認されたすべての薬物に対して厳格に監視され、肝毒性は新しい薬物候補にとって重要な評価基準となった。
これらのDILI関連報告は、病院の記録、臨床試験の結果、およびin vitroおよびin vivoの実験を含む研究論文に記録されている。
従来、過去の出版物からのデータ抽出は、情報抽出の効率を大幅に低下させるリソース要求のマニュアルラベリングに大きく依存していた。
近年の人工知能、特に自然言語処理(NLP)技術の発展により、バイオメディカルテキストの自動処理が可能になった。
本研究では,camda(massive data analysis)チャレンジの批判的評価から得られた約28,000の論文(タイトルと要約)に基づいて,dili文献のフィルタリングによるモデル性能のベンチマークを行った。
4つの単語ベクトル化手法のうち,TF-IDFとロジスティック回帰を用いたモデルでは,社内テストセットで0.957の精度で性能が向上した。
さらに、同様の全体的な性能を持つアンサンブルモデルが実装され、潜在的なdiliレポートの無視を避けるために偽陰性症例を小さくするために微調整された。
CAMDA委員会によって提供されたホールドアウト検証データにおいて,アンサンブルモデルの精度は0.954,F1スコアは0.955であった。
さらに, 肯定的/否定的予測における重要な単語をモデル解釈により同定した。
全体として、アンサンブルモデルは十分な分類結果に達し、研究者はDILI関連の文献を迅速にフィルタリングすることができる。
関連論文リスト
- EVolutionary Independent DEtermiNistiC Explanation [5.127310126394387]
本稿では進化的独立決定論的説明(EVIDENCE)理論を紹介する。
EVIDENCEはブラックボックスモデルから重要な信号を抽出する決定論的、モデルに依存しない方法を提供する。
EVIDENCEの実践的応用は、医療における診断精度の向上と音声信号分析の強化である。
論文 参考訳(メタデータ) (2025-01-20T12:05:14Z) - CRTRE: Causal Rule Generation with Target Trial Emulation Framework [47.2836994469923]
ターゲットトライアルエミュレーションフレームワーク(CRTRE)を用いた因果ルール生成という新しい手法を提案する。
CRTREは、アソシエーションルールの因果効果を推定するためにランダム化トライアル設計原則を適用している。
次に、病気発症予測などの下流アプリケーションにそのような関連ルールを組み込む。
論文 参考訳(メタデータ) (2024-11-10T02:40:06Z) - Data-Driven Machine Learning Approaches for Predicting In-Hospital Sepsis Mortality [0.0]
セプシスはアメリカ合衆国と世界中で多くの死者を負う重篤な状態である。
機械学習を用いたこれまでの研究では、特徴選択とモデル解釈可能性に制限があった。
本研究は,院内敗血症死亡率を予測するための,解釈可能かつ正確な機械学習モデルを開発することを目的とした。
論文 参考訳(メタデータ) (2024-08-03T00:28:25Z) - Machine Learning for ALSFRS-R Score Prediction: Making Sense of the Sensor Data [44.99833362998488]
筋萎縮性側索硬化症(Amyotrophic Lateral Sclerosis、ALS)は、急速に進行する神経変性疾患である。
iDPP@CLEF 2024チャレンジを先導した今回の調査は,アプリから得られるセンサデータを活用することに焦点を当てている。
論文 参考訳(メタデータ) (2024-07-10T19:17:23Z) - SemioLLM: Assessing Large Language Models for Semiological Analysis in Epilepsy Research [45.2233252981348]
大規模言語モデルは、一般的な医学的知識をエンコードする能力において有望な結果を示している。
内科的知識を活用しててててんかんの診断を行う技術について検討した。
論文 参考訳(メタデータ) (2024-07-03T11:02:12Z) - Detecting the Clinical Features of Difficult-to-Treat Depression using
Synthetic Data from Large Language Models [0.20971479389679337]
我々は,日常的に収集された物語(自由テキスト)電子健康記録データを問うことができるLarge Language Model(LLM)ベースのツールの開発を目指している。
LLM生成合成データ(GPT3.5)と非最大抑圧(NMS)アルゴリズムを用いてBERTに基づくスパン抽出モデルを訓練する。
以上の結果から,20因子のセットによる臨床データによる総合成績 (0.70 F1) と重要なDTDのサブセットにおける高いパフォーマンス (0.85 F1 と 0.95 の精度) が得られた。
論文 参考訳(メタデータ) (2024-02-12T13:34:33Z) - Assessment of contextualised representations in detecting outcome
phrases in clinical trials [14.584741378279316]
本稿では,300 PubMed の要約を専門的に注釈付けしたデータセット "EBM-COMET" を紹介する。
結果の抽出には,事前学習した文脈表現を微調整する。
ベストモデル(BioBERT)は81.5%のF1、81.3%の感度、98.0%の特異性を達成している。
論文 参考訳(メタデータ) (2022-02-13T15:08:00Z) - Bootstrapping Your Own Positive Sample: Contrastive Learning With
Electronic Health Record Data [62.29031007761901]
本稿では,新しいコントラスト型正規化臨床分類モデルを提案する。
EHRデータに特化した2つのユニークなポジティブサンプリング戦略を紹介します。
私たちのフレームワークは、現実世界のCOVID-19 EHRデータの死亡リスクを予測するために、競争の激しい実験結果をもたらします。
論文 参考訳(メタデータ) (2021-04-07T06:02:04Z) - HINT: Hierarchical Interaction Network for Trial Outcome Prediction
Leveraging Web Data [56.53715632642495]
臨床試験は、有効性、安全性、または患者採用の問題により、不確実な結果に直面する。
本稿では,より一般的な臨床試験結果予測のための階層型Interaction Network(HINT)を提案する。
論文 参考訳(メタデータ) (2021-02-08T15:09:07Z) - UNITE: Uncertainty-based Health Risk Prediction Leveraging Multi-sourced
Data [81.00385374948125]
我々はUNcertaInTyベースのhEalth Risk Prediction(UNITE)モデルを提案する。
UNITEは、複数ソースの健康データを活用した正確な疾患リスク予測と不確実性推定を提供する。
非アルコール性脂肪肝疾患(NASH)とアルツハイマー病(AD)の実態予測タスクにおけるUNITEの評価を行った。
UNITEはAD検出のF1スコアで最大0.841点、NASH検出のPR-AUCで最大0.609点を達成し、最高のベースラインで最大19%の高パフォーマンスを達成している。
論文 参考訳(メタデータ) (2020-10-22T02:28:11Z) - Understanding Clinical Trial Reports: Extracting Medical Entities and
Their Relations [33.30381080306156]
医療専門家は、意思決定を知らせるために、手動で記事から情報を取り出す必要がある。
本研究は, (a) 臨床試験を記載した全文記事から治療結果と成果を抽出し, (b) 後者に関して, 前者に対して報告された結果の推測を行うことの両目的について考察する。
論文 参考訳(メタデータ) (2020-10-07T17:50:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。