論文の概要: Statistical NLP for Optimization of Clinical Trial Success Prediction in Pharmaceutical R&D
- arxiv url: http://arxiv.org/abs/2512.00586v1
- Date: Sat, 29 Nov 2025 18:40:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.310623
- Title: Statistical NLP for Optimization of Clinical Trial Success Prediction in Pharmaceutical R&D
- Title(参考訳): 医薬品R&Dにおける臨床治験成功予測の最適化のための統計的NLP
- Authors: Michael R. Doane,
- Abstract要約: 本研究は、神経科学分野における臨床試験における技術的および規制的成功(pTRS)の確率を推定するために設計されたNLP対応確率的分類器の開発と評価について述べる。
このモデルは1976-2024年に101,145回の臨床試験を完了した振り返りデータセットでテストされ、全体的なROC-AUCは0.64である。
BioBERTベースのモデルでは、全体的なROC-AUCは0.74で、Brier Scoreは0.185で、その予測は業界ベンチマークより平均して40%少ない2乗誤差であった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work presents the development and evaluation of an NLP-enabled probabilistic classifier designed to estimate the probability of technical and regulatory success (pTRS) for clinical trials in the field of neuroscience. While pharmaceutical R&D is plagued by high attrition rates and enormous costs, particularly within neuroscience, where success rates are below 10%, timely identification of promising programs can streamline resource allocation and reduce financial risk. Leveraging data from the ClinicalTrials.gov database and success labels from the recently developed Clinical Trial Outcome dataset, the classifier extracts text-based clinical trial features using statistical NLP techniques. These features were integrated into several non-LLM frameworks (logistic regression, gradient boosting, and random forest) to generate calibrated probability scores. Model performance was assessed on a retrospective dataset of 101,145 completed clinical trials spanning 1976-2024, achieving an overall ROC-AUC of 0.64. An LLM-based predictive model was then built using BioBERT, a domain-specific language representation encoder. The BioBERT-based model achieved an overall ROC-AUC of 0.74 and a Brier Score of 0.185, indicating its predictions had, on average, 40% less squared error than would be observed using industry benchmarks. The BioBERT-based model also made trial outcome predictions that were superior to benchmark values 70% of the time overall. By integrating NLP-driven insights into drug development decision-making, this work aims to enhance strategic planning and optimize investment allocation in neuroscience programs.
- Abstract(参考訳): 本研究は、神経科学分野における臨床試験における技術的および規制的成功(pTRS)の確率を推定するために設計されたNLP対応確率的分類器の開発と評価について述べる。
薬学R&Dは、特に成功率が10%未満の神経科学において、高い服薬率と莫大なコストに悩まされているが、有望なプログラムのタイムリーな識別は、資源割り当てを効率化し、財政的リスクを低減できる。
臨床Trials.govデータベースからのデータと、最近開発された臨床試験アウトカムデータセットからの成功ラベルを利用して、統計NLP技術を用いてテキストベースの臨床試験特徴を抽出する。
これらの特徴は、校正された確率スコアを生成するために、いくつかの非LLMフレームワーク(ロジスティック回帰、勾配上昇、ランダム森林)に統合された。
1976年から2024年までの101,145回の臨床試験を振り返りのデータセットで評価し、ROC-AUC全体の0.64を達成した。
LLMベースの予測モデルは、ドメイン固有の言語表現エンコーダであるBioBERTを用いて構築された。
BioBERTベースのモデルは総ROC-AUC 0.74 と Brier Score 0.185 を達成し、その予測は平均して業界ベンチマークより40%少ない2乗誤差を示した。
BioBERTベースのモデルもまた、ベンチマークの70%よりも優れた試験結果の予測を行った。
本研究は,NLP主導の洞察を医薬品開発決定に組み込むことで,戦略的計画の強化と神経科学プログラムにおける投資配分の最適化を目的とする。
関連論文リスト
- From Scores to Steps: Diagnosing and Improving LLM Performance in Evidence-Based Medical Calculations [45.414878840652115]
大規模言語モデル(LLM)は医療ベンチマークで有望な性能を示した。
しかし、医学的な計算を行う能力は未熟であり、評価も不十分である。
本研究は,臨床信頼性を重視した医療計算評価を再考する。
論文 参考訳(メタデータ) (2025-09-20T09:10:26Z) - AUTOCT: Automating Interpretable Clinical Trial Prediction with LLM Agents [47.640779069547534]
AutoCTは、大規模言語モデルの推論能力と古典的な機械学習の説明可能性を組み合わせた、新しいフレームワークである。
臨床治験予測タスクにおいて, AutoCT は SOTA 法と同等以上の性能を示した。
論文 参考訳(メタデータ) (2025-06-04T11:50:55Z) - PathBench: A comprehensive comparison benchmark for pathology foundation models towards precision oncology [33.51485504161335]
病理基盤モデル(PFM)の最初の包括的なベンチマークであるPathBenchを紹介する。
我々のフレームワークは大規模データを組み込んで,PFMの客観的比較を可能にする。
当院では10病院で8,549人の患者から15,888件のWSIを収集し,64件以上の診断・予後調査を行った。
論文 参考訳(メタデータ) (2025-05-26T16:42:22Z) - Novel Development of LLM Driven mCODE Data Model for Improved Clinical Trial Matching to Enable Standardization and Interoperability in Oncology Research [0.15346678870160887]
がんの費用は2023年だけで2080億ドルを超える。
腫瘍学における臨床試験および臨床医療に関する伝統的な手法は、しばしば手作業、時間、データ駆動アプローチの欠如である。
本稿では,がん領域の標準化,相互運用,交換を効率化するための新しい枠組みを提案する。
論文 参考訳(メタデータ) (2024-10-18T17:31:35Z) - Machine Learning for ALSFRS-R Score Prediction: Making Sense of the Sensor Data [44.99833362998488]
筋萎縮性側索硬化症(Amyotrophic Lateral Sclerosis、ALS)は、急速に進行する神経変性疾患である。
iDPP@CLEF 2024チャレンジを先導した今回の調査は,アプリから得られるセンサデータを活用することに焦点を当てている。
論文 参考訳(メタデータ) (2024-07-10T19:17:23Z) - A graph neural network-based model with Out-of-Distribution Robustness for enhancing Antiretroviral Therapy Outcome Prediction for HIV-1 [4.970653449274061]
HIV-1に対する抗レトロウイルス療法(ART)の結果を予測することは、非常に難しい臨床的課題である。
完全連結(FC)ニューラルネットとグラフニューラルネット(GNN)の機能を組み合わせた新しいジョイントフュージョンモデルを提案する。
グラフとして構造化されたこの知識ベースを利用することで、GNNコンポーネントはモデルが不均衡なデータ分布に適応できるようにする。
論文 参考訳(メタデータ) (2023-12-29T08:02:13Z) - TrialGraph: Machine Intelligence Enabled Insight from Graph Modelling of
Clinical Trials [0.0]
我々はCT.gov, AACT, TrialTroveデータベースから収集した治験データセット(n=1191臨床試験、100万人の患者を代表する)を紹介する。
次に,グラフ機械学習アルゴリズムの数学的基礎と実装について詳述する。
我々はこれらのモデルを用いて、疾患、既往の医療状況、治療に関する情報を与えられた臨床試験の副作用情報を予測する訓練を行った。
論文 参考訳(メタデータ) (2021-12-15T15:36:57Z) - A New Approach for Interpretability and Reliability in Clinical Risk
Prediction: Acute Coronary Syndrome Scenario [0.33927193323747895]
我々は、リスクスコアと機械学習モデルの両方の最高の特徴を組み合わせた、新たなリスクアセスメント方法論を作成するつもりです。
提案手法は、標準LRと同一の試験結果を得たが、より優れた解釈性とパーソナライゼーションを提供する。
個人予測の信頼性推定は誤分類率と大きな相関を示した。
論文 参考訳(メタデータ) (2021-10-15T19:33:46Z) - Ensemble model for pre-discharge icd10 coding prediction [45.82374977939355]
正確なコード予測のための複数の臨床データソースを組み込んだアンサンブルモデルを提案する。
平均精度は0.73および0.58、F1スコアは0.56および0.35、患者および外来データセットの主診断予測では0.71および0.4のマルチラベル分類精度を得る。
論文 参考訳(メタデータ) (2020-12-16T07:02:56Z) - UNITE: Uncertainty-based Health Risk Prediction Leveraging Multi-sourced
Data [81.00385374948125]
我々はUNcertaInTyベースのhEalth Risk Prediction(UNITE)モデルを提案する。
UNITEは、複数ソースの健康データを活用した正確な疾患リスク予測と不確実性推定を提供する。
非アルコール性脂肪肝疾患(NASH)とアルツハイマー病(AD)の実態予測タスクにおけるUNITEの評価を行った。
UNITEはAD検出のF1スコアで最大0.841点、NASH検出のPR-AUCで最大0.609点を達成し、最高のベースラインで最大19%の高パフォーマンスを達成している。
論文 参考訳(メタデータ) (2020-10-22T02:28:11Z) - Hemogram Data as a Tool for Decision-making in COVID-19 Management:
Applications to Resource Scarcity Scenarios [62.997667081978825]
新型コロナウイルス(COVID-19)のパンデミックは世界中の緊急対応システムに挑戦している。
本研究は, 症状患者の血液検査データから得られた機械学習モデルについて述べる。
提案されたモデルでは、新型コロナウイルスqRT-PCRの結果を、高い精度、感度、特異性で症状のある個人に予測することができる。
論文 参考訳(メタデータ) (2020-05-10T01:45:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。