論文の概要: Automatically Labeling Clinical Trial Outcomes: A Large-Scale Benchmark for Drug Development
- arxiv url: http://arxiv.org/abs/2406.10292v3
- Date: Thu, 06 Mar 2025 02:41:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-07 15:56:53.684576
- Title: Automatically Labeling Clinical Trial Outcomes: A Large-Scale Benchmark for Drug Development
- Title(参考訳): 臨床試験結果の自動ラベル付け:薬物開発のための大規模ベンチマーク
- Authors: Chufan Gao, Jathurshan Pradeepkumar, Trisha Das, Shivashankar Thati, Jimeng Sun,
- Abstract要約: 臨床試験アウトカム(CTO)ベンチマークは、約125,000の薬物および生物学的試験を含む、完全に再現可能な大規模リポジトリである。
成績ラベルの品質と信頼性を高めるため,2020年から2024年にかけて行われた臨床試験のデータセットを手動でアノテートした。
- 参考スコア(独自算出の注目度): 24.663798850232588
- License:
- Abstract: Background The cost of drug discovery and development is substantial, with clinical trial outcomes playing a critical role in regulatory approval and patient care. However, access to large-scale, high-quality clinical trial outcome data remains limited, hindering advancements in predictive modeling and evidence-based decision-making. Methods We present the Clinical Trial Outcome (CTO) benchmark, a fully reproducible, large-scale repository encompassing approximately 125,000 drug and biologics trials. CTO integrates large language model (LLM) interpretations of publications, trial phase progression tracking, sentiment analysis from news sources, stock price movements of trial sponsors, and additional trial-related metrics. Furthermore, we manually annotated a dataset of clinical trials conducted between 2020 and 2024 to enhance the quality and reliability of outcome labels. Results The trial outcome labels in the CTO benchmark agree strongly with expert annotations, achieving an F1 score of 94 for Phase 3 trials and 91 across all phases. Additionally, benchmarking standard machine learning models on our manually annotated dataset revealed distribution shifts in recent trials, underscoring the necessity of continuously updated labeling approaches. Conclusions By analyzing CTO's performance on recent clinical trials, we demonstrate the ongoing need for high-quality, up-to-date trial outcome labels. We publicly release the CTO knowledge base and annotated labels at https://chufangao.github.io/CTOD, with regular updates to support research on clinical trial outcomes and inform data-driven improvements in drug development.
- Abstract(参考訳): 背景 医薬品の発見・開発にかかるコストは著しく、臨床試験の結果は、規制承認と患者ケアにおいて重要な役割を担っている。
しかし、大規模かつ高品質な臨床試験結果データへのアクセスは限定的であり、予測モデリングや証拠に基づく意思決定の進歩を妨げる。
方法】約125,000の薬物および生物学的試験を含む完全再現可能な大規模リポジトリであるCTOベンチマークを提示する。
CTOは、出版物の大規模言語モデル(LLM)解釈、トライアルフェーズの進行追跡、ニュースソースからの感情分析、トライアルスポンサーの株価変動、その他のトライアル関連メトリクスを統合する。
さらに、2020年から2024年にかけて行われた臨床試験のデータセットを手動で注釈付けし、結果ラベルの品質と信頼性を高めた。
結果 CTOベンチマークの試験結果ラベルは専門家のアノテーションと強く一致しており、F1スコアはフェーズ3の試験で94、すべてのフェーズで91である。
さらに、手動でアノテートしたデータセット上での標準機械学習モデルのベンチマークでは、最近の試行において分散シフトが明らかになり、継続的に更新されるラベリングアプローチの必要性が強調された。
結論 最近の臨床試験におけるCTOのパフォーマンスを分析して、高品質で最新の治験結果ラベルの必要性を実証する。
我々は、CTOナレッジベースと注釈付きラベルをhttps://chufangao.github.io/CTODで公開し、定期的なアップデートを行い、臨床試験の結果の調査を支援し、薬物開発におけるデータ駆動的な改善を通知します。
関連論文リスト
- TrialBench: Multi-Modal Artificial Intelligence-Ready Clinical Trial Datasets [57.067409211231244]
本稿では,マルチモーダルデータ(例えば,薬物分子,疾患コード,テキスト,分類・数値的特徴)と臨床治験設計における8つの重要な予測課題をカバーするAIreadyデータセットを精巧にキュレートした。
データセットのユーザビリティと信頼性を確保するため、各タスクに基本的な検証方法を提供する。
このようなオープンアクセスデータセットが利用可能になることは、臨床試験設計のための高度なAIアプローチの開発を促進することを期待する。
論文 参考訳(メタデータ) (2024-06-30T09:13:10Z) - TrialDura: Hierarchical Attention Transformer for Interpretable Clinical Trial Duration Prediction [19.084936647082632]
マルチモーダルデータを用いて臨床試験期間を推定する機械学習に基づくTrialDuraを提案する。
バイオメディカルコンテキストに特化されたBio-BERT埋め込みにエンコードして,より深く,より関連するセマンティック理解を提供する。
提案モデルでは, 平均絶対誤差(MAE)が1.04年, 根平均二乗誤差(RMSE)が1.39年であった。
論文 参考訳(メタデータ) (2024-04-20T02:12:59Z) - TREEMENT: Interpretable Patient-Trial Matching via Personalized Dynamic
Tree-Based Memory Network [54.332862955411656]
臨床試験は薬物開発に不可欠であるが、しばしば高価で非効率な患者募集に苦しむ。
近年,患者と臨床試験を自動マッチングすることで患者採用を高速化する機械学習モデルが提案されている。
本稿では,TREement という名前の動的ツリーベースメモリネットワークモデルを導入する。
論文 参考訳(メタデータ) (2023-07-19T12:35:09Z) - AutoTrial: Prompting Language Models for Clinical Trial Design [53.630479619856516]
本稿では,言語モデルを用いた臨床検査基準の設計を支援するAutoTrialという手法を提案する。
70K以上の臨床試験で、AutoTrialが高品質な基準テキストを生成することが確認された。
論文 参考訳(メタデータ) (2023-05-19T01:04:16Z) - SPOT: Sequential Predictive Modeling of Clinical Trial Outcome with
Meta-Learning [67.8195828626489]
臨床試験は薬物開発に不可欠であるが、時間を要する、費用がかかる、失敗する傾向がある。
本稿では,まず,複数ソースの臨床試験データを関連するトライアルトピックにクラスタリングするために,臨床トライアル結果の逐次予測mOdeling(SPOT)を提案する。
タスクとして各トライアルシーケンスを考慮して、メタ学習戦略を使用して、モデルが最小限のアップデートで新しいタスクに迅速に適応できるポイントを達成する。
論文 参考訳(メタデータ) (2023-04-07T23:04:27Z) - Trial2Vec: Zero-Shot Clinical Trial Document Similarity Search using
Self-Supervision [42.859662256134584]
同様の臨床試験に注釈を付けずに自己監督を通じて学習するTrial2Vecを提案する。
臨床試験文書(タイトル、資格基準、対象疾患など)のメタ構造と臨床知識を活用して、コントラスト的なサンプルを自動生成する。
本手法は, 可視化により医療的に解釈可能な埋め込みを実現し, 試行錯誤における最良基準値に対して平均15%の精度向上が得られることを示す。
論文 参考訳(メタデータ) (2022-06-29T15:37:11Z) - Clinical trial site matching with improved diversity using fair policy
learning [56.01170456417214]
我々は,臨床治験記述を潜在的な試験現場のランクリストにマッピングするモデルを学習する。
既存のフェアネスフレームワークとは異なり、各トライアルサイトのグループメンバーシップは非バイナリである。
このようなマルチグループメンバーシップシナリオに対処するために、人口統計学的妥当性に基づく公平性基準を提案する。
論文 参考訳(メタデータ) (2022-04-13T16:35:28Z) - Validating GAN-BioBERT: A Methodology For Assessing Reporting Trends In
Clinical Trials [3.164363223464948]
本研究では,半教師付き自然言語プロセスモデルを用いた臨床試験要約のための感情分類アルゴリズムを開発した。
このアルゴリズムの精度は91.3%であり、マクロF1スコアは0.92であり、従来の手法に比べて精度が大幅に向上した。
論文 参考訳(メタデータ) (2021-06-01T17:51:54Z) - HINT: Hierarchical Interaction Network for Trial Outcome Prediction
Leveraging Web Data [56.53715632642495]
臨床試験は、有効性、安全性、または患者採用の問題により、不確実な結果に直面する。
本稿では,より一般的な臨床試験結果予測のための階層型Interaction Network(HINT)を提案する。
論文 参考訳(メタデータ) (2021-02-08T15:09:07Z) - Predicting Clinical Trial Results by Implicit Evidence Integration [40.80948875051806]
新規な臨床試験結果予測(CTRP)タスクを導入する。
CTRPフレームワークでは、モデルがPICO形式の臨床試験の提案を受け、その背景を入力として、その結果を予測する。
PICOを暗黙的に含む医学文献から大規模非構造化文を引用し,その結果を証拠とした。
論文 参考訳(メタデータ) (2020-10-12T12:25:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。