論文の概要: Automatically Labeling $200B Life-Saving Datasets: A Large Clinical Trial Outcome Benchmark
- arxiv url: http://arxiv.org/abs/2406.10292v2
- Date: Mon, 03 Feb 2025 20:16:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 14:56:03.889855
- Title: Automatically Labeling $200B Life-Saving Datasets: A Large Clinical Trial Outcome Benchmark
- Title(参考訳): 20億ドルのライフセービングデータセットを自動ラベル付け:大規模臨床試験の結果
- Authors: Chufan Gao, Jathurshan Pradeepkumar, Trisha Das, Shivashankar Thati, Jimeng Sun,
- Abstract要約: 臨床試験の結果は、新薬の規制承認と患者の結果に影響を与える重要な役割を担っている。
その重要性にもかかわらず、大規模で高品質な臨床試験結果データが一般に公開されていない。
完全再現可能で大規模(約125Kの薬物および生物学的試験)な臨床治験アウトカム知識ベースについて紹介する。
また,2020-2024年に行われた最近の臨床試験のマニュアルアノテーションも実施した。
- 参考スコア(独自算出の注目度): 24.663798850232588
- License:
- Abstract: Background: The global cost of drug discovery and development exceeds $200 billion annually, with clinical trial outcomes playing a critical role in the regulatory approval of new drugs and impacting patient outcomes. Despite their significance, large-scale, high-quality clinical trial outcome data are not readily available to the public, limiting advances in trial outcome predictive modeling. Methods: We introduce the Clinical Trial Outcome (CTO) knowledge base, a fully reproducible, large-scale (around 125K drug and biologics trials), open-source of clinical trial information including large language model (LLM) interpretations of publications, matched trials over phases, sentiment analysis from news, stock prices of trial sponsors, and other trial-related metrics. From this knowledge base, we additionally performed manual annotation of a set of recent clinical trials from 2020-2024. Results: We evaluated the quality of our knowledge base by generating high-quality trial outcome labels that demonstrate strong agreement with previously published expert annotations, achieving an F1 score of 94 for Phase 3 trials and 91 across all phases. Additionally, we benchmarked a suite of standard machine learning models on our manually annotated set, highlighting the distribution shift of recent trials and the need for continuously updated labeling methods. Conclusions: By analyzing CTO's performance on recent trials, we showed a need for recent, high-quality trial outcome labels. We release our knowledge base and labels to the public at https://chufangao.github.io/CTOD, which will also be regularly updated to support ongoing research in clinical trial outcomes, offering insights that could optimize the drug development process.
- Abstract(参考訳): 背景: 医薬品の発見・開発における世界的なコストは年間200億ドルを超えており、臨床試験の結果は新薬の規制承認と患者への影響において重要な役割を担っている。
その重要性にもかかわらず、大規模で高品質な臨床試験結果データが一般には公開されておらず、試験結果予測モデリングの進歩が制限されている。
方法: 臨床試験アウトカム(CTO)知識ベース, 完全再現性, 大規模(約125Kの薬物および生物学的試験), 出版物の大言語モデル(LLM)解釈, 相応の試行, ニュースからの感情分析, 裁判スポンサーの株価, その他の試験関連指標をオープンソースとして紹介する。
この知見をもとに,2020-2024年の臨床試験を手作業で実施した。
結果: これまでに公表した専門家のアノテーションと強い一致を示す高品質な試験結果ラベルを作成し, 第3相試験94点, 全相91点のF1スコアを達成し, 知識ベースの品質を評価した。
さらに、手動でアノテートしたセットで標準機械学習モデルのスイートをベンチマークし、最近のトライアルの分散シフトと、継続的に更新されたラベリングメソッドの必要性を強調した。
結論: 最近のトライアルでCTOのパフォーマンスを分析することで、私たちは最近の高品質なトライアル結果ラベルの必要性を示しました。
我々は、臨床治験の結果の継続的な研究を支援するために定期的に更新され、医薬品開発プロセスを最適化する洞察を提供する https://chufangao.github.io/CTOD で、知識ベースとラベルを一般公開する。
関連論文リスト
- TrialBench: Multi-Modal Artificial Intelligence-Ready Clinical Trial Datasets [57.067409211231244]
本稿では,マルチモーダルデータ(例えば,薬物分子,疾患コード,テキスト,分類・数値的特徴)と臨床治験設計における8つの重要な予測課題をカバーするAIreadyデータセットを精巧にキュレートした。
データセットのユーザビリティと信頼性を確保するため、各タスクに基本的な検証方法を提供する。
このようなオープンアクセスデータセットが利用可能になることは、臨床試験設計のための高度なAIアプローチの開発を促進することを期待する。
論文 参考訳(メタデータ) (2024-06-30T09:13:10Z) - TrialDura: Hierarchical Attention Transformer for Interpretable Clinical Trial Duration Prediction [19.084936647082632]
マルチモーダルデータを用いて臨床試験期間を推定する機械学習に基づくTrialDuraを提案する。
バイオメディカルコンテキストに特化されたBio-BERT埋め込みにエンコードして,より深く,より関連するセマンティック理解を提供する。
提案モデルでは, 平均絶対誤差(MAE)が1.04年, 根平均二乗誤差(RMSE)が1.39年であった。
論文 参考訳(メタデータ) (2024-04-20T02:12:59Z) - TREEMENT: Interpretable Patient-Trial Matching via Personalized Dynamic
Tree-Based Memory Network [54.332862955411656]
臨床試験は薬物開発に不可欠であるが、しばしば高価で非効率な患者募集に苦しむ。
近年,患者と臨床試験を自動マッチングすることで患者採用を高速化する機械学習モデルが提案されている。
本稿では,TREement という名前の動的ツリーベースメモリネットワークモデルを導入する。
論文 参考訳(メタデータ) (2023-07-19T12:35:09Z) - AutoTrial: Prompting Language Models for Clinical Trial Design [53.630479619856516]
本稿では,言語モデルを用いた臨床検査基準の設計を支援するAutoTrialという手法を提案する。
70K以上の臨床試験で、AutoTrialが高品質な基準テキストを生成することが確認された。
論文 参考訳(メタデータ) (2023-05-19T01:04:16Z) - SPOT: Sequential Predictive Modeling of Clinical Trial Outcome with
Meta-Learning [67.8195828626489]
臨床試験は薬物開発に不可欠であるが、時間を要する、費用がかかる、失敗する傾向がある。
本稿では,まず,複数ソースの臨床試験データを関連するトライアルトピックにクラスタリングするために,臨床トライアル結果の逐次予測mOdeling(SPOT)を提案する。
タスクとして各トライアルシーケンスを考慮して、メタ学習戦略を使用して、モデルが最小限のアップデートで新しいタスクに迅速に適応できるポイントを達成する。
論文 参考訳(メタデータ) (2023-04-07T23:04:27Z) - Trial2Vec: Zero-Shot Clinical Trial Document Similarity Search using
Self-Supervision [42.859662256134584]
同様の臨床試験に注釈を付けずに自己監督を通じて学習するTrial2Vecを提案する。
臨床試験文書(タイトル、資格基準、対象疾患など)のメタ構造と臨床知識を活用して、コントラスト的なサンプルを自動生成する。
本手法は, 可視化により医療的に解釈可能な埋め込みを実現し, 試行錯誤における最良基準値に対して平均15%の精度向上が得られることを示す。
論文 参考訳(メタデータ) (2022-06-29T15:37:11Z) - Clinical trial site matching with improved diversity using fair policy
learning [56.01170456417214]
我々は,臨床治験記述を潜在的な試験現場のランクリストにマッピングするモデルを学習する。
既存のフェアネスフレームワークとは異なり、各トライアルサイトのグループメンバーシップは非バイナリである。
このようなマルチグループメンバーシップシナリオに対処するために、人口統計学的妥当性に基づく公平性基準を提案する。
論文 参考訳(メタデータ) (2022-04-13T16:35:28Z) - Validating GAN-BioBERT: A Methodology For Assessing Reporting Trends In
Clinical Trials [3.164363223464948]
本研究では,半教師付き自然言語プロセスモデルを用いた臨床試験要約のための感情分類アルゴリズムを開発した。
このアルゴリズムの精度は91.3%であり、マクロF1スコアは0.92であり、従来の手法に比べて精度が大幅に向上した。
論文 参考訳(メタデータ) (2021-06-01T17:51:54Z) - HINT: Hierarchical Interaction Network for Trial Outcome Prediction
Leveraging Web Data [56.53715632642495]
臨床試験は、有効性、安全性、または患者採用の問題により、不確実な結果に直面する。
本稿では,より一般的な臨床試験結果予測のための階層型Interaction Network(HINT)を提案する。
論文 参考訳(メタデータ) (2021-02-08T15:09:07Z) - Predicting Clinical Trial Results by Implicit Evidence Integration [40.80948875051806]
新規な臨床試験結果予測(CTRP)タスクを導入する。
CTRPフレームワークでは、モデルがPICO形式の臨床試験の提案を受け、その背景を入力として、その結果を予測する。
PICOを暗黙的に含む医学文献から大規模非構造化文を引用し,その結果を証拠とした。
論文 参考訳(メタデータ) (2020-10-12T12:25:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。