論文の概要: Automatically Labeling $200B Life-Saving Datasets: A Large Clinical Trial Outcome Benchmark
- arxiv url: http://arxiv.org/abs/2406.10292v1
- Date: Thu, 13 Jun 2024 04:23:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-19 01:11:41.781586
- Title: Automatically Labeling $200B Life-Saving Datasets: A Large Clinical Trial Outcome Benchmark
- Title(参考訳): 20億ドルのライフセービングデータセットを自動ラベル付け:大規模臨床試験の結果
- Authors: Chufan Gao, Jathurshan Pradeepkumar, Trisha Das, Shivashankar Thati, Jimeng Sun,
- Abstract要約: 本稿では,約479Kの治験結果データセットであるCTOデータセットについて紹介する。
CTOのラベルは、監督されたTOPデータセットのテスト分割から、監督された臨床試験結果ラベルと91 F1で前例のない合意を示している。
- 参考スコア(独自算出の注目度): 24.663798850232588
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The global cost of drug discovery and development exceeds $200 billion annually. The main results of drug discovery and development are the outcomes of clinical trials, which directly influence the regulatory approval of new drug candidates and ultimately affect patient outcomes. Despite their significance, large-scale, high-quality clinical trial outcome data are not readily available to the public. Suppose a large clinical trial outcome dataset is provided; machine learning researchers can potentially develop accurate prediction models using past trials and outcome labels, which could help prioritize and optimize therapeutic programs, ultimately benefiting patients. This paper introduces Clinical Trial Outcome (CTO) dataset, the largest trial outcome dataset with around 479K clinical trials, aggregating outcomes from multiple sources of weakly supervised labels, minimizing the noise from individual sources, and eliminating the need for human annotation. These sources include large language model (LLM) decisions on trial-related documents, news headline sentiments, stock prices of trial sponsors, trial linkages across phases, and other signals such as patient dropout rates and adverse events. CTO's labels show unprecedented agreement with supervised clinical trial outcome labels from test split of the supervised TOP dataset, with a 91 F1.
- Abstract(参考訳): 医薬品の発見・開発コストは年間200億ドルを超えている。
薬物の発見と開発の主な成果は臨床試験の結果であり、新しい薬物候補の規制承認に直接影響を与え、最終的には患者の結果に影響を及ぼす。
その重要性にもかかわらず、大規模で高品質な臨床試験結果データが一般に公開されていない。
機械学習研究者は、過去の臨床試験と結果ラベルを使用して正確な予測モデルを開発することが可能であり、治療プログラムの優先順位付けと最適化に役立ち、最終的には患者に利益をもたらす可能性がある。
本稿では,約479Kの治験結果データセットであるCTOデータセットについて紹介し,弱教師付きラベルの複数のソースからの結果を集約し,個々のソースからのノイズを最小限に抑え,人為的アノテーションの必要性を排除した。
これらのソースには、トライアル関連の文書に関する大きな言語モデル(LLM)の決定、ニュースヘッドラインの感情、トライアルスポンサーの株価、フェーズ間のトライアルリンク、そして患者のドロップアウト率や悪い出来事などの他のシグナルが含まれる。
CTOのラベルは、監督されたTOPデータセットのテスト分割から、監督された臨床試験結果ラベルと91 F1で前例のない合意を示している。
関連論文リスト
- TrialBench: Multi-Modal Artificial Intelligence-Ready Clinical Trial Datasets [57.067409211231244]
本稿では,マルチモーダルデータ(例えば,薬物分子,疾患コード,テキスト,分類・数値的特徴)と臨床治験設計における8つの重要な予測課題をカバーするAIreadyデータセットを精巧にキュレートした。
データセットのユーザビリティと信頼性を確保するため、各タスクに基本的な検証方法を提供する。
このようなオープンアクセスデータセットが利用可能になることは、臨床試験設計のための高度なAIアプローチの開発を促進することを期待する。
論文 参考訳(メタデータ) (2024-06-30T09:13:10Z) - TrialDura: Hierarchical Attention Transformer for Interpretable Clinical Trial Duration Prediction [19.084936647082632]
マルチモーダルデータを用いて臨床試験期間を推定する機械学習に基づくTrialDuraを提案する。
バイオメディカルコンテキストに特化されたBio-BERT埋め込みにエンコードして,より深く,より関連するセマンティック理解を提供する。
提案モデルでは, 平均絶対誤差(MAE)が1.04年, 根平均二乗誤差(RMSE)が1.39年であった。
論文 参考訳(メタデータ) (2024-04-20T02:12:59Z) - CT-ADE: An Evaluation Benchmark for Adverse Drug Event Prediction from Clinical Trial Results [0.10051474951635876]
副作用薬物イベント(ADE)は臨床研究に大きな影響を与え、多くの臨床試験失敗を引き起こした。
この取り組みを支援するために,単薬理治療におけるADEのマルチラベル予測モデルであるCT-ADEを導入する。
CT-ADEは、臨床試験から抽出された168,984種類の薬物とADEのペアを含む2,497種類のユニークな薬物のデータを統合する。
論文 参考訳(メタデータ) (2024-04-19T12:04:32Z) - TREEMENT: Interpretable Patient-Trial Matching via Personalized Dynamic
Tree-Based Memory Network [54.332862955411656]
臨床試験は薬物開発に不可欠であるが、しばしば高価で非効率な患者募集に苦しむ。
近年,患者と臨床試験を自動マッチングすることで患者採用を高速化する機械学習モデルが提案されている。
本稿では,TREement という名前の動的ツリーベースメモリネットワークモデルを導入する。
論文 参考訳(メタデータ) (2023-07-19T12:35:09Z) - SPOT: Sequential Predictive Modeling of Clinical Trial Outcome with
Meta-Learning [67.8195828626489]
臨床試験は薬物開発に不可欠であるが、時間を要する、費用がかかる、失敗する傾向がある。
本稿では,まず,複数ソースの臨床試験データを関連するトライアルトピックにクラスタリングするために,臨床トライアル結果の逐次予測mOdeling(SPOT)を提案する。
タスクとして各トライアルシーケンスを考慮して、メタ学習戦略を使用して、モデルが最小限のアップデートで新しいタスクに迅速に適応できるポイントを達成する。
論文 参考訳(メタデータ) (2023-04-07T23:04:27Z) - Clinical trial site matching with improved diversity using fair policy
learning [56.01170456417214]
我々は,臨床治験記述を潜在的な試験現場のランクリストにマッピングするモデルを学習する。
既存のフェアネスフレームワークとは異なり、各トライアルサイトのグループメンバーシップは非バイナリである。
このようなマルチグループメンバーシップシナリオに対処するために、人口統計学的妥当性に基づく公平性基準を提案する。
論文 参考訳(メタデータ) (2022-04-13T16:35:28Z) - HINT: Hierarchical Interaction Network for Trial Outcome Prediction
Leveraging Web Data [56.53715632642495]
臨床試験は、有効性、安全性、または患者採用の問題により、不確実な結果に直面する。
本稿では,より一般的な臨床試験結果予測のための階層型Interaction Network(HINT)を提案する。
論文 参考訳(メタデータ) (2021-02-08T15:09:07Z) - Predicting Clinical Trial Results by Implicit Evidence Integration [40.80948875051806]
新規な臨床試験結果予測(CTRP)タスクを導入する。
CTRPフレームワークでは、モデルがPICO形式の臨床試験の提案を受け、その背景を入力として、その結果を予測する。
PICOを暗黙的に含む医学文献から大規模非構造化文を引用し,その結果を証拠とした。
論文 参考訳(メタデータ) (2020-10-12T12:25:41Z) - Hemogram Data as a Tool for Decision-making in COVID-19 Management:
Applications to Resource Scarcity Scenarios [62.997667081978825]
新型コロナウイルス(COVID-19)のパンデミックは世界中の緊急対応システムに挑戦している。
本研究は, 症状患者の血液検査データから得られた機械学習モデルについて述べる。
提案されたモデルでは、新型コロナウイルスqRT-PCRの結果を、高い精度、感度、特異性で症状のある個人に予測することができる。
論文 参考訳(メタデータ) (2020-05-10T01:45:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。