論文の概要: Automatically Labeling $200B Life-Saving Datasets: A Large Clinical Trial Outcome Benchmark
- arxiv url: http://arxiv.org/abs/2406.10292v1
- Date: Thu, 13 Jun 2024 04:23:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-06-19 01:11:41.781586
- Title: Automatically Labeling $200B Life-Saving Datasets: A Large Clinical Trial Outcome Benchmark
- Title(参考訳): 20億ドルのライフセービングデータセットを自動ラベル付け:大規模臨床試験の結果
- Authors: Chufan Gao, Jathurshan Pradeepkumar, Trisha Das, Shivashankar Thati, Jimeng Sun,
- Abstract要約: 本稿では,約479Kの治験結果データセットであるCTOデータセットについて紹介する。
CTOのラベルは、監督されたTOPデータセットのテスト分割から、監督された臨床試験結果ラベルと91 F1で前例のない合意を示している。
- 参考スコア(独自算出の注目度): 24.663798850232588
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The global cost of drug discovery and development exceeds $200 billion annually. The main results of drug discovery and development are the outcomes of clinical trials, which directly influence the regulatory approval of new drug candidates and ultimately affect patient outcomes. Despite their significance, large-scale, high-quality clinical trial outcome data are not readily available to the public. Suppose a large clinical trial outcome dataset is provided; machine learning researchers can potentially develop accurate prediction models using past trials and outcome labels, which could help prioritize and optimize therapeutic programs, ultimately benefiting patients. This paper introduces Clinical Trial Outcome (CTO) dataset, the largest trial outcome dataset with around 479K clinical trials, aggregating outcomes from multiple sources of weakly supervised labels, minimizing the noise from individual sources, and eliminating the need for human annotation. These sources include large language model (LLM) decisions on trial-related documents, news headline sentiments, stock prices of trial sponsors, trial linkages across phases, and other signals such as patient dropout rates and adverse events. CTO's labels show unprecedented agreement with supervised clinical trial outcome labels from test split of the supervised TOP dataset, with a 91 F1.
- Abstract(参考訳): 医薬品の発見・開発コストは年間200億ドルを超えている。
薬物の発見と開発の主な成果は臨床試験の結果であり、新しい薬物候補の規制承認に直接影響を与え、最終的には患者の結果に影響を及ぼす。
その重要性にもかかわらず、大規模で高品質な臨床試験結果データが一般に公開されていない。
機械学習研究者は、過去の臨床試験と結果ラベルを使用して正確な予測モデルを開発することが可能であり、治療プログラムの優先順位付けと最適化に役立ち、最終的には患者に利益をもたらす可能性がある。
本稿では,約479Kの治験結果データセットであるCTOデータセットについて紹介し,弱教師付きラベルの複数のソースからの結果を集約し,個々のソースからのノイズを最小限に抑え,人為的アノテーションの必要性を排除した。
これらのソースには、トライアル関連の文書に関する大きな言語モデル(LLM)の決定、ニュースヘッドラインの感情、トライアルスポンサーの株価、フェーズ間のトライアルリンク、そして患者のドロップアウト率や悪い出来事などの他のシグナルが含まれる。
CTOのラベルは、監督されたTOPデータセットのテスト分割から、監督された臨床試験結果ラベルと91 F1で前例のない合意を示している。
関連論文リスト
- Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases [48.87360916431396]
MedR-Benchは1,453例の構造化患者のベンチマークデータセットで、推論基準を付した注釈付きである。
本稿では,3つの批判的診察勧告,診断決定,治療計画を含む枠組みを提案し,患者のケアジャーニー全体をシミュレートする。
このベンチマークを用いて、DeepSeek-R1、OpenAI-o3-mini、Gemini-2.0-Flash Thinkingなど、最先端の5つのLCMを評価した。
論文 参考訳(メタデータ) (2025-03-06T18:35:39Z) - Systematic Literature Review on Clinical Trial Eligibility Matching [0.24554686192257422]
レビューでは、説明可能なAIと標準化されたオントロジーがクリニックの信頼を高め、採用を広げる方法が強調されている。
臨床治験採用におけるNLPの変革的ポテンシャルを十分に実現するためには、高度な意味的および時間的表現、拡張されたデータ統合、厳密な予測的評価のさらなる研究が必要である。
論文 参考訳(メタデータ) (2025-03-02T11:45:50Z) - CTP-LLM: Clinical Trial Phase Transition Prediction Using Large Language Models [5.4315728770105185]
臨床治験結果予測 (CTOP) を試験設計文書を用いて検討し, 相転移を自動的に予測する。
GPT-3.5-based model (CTP-LLM) は,ヒトに選択された特徴を必要とせず,試験のオリジナルプロトコルテキストを解析することにより臨床治験相転移を予測する。
論文 参考訳(メタデータ) (2024-08-20T16:43:05Z) - TrialBench: Multi-Modal Artificial Intelligence-Ready Clinical Trial Datasets [57.067409211231244]
本稿では,マルチモーダルデータ(例えば,薬物分子,疾患コード,テキスト,分類・数値的特徴)と臨床治験設計における8つの重要な予測課題をカバーするAIreadyデータセットを精巧にキュレートした。
データセットのユーザビリティと信頼性を確保するため、各タスクに基本的な検証方法を提供する。
このようなオープンアクセスデータセットが利用可能になることは、臨床試験設計のための高度なAIアプローチの開発を促進することを期待する。
論文 参考訳(メタデータ) (2024-06-30T09:13:10Z) - TrialDura: Hierarchical Attention Transformer for Interpretable Clinical Trial Duration Prediction [19.084936647082632]
マルチモーダルデータを用いて臨床試験期間を推定する機械学習に基づくTrialDuraを提案する。
バイオメディカルコンテキストに特化されたBio-BERT埋め込みにエンコードして,より深く,より関連するセマンティック理解を提供する。
提案モデルでは, 平均絶対誤差(MAE)が1.04年, 根平均二乗誤差(RMSE)が1.39年であった。
論文 参考訳(メタデータ) (2024-04-20T02:12:59Z) - CT-ADE: An Evaluation Benchmark for Adverse Drug Event Prediction from Clinical Trial Results [0.10051474951635876]
副作用薬物イベント(ADE)は臨床研究に大きな影響を与え、多くの臨床試験失敗を引き起こした。
この取り組みを支援するために,単薬理治療におけるADEのマルチラベル予測モデルであるCT-ADEを導入する。
CT-ADEは、臨床試験から抽出された168,984種類の薬物とADEのペアを含む2,497種類のユニークな薬物のデータを統合する。
論文 参考訳(メタデータ) (2024-04-19T12:04:32Z) - TREEMENT: Interpretable Patient-Trial Matching via Personalized Dynamic
Tree-Based Memory Network [54.332862955411656]
臨床試験は薬物開発に不可欠であるが、しばしば高価で非効率な患者募集に苦しむ。
近年,患者と臨床試験を自動マッチングすることで患者採用を高速化する機械学習モデルが提案されている。
本稿では,TREement という名前の動的ツリーベースメモリネットワークモデルを導入する。
論文 参考訳(メタデータ) (2023-07-19T12:35:09Z) - SPOT: Sequential Predictive Modeling of Clinical Trial Outcome with
Meta-Learning [67.8195828626489]
臨床試験は薬物開発に不可欠であるが、時間を要する、費用がかかる、失敗する傾向がある。
本稿では,まず,複数ソースの臨床試験データを関連するトライアルトピックにクラスタリングするために,臨床トライアル結果の逐次予測mOdeling(SPOT)を提案する。
タスクとして各トライアルシーケンスを考慮して、メタ学習戦略を使用して、モデルが最小限のアップデートで新しいタスクに迅速に適応できるポイントを達成する。
論文 参考訳(メタデータ) (2023-04-07T23:04:27Z) - Clinical trial site matching with improved diversity using fair policy
learning [56.01170456417214]
我々は,臨床治験記述を潜在的な試験現場のランクリストにマッピングするモデルを学習する。
既存のフェアネスフレームワークとは異なり、各トライアルサイトのグループメンバーシップは非バイナリである。
このようなマルチグループメンバーシップシナリオに対処するために、人口統計学的妥当性に基づく公平性基準を提案する。
論文 参考訳(メタデータ) (2022-04-13T16:35:28Z) - HINT: Hierarchical Interaction Network for Trial Outcome Prediction
Leveraging Web Data [56.53715632642495]
臨床試験は、有効性、安全性、または患者採用の問題により、不確実な結果に直面する。
本稿では,より一般的な臨床試験結果予測のための階層型Interaction Network(HINT)を提案する。
論文 参考訳(メタデータ) (2021-02-08T15:09:07Z) - Predicting Clinical Trial Results by Implicit Evidence Integration [40.80948875051806]
新規な臨床試験結果予測(CTRP)タスクを導入する。
CTRPフレームワークでは、モデルがPICO形式の臨床試験の提案を受け、その背景を入力として、その結果を予測する。
PICOを暗黙的に含む医学文献から大規模非構造化文を引用し,その結果を証拠とした。
論文 参考訳(メタデータ) (2020-10-12T12:25:41Z) - Semi-supervised Medical Image Classification with Relation-driven
Self-ensembling Model [71.80319052891817]
医用画像分類のための関係駆動型半教師付きフレームワークを提案する。
これは、摂動下で与えられた入力の予測一貫性を促進することでラベルのないデータを利用する。
本手法は,シングルラベルおよびマルチラベル画像分類のシナリオにおいて,最先端の半教師付き学習手法よりも優れる。
論文 参考訳(メタデータ) (2020-05-15T06:57:54Z) - Hemogram Data as a Tool for Decision-making in COVID-19 Management:
Applications to Resource Scarcity Scenarios [62.997667081978825]
新型コロナウイルス(COVID-19)のパンデミックは世界中の緊急対応システムに挑戦している。
本研究は, 症状患者の血液検査データから得られた機械学習モデルについて述べる。
提案されたモデルでは、新型コロナウイルスqRT-PCRの結果を、高い精度、感度、特異性で症状のある個人に予測することができる。
論文 参考訳(メタデータ) (2020-05-10T01:45:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。