論文の概要: Can artificial intelligence predict clinical trial outcomes?
- arxiv url: http://arxiv.org/abs/2411.17595v2
- Date: Tue, 18 Mar 2025 00:45:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-19 16:29:10.558803
- Title: Can artificial intelligence predict clinical trial outcomes?
- Title(参考訳): 人工知能は臨床試験の結果を予測することができるか?
- Authors: Shuyi Jin, Lu Chen, Hongru Ding, Meijie Wang, Lun Yu,
- Abstract要約: 本研究では,大規模言語モデル (LLM) とHINTモデルの性能評価を行い,臨床治験結果の予測を行った。
その結果, GPT-4o は LLM の総合的な性能に優れるが, 負の結果の同定に苦慮していることがわかった。
- 参考スコア(独自算出の注目度): 5.326858857564308
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This study evaluates the performance of large language models (LLMs) and the HINT model in predicting clinical trial outcomes, focusing on metrics including Balanced Accuracy, Matthews Correlation Coefficient (MCC), Recall, and Specificity. Results show that GPT-4o achieves superior overall performance among LLMs but, like its counterparts (GPT-3.5, GPT-4mini, Llama3), struggles with identifying negative outcomes. In contrast, HINT excels in negative sample recognition and demonstrates resilience to external factors (e.g., recruitment challenges) but underperforms in oncology trials, a major component of the dataset. LLMs exhibit strengths in early-phase trials and simpler endpoints like Overall Survival (OS), while HINT shows consistency across trial phases and excels in complex endpoints (e.g., Objective Response Rate). Trial duration analysis reveals improved model performance for medium- to long-term trials, with GPT-4o and HINT displaying stability and enhanced specificity, respectively. We underscore the complementary potential of LLMs (e.g., GPT-4o, Llama3) and HINT, advocating for hybrid approaches to leverage GPT-4o's predictive power and HINT's specificity in clinical trial outcome forecasting.
- Abstract(参考訳): 本研究では,大言語モデル(LLM)とHINTモデル(HINTモデル)を用いて臨床治験結果の予測を行い,バランスド精度,マシューズ相関係数(MCC),リコール,特異性などの指標に着目した。
その結果, GPT-4o は LLM の総合成績に優れるが, GPT-3.5, GPT-4mini, Llama3 と同様, 負の結果の同定に苦慮していることがわかった。
対照的にHINTは、負のサンプル認識に優れ、外部要因(例えば、採用課題)に対するレジリエンスを示すが、データセットの主要なコンポーネントであるオンコロジートライアルではパフォーマンスが低い。
LLMは、アーリーフェーズのトライアルと、全体サバイバル(OS)のようなより単純なエンドポイントで、HINTはトライアルフェーズ間で一貫性を示し、複雑なエンドポイント(例えば、Objective Response Rate)で優れています。
GPT-4oとHINTはそれぞれ安定性と特異性の向上を図った。
LLMs (eg , GPT-4o, Llama3) と HINT の相補的可能性を強調し, GPT-4o の予測能力と臨床治験結果予測における HINT の特異性を利用したハイブリッドアプローチを提唱した。
関連論文リスト
- GPT-4 on Clinic Depression Assessment: An LLM-Based Pilot Study [0.6999740786886538]
転写解析に基づく臨床うつ病評価におけるGPT-4の使用について検討した。
本稿では,患者インタビューを2つのカテゴリーに分類するモデルの能力について検討する。
その結果, GPT-4の精度およびF1スコアは, 構成によって大きく変動することが示唆された。
論文 参考訳(メタデータ) (2024-12-31T00:32:43Z) - Arges: Spatio-Temporal Transformer for Ulcerative Colitis Severity Assessment in Endoscopy Videos [2.0735422289416605]
専門家のMES/UCEISアノテーションは時間を要するため、ラター間のばらつきに影響を受けやすい。
エンド・ツー・エンド(e2e)トレーニングを備えたCNNベースの弱い教師付きモデルでは、新しい疾患スコアへの一般化が欠如している。
アルジェス(Arges)は、内視鏡で病気の重症度を推定するために位置エンコーディングを組み込んだ深層学習フレームワークである。
論文 参考訳(メタデータ) (2024-10-01T09:23:14Z) - LLMs for clinical risk prediction [0.0]
GPT-4は陽性例の同定に重大な欠陥を示し、デリリウムリスクに対する信頼性の高い推定値の提供に苦慮した。
Clinalytix Medical AIは精度が優れていた。
論文 参考訳(メタデータ) (2024-09-16T11:34:40Z) - TrialBench: Multi-Modal Artificial Intelligence-Ready Clinical Trial Datasets [57.067409211231244]
本稿では,マルチモーダルデータ(例えば,薬物分子,疾患コード,テキスト,分類・数値的特徴)と臨床治験設計における8つの重要な予測課題をカバーするAIreadyデータセットを精巧にキュレートした。
データセットのユーザビリティと信頼性を確保するため、各タスクに基本的な検証方法を提供する。
このようなオープンアクセスデータセットが利用可能になることは、臨床試験設計のための高度なAIアプローチの開発を促進することを期待する。
論文 参考訳(メタデータ) (2024-06-30T09:13:10Z) - Language Interaction Network for Clinical Trial Approval Estimation [37.60098683485169]
本稿では,言語相互作用ネットワーク(LINT, Language Interaction Network)について紹介する。
臨床治験の3段階にわたって厳格にLINTを試験し,ROC-AUCスコアは0.770,0.740,0.748となった。
論文 参考訳(メタデータ) (2024-04-26T14:50:59Z) - TrialDura: Hierarchical Attention Transformer for Interpretable Clinical Trial Duration Prediction [19.084936647082632]
マルチモーダルデータを用いて臨床試験期間を推定する機械学習に基づくTrialDuraを提案する。
バイオメディカルコンテキストに特化されたBio-BERT埋め込みにエンコードして,より深く,より関連するセマンティック理解を提供する。
提案モデルでは, 平均絶対誤差(MAE)が1.04年, 根平均二乗誤差(RMSE)が1.39年であった。
論文 参考訳(メタデータ) (2024-04-20T02:12:59Z) - Comprehensive Reassessment of Large-Scale Evaluation Outcomes in LLMs: A Multifaceted Statistical Approach [64.42462708687921]
評価の結果、スケーリング、トレーニングタイプ、アーキテクチャなどの要因がLLMのパフォーマンスに大きな影響を与えていることが明らかになった。
本研究は, これらのLCMの徹底的な再検討に着手し, 現状評価手法における不整合性に着目した。
これには、ANOVA、Tukey HSDテスト、GAMM、クラスタリング技術などが含まれる。
論文 参考訳(メタデータ) (2024-03-22T14:47:35Z) - Large Language Models in Medical Term Classification and Unexpected
Misalignment Between Response and Reasoning [28.355000184014084]
本研究は, 軽度認知障害 (MCI) 患者を退院サマリーから識別する, 最先端の大規模言語モデル (LLMs) の有効性を評価するものである。
データは、モデルの微調整と評価のために、トレーニング、検証、テストセットに7:2:1の比率で分割された。
FalconやLLaMA 2のようなオープンソースのモデルは高い精度を達成したが、説明的推論に欠けていた。
論文 参考訳(メタデータ) (2023-12-19T17:36:48Z) - TREEMENT: Interpretable Patient-Trial Matching via Personalized Dynamic
Tree-Based Memory Network [54.332862955411656]
臨床試験は薬物開発に不可欠であるが、しばしば高価で非効率な患者募集に苦しむ。
近年,患者と臨床試験を自動マッチングすることで患者採用を高速化する機械学習モデルが提案されている。
本稿では,TREement という名前の動的ツリーベースメモリネットワークモデルを導入する。
論文 参考訳(メタデータ) (2023-07-19T12:35:09Z) - SPOT: Sequential Predictive Modeling of Clinical Trial Outcome with
Meta-Learning [67.8195828626489]
臨床試験は薬物開発に不可欠であるが、時間を要する、費用がかかる、失敗する傾向がある。
本稿では,まず,複数ソースの臨床試験データを関連するトライアルトピックにクラスタリングするために,臨床トライアル結果の逐次予測mOdeling(SPOT)を提案する。
タスクとして各トライアルシーケンスを考慮して、メタ学習戦略を使用して、モデルが最小限のアップデートで新しいタスクに迅速に適応できるポイントを達成する。
論文 参考訳(メタデータ) (2023-04-07T23:04:27Z) - Large Language Models for Healthcare Data Augmentation: An Example on
Patient-Trial Matching [49.78442796596806]
患者-心電図マッチング(LLM-PTM)のための革新的なプライバシ対応データ拡張手法を提案する。
本実験では, LLM-PTM法を用いて平均性能を7.32%向上させ, 新しいデータへの一般化性を12.12%向上させた。
論文 参考訳(メタデータ) (2023-03-24T03:14:00Z) - Benchmarking Heterogeneous Treatment Effect Models through the Lens of
Interpretability [82.29775890542967]
治療のパーソナライズされた効果を見積もるのは複雑だが、普及している問題である。
ヘテロジニアス処理効果推定に関する機械学習文献の最近の進歩は、洗練されたが不透明なツールの多くを生み出した。
我々は、ポストホックな特徴重要度法を用いて、モデルの予測に影響を及ぼす特徴を特定する。
論文 参考訳(メタデータ) (2022-06-16T17:59:05Z) - Bootstrapping Your Own Positive Sample: Contrastive Learning With
Electronic Health Record Data [62.29031007761901]
本稿では,新しいコントラスト型正規化臨床分類モデルを提案する。
EHRデータに特化した2つのユニークなポジティブサンプリング戦略を紹介します。
私たちのフレームワークは、現実世界のCOVID-19 EHRデータの死亡リスクを予測するために、競争の激しい実験結果をもたらします。
論文 参考訳(メタデータ) (2021-04-07T06:02:04Z) - HINT: Hierarchical Interaction Network for Trial Outcome Prediction
Leveraging Web Data [56.53715632642495]
臨床試験は、有効性、安全性、または患者採用の問題により、不確実な結果に直面する。
本稿では,より一般的な臨床試験結果予測のための階層型Interaction Network(HINT)を提案する。
論文 参考訳(メタデータ) (2021-02-08T15:09:07Z) - MIA-Prognosis: A Deep Learning Framework to Predict Therapy Response [58.0291320452122]
本稿では,患者の予後と治療反応を予測するための統合型深層学習手法を提案する。
我々は,マルチモーダル非同期時系列分類タスクとして,確率モデリングを定式化する。
我々の予測モデルは、長期生存の観点から、低リスク、高リスクの患者をさらに階層化する可能性がある。
論文 参考訳(メタデータ) (2020-10-08T15:30:17Z) - Learning for Dose Allocation in Adaptive Clinical Trials with Safety
Constraints [84.09488581365484]
新しい化合物の有効性と毒性の関係がより複雑になるにつれて、第1相線量測定試験はますます困難になっている。
最も一般的に使われている方法は、毒性事象のみから学習することで、最大許容量(MTD)を特定することである。
本稿では, 毒性安全性の制約を高い確率で満たしつつ, 累積効果を最大化することを目的とした, 適応型臨床試験手法を提案する。
論文 参考訳(メタデータ) (2020-06-09T03:06:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。