Fugu-MT 論文翻訳(概要): Automatically Labeling $200B Life-Saving Datasets: A Large Clinical Trial Outcome Benchmark

論文の概要: Automatically Labeling $200B Life-Saving Datasets: A Large Clinical Trial Outcome Benchmark

arxiv url: http://arxiv.org/abs/2406.10292v1
Date: Thu, 13 Jun 2024 04:23:35 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-19 01:11:41.781586
Title: Automatically Labeling $200B Life-Saving Datasets: A Large Clinical Trial Outcome Benchmark
Title（参考訳）: 20億ドルのライフセービングデータセットを自動ラベル付け:大規模臨床試験の結果
Authors: Chufan Gao, Jathurshan Pradeepkumar, Trisha Das, Shivashankar Thati, Jimeng Sun,
Abstract要約: 本稿では,約479Kの治験結果データセットであるCTOデータセットについて紹介する。 CTOのラベルは、監督されたTOPデータセットのテスト分割から、監督された臨床試験結果ラベルと91 F1で前例のない合意を示している。
参考スコア（独自算出の注目度）: 24.663798850232588
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The global cost of drug discovery and development exceeds $200 billion annually. The main results of drug discovery and development are the outcomes of clinical trials, which directly influence the regulatory approval of new drug candidates and ultimately affect patient outcomes. Despite their significance, large-scale, high-quality clinical trial outcome data are not readily available to the public. Suppose a large clinical trial outcome dataset is provided; machine learning researchers can potentially develop accurate prediction models using past trials and outcome labels, which could help prioritize and optimize therapeutic programs, ultimately benefiting patients. This paper introduces Clinical Trial Outcome (CTO) dataset, the largest trial outcome dataset with around 479K clinical trials, aggregating outcomes from multiple sources of weakly supervised labels, minimizing the noise from individual sources, and eliminating the need for human annotation. These sources include large language model (LLM) decisions on trial-related documents, news headline sentiments, stock prices of trial sponsors, trial linkages across phases, and other signals such as patient dropout rates and adverse events. CTO's labels show unprecedented agreement with supervised clinical trial outcome labels from test split of the supervised TOP dataset, with a 91 F1.
Abstract（参考訳）: 医薬品の発見・開発コストは年間200億ドルを超えている。薬物の発見と開発の主な成果は臨床試験の結果であり、新しい薬物候補の規制承認に直接影響を与え、最終的には患者の結果に影響を及ぼす。その重要性にもかかわらず、大規模で高品質な臨床試験結果データが一般に公開されていない。機械学習研究者は、過去の臨床試験と結果ラベルを使用して正確な予測モデルを開発することが可能であり、治療プログラムの優先順位付けと最適化に役立ち、最終的には患者に利益をもたらす可能性がある。本稿では,約479Kの治験結果データセットであるCTOデータセットについて紹介し,弱教師付きラベルの複数のソースからの結果を集約し,個々のソースからのノイズを最小限に抑え,人為的アノテーションの必要性を排除した。これらのソースには、トライアル関連の文書に関する大きな言語モデル(LLM)の決定、ニュースヘッドラインの感情、トライアルスポンサーの株価、フェーズ間のトライアルリンク、そして患者のドロップアウト率や悪い出来事などの他のシグナルが含まれる。 CTOのラベルは、監督されたTOPデータセットのテスト分割から、監督された臨床試験結果ラベルと91 F1で前例のない合意を示している。

関連論文リスト

LiveClin: A Live Clinical Benchmark without Leakage [50.45415584327275]
LiveClinは、実際の臨床実践を近似するために設計されたライブベンチマークである。本研究は,患者を臨床経過全体にわたる複雑なマルチモーダルな評価シナリオに転換する。 LiveClin上で26のモデルを評価すると、これらの実世界のシナリオの難しさが明らかとなり、最高性能のモデルではケース精度が35.7%に達した。
論文参考訳（メタデータ） (2026-02-18T03:59:46Z)
Timely Clinical Diagnosis through Active Test Selection [49.091903570068155]
本稿では,現実の診断推論をよりうまくエミュレートするためのACTMED (Adaptive Clinical Test selection via Model-based Experimental Design)を提案する。 LLMは柔軟なシミュレータとして機能し、構造化されたタスク固有のトレーニングデータを必要とせずに、患者状態のもっともらしい分布を生成し、信念の更新をサポートする。我々は、実世界のデータセット上でACTMEDを評価し、診断精度、解釈可能性、リソース使用量を改善するためにテスト選択を最適化できることを示す。
論文参考訳（メタデータ） (2025-10-21T18:10:45Z)
Medical Reasoning in the Era of LLMs: A Systematic Review of Enhancement Techniques and Applications [59.721265428780946]
医学における大きな言語モデル(LLM)は印象的な能力を実現しているが、体系的で透明で検証可能な推論を行う能力に重大なギャップが残っている。本稿は、この新興分野に関する最初の体系的なレビューを提供する。本稿では,学習時間戦略とテスト時間メカニズムに分類した推論強化手法の分類法を提案する。
論文参考訳（メタデータ） (2025-08-01T14:41:31Z)
TrialMatchAI: An End-to-End AI-powered Clinical Trial Recommendation System to Streamline Patient-to-Trial Matching [0.0]
本稿では,患者間マッチングを自動化するAIを利用したレコメンデーションシステムTrialMatchAIを提案する。微調整されたオープンソースの大規模言語モデルに基づいて構築されたTrialMatchAIは、透明性を確保し、軽量なデプロイメントフットプリントを維持する。現実のバリデーションでは、腫瘍学患者の92%が、少なくとも1つの関連するトライアルを、トップ20のレコメンデーションで回収した。
論文参考訳（メタデータ） (2025-05-13T12:39:06Z)
Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases [48.87360916431396]
MedR-Benchは1,453例の構造化患者のベンチマークデータセットで、推論基準を付した注釈付きである。本稿では,3つの批判的診察勧告,診断決定,治療計画を含む枠組みを提案し,患者のケアジャーニー全体をシミュレートする。このベンチマークを用いて、DeepSeek-R1、OpenAI-o3-mini、Gemini-2.0-Flash Thinkingなど、最先端の5つのLCMを評価した。
論文参考訳（メタデータ） (2025-03-06T18:35:39Z)
Systematic Literature Review on Clinical Trial Eligibility Matching [0.24554686192257422]
レビューでは、説明可能なAIと標準化されたオントロジーがクリニックの信頼を高め、採用を広げる方法が強調されている。臨床治験採用におけるNLPの変革的ポテンシャルを十分に実現するためには、高度な意味的および時間的表現、拡張されたデータ統合、厳密な予測的評価のさらなる研究が必要である。
論文参考訳（メタデータ） (2025-03-02T11:45:50Z)
CTP-LLM: Clinical Trial Phase Transition Prediction Using Large Language Models [5.4315728770105185]
臨床治験結果予測 (CTOP) を試験設計文書を用いて検討し, 相転移を自動的に予測する。 GPT-3.5-based model (CTP-LLM) は,ヒトに選択された特徴を必要とせず,試験のオリジナルプロトコルテキストを解析することにより臨床治験相転移を予測する。
論文参考訳（メタデータ） (2024-08-20T16:43:05Z)
TrialBench: Multi-Modal Artificial Intelligence-Ready Clinical Trial Datasets [57.067409211231244]
本稿では,マルチモーダルデータ(例えば,薬物分子,疾患コード,テキスト,分類・数値的特徴)と臨床治験設計における8つの重要な予測課題をカバーするAIreadyデータセットを精巧にキュレートした。データセットのユーザビリティと信頼性を確保するため、各タスクに基本的な検証方法を提供する。このようなオープンアクセスデータセットが利用可能になることは、臨床試験設計のための高度なAIアプローチの開発を促進することを期待する。
論文参考訳（メタデータ） (2024-06-30T09:13:10Z)
TrialDura: Hierarchical Attention Transformer for Interpretable Clinical Trial Duration Prediction [19.084936647082632]
マルチモーダルデータを用いて臨床試験期間を推定する機械学習に基づくTrialDuraを提案する。バイオメディカルコンテキストに特化されたBio-BERT埋め込みにエンコードして,より深く,より関連するセマンティック理解を提供する。提案モデルでは, 平均絶対誤差(MAE)が1.04年, 根平均二乗誤差(RMSE)が1.39年であった。
論文参考訳（メタデータ） (2024-04-20T02:12:59Z)
CT-ADE: An Evaluation Benchmark for Adverse Drug Event Prediction from Clinical Trial Results [0.10051474951635876]
副作用薬物イベント(ADE)は臨床研究に大きな影響を与え、多くの臨床試験失敗を引き起こした。この取り組みを支援するために,単薬理治療におけるADEのマルチラベル予測モデルであるCT-ADEを導入する。 CT-ADEは、臨床試験から抽出された168,984種類の薬物とADEのペアを含む2,497種類のユニークな薬物のデータを統合する。
論文参考訳（メタデータ） (2024-04-19T12:04:32Z)
TREEMENT: Interpretable Patient-Trial Matching via Personalized Dynamic Tree-Based Memory Network [54.332862955411656]
臨床試験は薬物開発に不可欠であるが、しばしば高価で非効率な患者募集に苦しむ。近年,患者と臨床試験を自動マッチングすることで患者採用を高速化する機械学習モデルが提案されている。本稿では,TREement という名前の動的ツリーベースメモリネットワークモデルを導入する。
論文参考訳（メタデータ） (2023-07-19T12:35:09Z)
SPOT: Sequential Predictive Modeling of Clinical Trial Outcome with Meta-Learning [67.8195828626489]
臨床試験は薬物開発に不可欠であるが、時間を要する、費用がかかる、失敗する傾向がある。本稿では,まず,複数ソースの臨床試験データを関連するトライアルトピックにクラスタリングするために,臨床トライアル結果の逐次予測mOdeling(SPOT)を提案する。タスクとして各トライアルシーケンスを考慮して、メタ学習戦略を使用して、モデルが最小限のアップデートで新しいタスクに迅速に適応できるポイントを達成する。
論文参考訳（メタデータ） (2023-04-07T23:04:27Z)
Clinical trial site matching with improved diversity using fair policy learning [56.01170456417214]
我々は,臨床治験記述を潜在的な試験現場のランクリストにマッピングするモデルを学習する。既存のフェアネスフレームワークとは異なり、各トライアルサイトのグループメンバーシップは非バイナリである。このようなマルチグループメンバーシップシナリオに対処するために、人口統計学的妥当性に基づく公平性基準を提案する。
論文参考訳（メタデータ） (2022-04-13T16:35:28Z)
HINT: Hierarchical Interaction Network for Trial Outcome Prediction Leveraging Web Data [56.53715632642495]
臨床試験は、有効性、安全性、または患者採用の問題により、不確実な結果に直面する。本稿では,より一般的な臨床試験結果予測のための階層型Interaction Network(HINT)を提案する。
論文参考訳（メタデータ） (2021-02-08T15:09:07Z)
Predicting Clinical Trial Results by Implicit Evidence Integration [40.80948875051806]
新規な臨床試験結果予測(CTRP)タスクを導入する。 CTRPフレームワークでは、モデルがPICO形式の臨床試験の提案を受け、その背景を入力として、その結果を予測する。 PICOを暗黙的に含む医学文献から大規模非構造化文を引用し,その結果を証拠とした。
論文参考訳（メタデータ） (2020-10-12T12:25:41Z)
Semi-supervised Medical Image Classification with Relation-driven Self-ensembling Model [71.80319052891817]
医用画像分類のための関係駆動型半教師付きフレームワークを提案する。これは、摂動下で与えられた入力の予測一貫性を促進することでラベルのないデータを利用する。本手法は,シングルラベルおよびマルチラベル画像分類のシナリオにおいて,最先端の半教師付き学習手法よりも優れる。
論文参考訳（メタデータ） (2020-05-15T06:57:54Z)
Hemogram Data as a Tool for Decision-making in COVID-19 Management: Applications to Resource Scarcity Scenarios [62.997667081978825]
新型コロナウイルス(COVID-19)のパンデミックは世界中の緊急対応システムに挑戦している。本研究は, 症状患者の血液検査データから得られた機械学習モデルについて述べる。提案されたモデルでは、新型コロナウイルスqRT-PCRの結果を、高い精度、感度、特異性で症状のある個人に予測することができる。
論文参考訳（メタデータ） (2020-05-10T01:45:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。