論文の概要: Retrieval-Reasoning Large Language Model-based Synthetic Clinical Trial Generation
- arxiv url: http://arxiv.org/abs/2410.12476v1
- Date: Wed, 16 Oct 2024 11:46:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-17 13:44:07.409842
- Title: Retrieval-Reasoning Large Language Model-based Synthetic Clinical Trial Generation
- Title(参考訳): 検索型大規模言語モデルに基づく総合的臨床試験生成
- Authors: Zerui Xu, Fang Wu, Tianfan Fu, Yue Zhao,
- Abstract要約: 本稿では, 大規模言語モデルを利用した新規な検索・推論フレームワークを提案する。
urlClinicalTrials.govデータベースによる実際の臨床試験で実施された実験は、我々の合成データが実際のデータセットを効果的に増大させることができることを示した。
本研究は, 臨床研究を加速し, 患者プライバシの倫理基準を高くする上で, 総合臨床試験生成のためのLCMが期待できることを示唆する。
- 参考スコア(独自算出の注目度): 16.067841125848688
- License:
- Abstract: Machine learning (ML) exhibits promise in the clinical domain. However, it is constrained by data scarcity and ethical considerations, as the generation of clinical trials presents significant challenges due to stringent privacy regulations, high costs, and the extended duration required for conducting studies with human participants. Despite the advancements of large language models (LLMs) in general generation tasks, their potential in facilitating the generation of synthetic clinical trials is under-explored. To address this gap, we introduce a novel Retrieval-Reasoning few-shot framework that leverages LLMs to generate artificial yet realistic and diverse clinical trials with binary success/failure labels. Experiments conducted on real clinical trials from the \url{ClinicalTrials.gov} database demonstrate that our synthetic data can effectively augment real datasets. Furthermore, by fine-tuning a pre-trained model as a binary classifier on synthetic clinical trial datasets, we demonstrate that this augmentation enhances model training for downstream tasks such as trial outcome prediction. Our findings suggest that LLMs for synthetic clinical trial generation hold promise for accelerating clinical research and upholding ethical standards for patient privacy. The code is publicly available at https://anonymous.4open.science/r/Retrieval_Reasoning_Clinical_Trial_Generation-3EC4.
- Abstract(参考訳): 機械学習(ML)は、臨床領域で約束を示す。
しかし、データ不足と倫理的考慮によって制約されており、臨床試験の生成は、厳格なプライバシー規制、高いコスト、そして人間の被験者と研究を行うのに必要な期間の延長など、重大な課題を呈している。
汎用的な言語モデル (LLM) の進歩にもかかわらず, 合成臨床試験の創出を促進する可能性については, 未調査である。
このギャップに対処するために,LLMを利用して,バイナリ成功/障害ラベルを用いた人工的かつ現実的で多様な臨床試験を生成する,Retrieval-Reasoning少ショットフレームワークを導入する。
url{ClinicalTrials.gov}データベースによる実際の臨床試験で実施された実験は、我々の合成データが実際のデータセットを効果的に増大させることができることを示した。
さらに、合成臨床試験データセット上で、事前学習したモデルをバイナリ分類器として微調整することにより、この拡張により、試験結果予測などの下流タスクのモデルトレーニングが促進されることを実証する。
本研究は, 臨床研究を加速し, 患者プライバシの倫理基準を高くする上で, 総合臨床試験生成のためのLCMが期待できることを示唆する。
コードはhttps://anonymous.4open.science/r/Retrieval_Reasoning_Clinical_Trial_Generation-3EC4で公開されている。
関連論文リスト
- SynRL: Aligning Synthetic Clinical Trial Data with Human-preferred Clinical Endpoints Using Reinforcement Learning [23.643984146939573]
患者データ生成装置の性能向上のために強化学習を活用するSynRLを提案する。
提案手法は,生成したデータの品質を評価するためのデータ値批判機能と,データジェネレータとユーザニーズを整合させる強化学習を利用する。
論文 参考訳(メタデータ) (2024-11-11T19:19:46Z) - Clinical Evaluation of Medical Image Synthesis: A Case Study in Wireless Capsule Endoscopy [63.39037092484374]
本研究は,人工知能(AI)モデルを用いた医用合成データ生成の臨床評価に焦点を当てた。
本論文は,a) 医用専門家による合成画像の体系的評価のためのプロトコルを提示し,b) 高分解能WCE画像合成のための新しい変分オートエンコーダモデルであるTIDE-IIを評価する。
その結果、TIDE-IIは臨床的に関連性のあるWCE画像を生成し、データの不足に対処し、診断ツールの強化に役立つことがわかった。
論文 参考訳(メタデータ) (2024-10-31T19:48:50Z) - TrialSynth: Generation of Synthetic Sequential Clinical Trial Data [21.799655542003677]
変動オートエンコーダ(VAE)は、合成時系列臨床試験データを生成する際の課題に対処するために設計された。
実験の結果,Trial Synthは他の同等の手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-09-11T08:20:30Z) - TrialBench: Multi-Modal Artificial Intelligence-Ready Clinical Trial Datasets [57.067409211231244]
本稿では,マルチモーダルデータ(例えば,薬物分子,疾患コード,テキスト,分類・数値的特徴)と臨床治験設計における8つの重要な予測課題をカバーするAIreadyデータセットを精巧にキュレートした。
データセットのユーザビリティと信頼性を確保するため、各タスクに基本的な検証方法を提供する。
このようなオープンアクセスデータセットが利用可能になることは、臨床試験設計のための高度なAIアプローチの開発を促進することを期待する。
論文 参考訳(メタデータ) (2024-06-30T09:13:10Z) - PRISM: Patient Records Interpretation for Semantic Clinical Trial Matching using Large Language Models [4.438101430231511]
本報告では,実世界のERHを用いた臨床治験の大規模評価について述べる。
本研究は, LLMsが適切な臨床試験で患者に正確に適合する能力を示すものである。
論文 参考訳(メタデータ) (2024-04-23T22:33:19Z) - Zero-shot and Few-shot Generation Strategies for Artificial Clinical Records [1.338174941551702]
本研究は,Llama 2 LLMが患者情報を正確に反映した合成医療記録を作成する能力を評価するものである。
筆者らは,MIMIC-IVデータセットから得られたデータを用いて,現在史の物語を生成することに重点を置いている。
このチェーン・オブ・シークレットのアプローチにより、ゼロショットモデルが、ルージュのメトリクス評価に基づいて、微調整されたモデルと同等の結果が得られることが示唆された。
論文 参考訳(メタデータ) (2024-03-13T16:17:09Z) - TRIALSCOPE: A Unifying Causal Framework for Scaling Real-World Evidence
Generation with Biomedical Language Models [22.046231408373522]
観測データから実世界の証拠を抽出する統合フレームワークであるTRIALSCOPEについて述べる。
TRIALSCOPEは実世界のデータの高品質な構造化を可能とし,マーキーがん検診に匹敵する結果が得られることを示す。
論文 参考訳(メタデータ) (2023-11-02T15:15:47Z) - Knowledge-Infused Prompting: Assessing and Advancing Clinical Text Data
Generation with Large Language Models [48.07083163501746]
臨床自然言語処理には、ドメイン固有の課題に対処できる方法が必要である。
我々は,そのプロセスに知識を注入する,革新的で資源効率のよいアプローチであるClinGenを提案する。
7つのNLPタスクと16のデータセットを比較検討した結果,ClinGenはさまざまなタスクのパフォーマンスを継続的に向上させることがわかった。
論文 参考訳(メタデータ) (2023-11-01T04:37:28Z) - TREEMENT: Interpretable Patient-Trial Matching via Personalized Dynamic
Tree-Based Memory Network [54.332862955411656]
臨床試験は薬物開発に不可欠であるが、しばしば高価で非効率な患者募集に苦しむ。
近年,患者と臨床試験を自動マッチングすることで患者採用を高速化する機械学習モデルが提案されている。
本稿では,TREement という名前の動的ツリーベースメモリネットワークモデルを導入する。
論文 参考訳(メタデータ) (2023-07-19T12:35:09Z) - Large Language Models for Healthcare Data Augmentation: An Example on
Patient-Trial Matching [49.78442796596806]
患者-心電図マッチング(LLM-PTM)のための革新的なプライバシ対応データ拡張手法を提案する。
本実験では, LLM-PTM法を用いて平均性能を7.32%向上させ, 新しいデータへの一般化性を12.12%向上させた。
論文 参考訳(メタデータ) (2023-03-24T03:14:00Z) - MIA-Prognosis: A Deep Learning Framework to Predict Therapy Response [58.0291320452122]
本稿では,患者の予後と治療反応を予測するための統合型深層学習手法を提案する。
我々は,マルチモーダル非同期時系列分類タスクとして,確率モデリングを定式化する。
我々の予測モデルは、長期生存の観点から、低リスク、高リスクの患者をさらに階層化する可能性がある。
論文 参考訳(メタデータ) (2020-10-08T15:30:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。