論文の概要: CTBench: A Comprehensive Benchmark for Evaluating Language Model Capabilities in Clinical Trial Design
- arxiv url: http://arxiv.org/abs/2406.17888v1
- Date: Tue, 25 Jun 2024 18:52:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-27 15:27:11.653273
- Title: CTBench: A Comprehensive Benchmark for Evaluating Language Model Capabilities in Clinical Trial Design
- Title(参考訳): CTBench: 臨床試験設計における言語モデル機能評価のための総合ベンチマーク
- Authors: Nafis Neehal, Bowen Wang, Shayom Debopadhaya, Soham Dan, Keerthiram Murugesan, Vibha Anand, Kristin P. Bennett,
- Abstract要約: CTBenchは、臨床研究設計を支援するために言語モデル(LM)を評価するベンチマークとして導入された。
このデータセットは、2つのデータセットで構成されている: "CT-Repo" は、臨床試験.govから得られた1,690の臨床試験のベースライン特徴を含み、"CT-Pub"は、関連する出版物から集められたより包括的なベースライン特徴を持つ100の試験のサブセットである。
- 参考スコア(独自算出の注目度): 15.2100541345819
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: CTBench is introduced as a benchmark to assess language models (LMs) in aiding clinical study design. Given study-specific metadata, CTBench evaluates AI models' ability to determine the baseline features of a clinical trial (CT), which include demographic and relevant features collected at the trial's start from all participants. These baseline features, typically presented in CT publications (often as Table 1), are crucial for characterizing study cohorts and validating results. Baseline features, including confounders and covariates, are also necessary for accurate treatment effect estimation in studies involving observational data. CTBench consists of two datasets: "CT-Repo," containing baseline features from 1,690 clinical trials sourced from clinicaltrials.gov, and "CT-Pub," a subset of 100 trials with more comprehensive baseline features gathered from relevant publications. Two LM-based evaluation methods are developed to compare the actual baseline feature lists against LM-generated responses. "ListMatch-LM" and "ListMatch-BERT" use GPT-4o and BERT scores (at various thresholds), respectively, for evaluation. To establish baseline results, advanced prompt engineering techniques using LLaMa3-70B-Instruct and GPT-4o in zero-shot and three-shot learning settings are applied to generate potential baseline features. The performance of GPT-4o as an evaluator is validated through human-in-the-loop evaluations on the CT-Pub dataset, where clinical experts confirm matches between actual and LM-generated features. The results highlight a promising direction with significant potential for improvement, positioning CTBench as a useful tool for advancing research on AI in CT design and potentially enhancing the efficacy and robustness of CTs.
- Abstract(参考訳): CTBenchは、臨床研究設計を支援するために言語モデル(LM)を評価するベンチマークとして導入された。
研究固有のメタデータを前提として、CTBenchは、臨床試験(CT)のベースラインの特徴を決定するAIモデルの能力を評価する。
これらの基本的特徴は、典型的にはCT出版物(しばしば表1)に示され、研究コホートを特徴づけ、結果を検証するために不可欠である。
共同創設者や共変数を含むベースライン機能は、観測データを含む研究において、正確な治療効果の推定にも必要である。
CTBenchは「CT-Repo」と「CT-Pub」の2つのデータセットから構成されており、関連する出版物から集められたより包括的なベースラインの特徴を持つ100の試験のサブセットである。
2つのLMに基づく評価手法を開発し、実際のベースライン特徴リストとLM生成応答を比較した。
ListMatch-LM" と "ListMatch-BERT" はそれぞれ GPT-4o と BERT のスコア(しきい値)を用いて評価を行う。
LLaMa3-70B-Instruct と GPT-4o を用いたゼロショットおよび3ショットの学習環境における高度なプロンプトエンジニアリング技術を適用して,潜在的なベースライン特徴を生成する。
評価装置としてのGPT-4oの性能はCT-Pubデータセット上でのヒト-イン-ループ評価により検証され,臨床専門家が実際の特徴とLM生成の特徴の一致を確認した。
この結果は、CTBenchをCT設計におけるAI研究の進歩と、CTの有効性と堅牢性を高めるための有用なツールとして位置づけ、改善の有望な方向性を強調している。
関連論文リスト
- Clinical Evaluation of Medical Image Synthesis: A Case Study in Wireless Capsule Endoscopy [63.39037092484374]
本研究は,人工知能(AI)モデルを用いた医用合成データ生成の臨床評価に焦点を当てた。
本論文は,a) 医用専門家による合成画像の体系的評価のためのプロトコルを提示し,b) 高分解能WCE画像合成のための新しい変分オートエンコーダモデルであるTIDE-IIを評価する。
その結果、TIDE-IIは臨床的に関連性のあるWCE画像を生成し、データの不足に対処し、診断ツールの強化に役立つことがわかった。
論文 参考訳(メタデータ) (2024-10-31T19:48:50Z) - Towards Efficient Patient Recruitment for Clinical Trials: Application of a Prompt-Based Learning Model [0.7373617024876725]
臨床試験は医薬品の介入を促進するのに不可欠であるが、適格な参加者を選ぶ際にボトルネックに直面している。
構造化されていない医療用テキストの複雑な性質は、参加者を効率的に識別する上での課題である。
本研究では,コホート選択課題に対するプロンプトベース大規模言語モデルの性能評価を目的とした。
論文 参考訳(メタデータ) (2024-04-24T20:42:28Z) - A Dataset and Benchmark for Hospital Course Summarization with Adapted Large Language Models [4.091402760759184]
大規模言語モデル(LLM)は、現実世界のタスクを自動化する際、顕著な能力を示しているが、医療応用の能力は示されていない。
臨床ノートと短い病院コースをカプセル化したMIMIC-IV-BHC(MIMIC-IV-BHC)を導入した。
臨床ノートを入力として,3つのオープンソースLSMと2つの独自LSMに対して,プロンプトベース(文脈内学習)と微調整ベースの適応戦略を適用した。
論文 参考訳(メタデータ) (2024-03-08T23:17:55Z) - Attribute Structuring Improves LLM-Based Evaluation of Clinical Text Summaries [56.31117605097345]
大規模言語モデル(LLM)は、正確な臨床テキスト要約を生成する可能性を示しているが、根拠付けと評価に関する問題に苦慮している。
本稿では、要約評価プロセスを構成するAttribute Structuring(AS)を用いた一般的な緩和フレームワークについて検討する。
ASは、臨床テキスト要約における人間のアノテーションと自動メトリクスの対応性を一貫して改善する。
論文 参考訳(メタデータ) (2024-03-01T21:59:03Z) - Towards Unifying Anatomy Segmentation: Automated Generation of a
Full-body CT Dataset via Knowledge Aggregation and Anatomical Guidelines [113.08940153125616]
我々は533巻のボクセルレベルのラベルを142ドル(約1万2000円)で、全身CTスキャンのデータセットを作成し、解剖学的包括的カバレッジを提供する。
提案手法はラベル集約段階において手作業によるアノテーションに依存しない。
我々はCTデータに142ドルの解剖学的構造を予測できる統一解剖学的セグメンテーションモデルをリリースする。
論文 参考訳(メタデータ) (2023-07-25T09:48:13Z) - TREEMENT: Interpretable Patient-Trial Matching via Personalized Dynamic
Tree-Based Memory Network [54.332862955411656]
臨床試験は薬物開発に不可欠であるが、しばしば高価で非効率な患者募集に苦しむ。
近年,患者と臨床試験を自動マッチングすることで患者採用を高速化する機械学習モデルが提案されている。
本稿では,TREement という名前の動的ツリーベースメモリネットワークモデルを導入する。
論文 参考訳(メタデータ) (2023-07-19T12:35:09Z) - Effective Matching of Patients to Clinical Trials using Entity
Extraction and Neural Re-ranking [8.200196331837576]
臨床試験(CT)は、不十分な患者募集のために失敗することが多い。
本稿では,患者と医療のパラダイムに対処するアプローチを提案することによって,CT検索の課題に取り組む。
論文 参考訳(メタデータ) (2023-07-01T16:42:39Z) - AutoTrial: Prompting Language Models for Clinical Trial Design [53.630479619856516]
本稿では,言語モデルを用いた臨床検査基準の設計を支援するAutoTrialという手法を提案する。
70K以上の臨床試験で、AutoTrialが高品質な基準テキストを生成することが確認された。
論文 参考訳(メタデータ) (2023-05-19T01:04:16Z) - Improving Large Language Models for Clinical Named Entity Recognition
via Prompt Engineering [20.534197056683695]
本研究は,臨床名付きエンティティ認識(NER)タスクにおける GPT-3.5 と GPT-4 の能力を定量化する。
我々は,ベースラインプロンプト,アノテーションガイドラインに基づくプロンプト,エラー解析に基づく命令,アノテーション付きサンプルを含むタスク固有のプロンプトフレームワークを開発した。
それぞれのプロンプトの有効性を評価し,BioClinicalBERTと比較した。
論文 参考訳(メタデータ) (2023-03-29T02:46:18Z) - Development and validation of a natural language processing algorithm to
pseudonymize documents in the context of a clinical data warehouse [53.797797404164946]
この研究は、この領域でツールやリソースを共有する際に直面する困難を浮き彫りにしている。
臨床文献のコーパスを12種類に分類した。
私たちは、ディープラーニングモデルと手動ルールの結果をマージして、ハイブリッドシステムを構築します。
論文 参考訳(メタデータ) (2023-03-23T17:17:46Z) - Clinical Trial Information Extraction with BERT [0.0]
臨床試験テキストから情報抽出を行うためのCT-BERTというフレームワークを提案する。
我々は、資格基準を抽出するために、名前付きエンティティ認識(NER)モデルを訓練した。
臨床試験NLPにおけるCT-BERTの有用性について検討した。
論文 参考訳(メタデータ) (2021-09-11T17:15:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。