論文の概要: EvidenceOutcomes: a Dataset of Clinical Trial Publications with Clinically Meaningful Outcomes
- arxiv url: http://arxiv.org/abs/2506.05380v1
- Date: Tue, 03 Jun 2025 02:22:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-09 17:28:43.106037
- Title: EvidenceOutcomes: a Dataset of Clinical Trial Publications with Clinically Meaningful Outcomes
- Title(参考訳): エビデンスアウトカム(Evidence Outcomes) : 臨床的に意味のあるアウトカムを伴う臨床トライアル公開のデータセット
- Authors: Yiliang Zhou, Abigail M. Newbury, Gongbo Zhang, Betina Ross Idnay, Hao Liu, Chunhua Weng, Yifan Peng,
- Abstract要約: エビデンスアウトカムズ(EvidenceOutcomes)は、医学文献から抽出された臨床的に有意義な結果の、新しく、大きく、注釈付きコーパスである。
EvidenceOutcomesは、将来の機械学習アルゴリズムの開発とテストのための共有ベンチマークとして機能する。
- 参考スコア(独自算出の注目度): 17.22091807858547
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The fundamental process of evidence extraction and synthesis in evidence-based medicine involves extracting PICO (Population, Intervention, Comparison, and Outcome) elements from biomedical literature. However, Outcomes, being the most complex elements, are often neglected or oversimplified in existing benchmarks. To address this issue, we present EvidenceOutcomes, a novel, large, annotated corpus of clinically meaningful outcomes extracted from biomedical literature. We first developed a robust annotation guideline for extracting clinically meaningful outcomes from text through iteration and discussion with clinicians and Natural Language Processing experts. Then, three independent annotators annotated the Results and Conclusions sections of a randomly selected sample of 500 PubMed abstracts and 140 PubMed abstracts from the existing EBM-NLP corpus. This resulted in EvidenceOutcomes with high-quality annotations of an inter-rater agreement of 0.76. Additionally, our fine-tuned PubMedBERT model, applied to these 500 PubMed abstracts, achieved an F1-score of 0.69 at the entity level and 0.76 at the token level on the subset of 140 PubMed abstracts from the EBM-NLP corpus. EvidenceOutcomes can serve as a shared benchmark to develop and test future machine learning algorithms to extract clinically meaningful outcomes from biomedical abstracts.
- Abstract(参考訳): 証拠に基づく医学におけるエビデンス抽出と合成の基本的なプロセスは、バイオメディカル文献からPICO(Population, Intervention, Comparison, Outcome)要素を抽出することである。
しかしながら、最も複雑な要素であるOutcomesは、しばしば既存のベンチマークで無視されるか、過剰に単純化される。
バイオメディカル文献から抽出した臨床的に有意な結果の新規,大規模,注釈付きコーパスであるEvidenceOutcomesについて紹介する。
我々はまず,臨床医や自然言語処理の専門家との反復と議論を通じて,テキストから臨床的に有意な成果を抽出するための堅牢なアノテーションガイドラインを開発した。
次に,既存のEMM-NLPコーパスから無作為に選択された500 PubMed抽象と140 PubMed抽象の3つのアノテータにアノテートと結論付けを行った。
この結果、EvidenceOutcomesは、レター間の合意である0.76の高品質なアノテーションを持つことになった。
さらに,これら500個のPubMed抽象体に適用した微調整PubMedBERTモデルでは,エンティティレベルでは0.69,トークンレベルでは0.76,ESM-NLPコーパスから140個のPubMed抽象体のサブセットで達成した。
EvidenceOutcomesは、将来の機械学習アルゴリズムを開発し、テストするための共有ベンチマークとして機能し、バイオメディカルな抽象物から臨床的に意味のある結果を抽出する。
関連論文リスト
- FactPICO: Factuality Evaluation for Plain Language Summarization of Medical Evidence [46.71469172542448]
本稿では,医療用テキストのプレーン言語要約のためのファクトPICOを提案する。
3つのランダム化制御試験(RCT)から生成される抽象語の345のプレーン言語要約で構成されている。
本研究は,これらのサマリーにおけるRCTの重要要素の事実と,それらに関する報告された知見について評価する。
論文 参考訳(メタデータ) (2024-02-18T04:45:01Z) - XAI for In-hospital Mortality Prediction via Multimodal ICU Data [57.73357047856416]
マルチモーダルICUデータを用いて病院内死亡率を予測するための,効率的で説明可能なAIソリューションを提案する。
我々は,臨床データから異種入力を受信し,意思決定を行うマルチモーダル・ラーニングを我々のフレームワークに導入する。
我々の枠組みは、医療研究において重要な要素の発見を容易にする他の臨床課題に容易に移行することができる。
論文 参考訳(メタデータ) (2023-12-29T14:28:04Z) - Self-Verification Improves Few-Shot Clinical Information Extraction [73.6905567014859]
大規模言語モデル (LLMs) は、数発のテキスト内学習を通じて臨床キュレーションを加速する可能性を示している。
正確性や解釈可能性に関する問題、特に健康のようなミッションクリティカルな領域ではまだ苦戦している。
本稿では,自己検証を用いた汎用的な緩和フレームワークについて検討する。このフレームワークはLLMを利用して,自己抽出のための証明を提供し,その出力をチェックする。
論文 参考訳(メタデータ) (2023-05-30T22:05:11Z) - Detecting automatically the layout of clinical documents to enhance the
performances of downstream natural language processing [53.797797404164946]
我々は,臨床用PDF文書を処理し,臨床用テキストのみを抽出するアルゴリズムを設計した。
このアルゴリズムは、PDFを使った最初のテキスト抽出と、続いてボディテキスト、左書き、フッタなどのカテゴリに分類される。
それぞれのセクションのテキストから興味ある医学的概念を抽出し,医療的パフォーマンスを評価した。
論文 参考訳(メタデータ) (2023-05-23T08:38:33Z) - Jointly Extracting Interventions, Outcomes, and Findings from RCT
Reports with LLMs [21.868871974136884]
本研究では,命令調整型大規模言語モデルに基づくテキスト・テキスト・モデルの提案と評価を行う。
我々は,2022年中頃に公開されたRCTのコレクションにモデルを適用し,構造化された結果の検索可能なデータベースをリリースする。
論文 参考訳(メタデータ) (2023-05-05T16:02:06Z) - Development and validation of a natural language processing algorithm to
pseudonymize documents in the context of a clinical data warehouse [53.797797404164946]
この研究は、この領域でツールやリソースを共有する際に直面する困難を浮き彫りにしている。
臨床文献のコーパスを12種類に分類した。
私たちは、ディープラーニングモデルと手動ルールの結果をマージして、ハイブリッドシステムを構築します。
論文 参考訳(メタデータ) (2023-03-23T17:17:46Z) - A Unified Framework of Medical Information Annotation and Extraction for
Chinese Clinical Text [1.4841452489515765]
現在の最先端(SOTA)NLPモデルは、ディープラーニング技術と高度に統合されている。
本研究では,医学的実体認識,関係抽出,属性抽出の工学的枠組みを提案する。
論文 参考訳(メタデータ) (2022-03-08T03:19:16Z) - Assessment of contextualised representations in detecting outcome
phrases in clinical trials [14.584741378279316]
本稿では,300 PubMed の要約を専門的に注釈付けしたデータセット "EBM-COMET" を紹介する。
結果の抽出には,事前学習した文脈表現を微調整する。
ベストモデル(BioBERT)は81.5%のF1、81.3%の感度、98.0%の特異性を達成している。
論文 参考訳(メタデータ) (2022-02-13T15:08:00Z) - CBLUE: A Chinese Biomedical Language Understanding Evaluation Benchmark [51.38557174322772]
中国初のバイオメディカル言語理解評価ベンチマークを提示する。
名前付きエンティティ認識、情報抽出、臨床診断正規化、単文/文対分類を含む自然言語理解タスクのコレクションである。
本研究は,現在の11種類の中国モデルによる実験結果について報告し,その実験結果から,現在最先端のニューラルモデルがヒトの天井よりもはるかに悪い性能を示すことが示された。
論文 参考訳(メタデータ) (2021-06-15T12:25:30Z) - Understanding Clinical Trial Reports: Extracting Medical Entities and
Their Relations [33.30381080306156]
医療専門家は、意思決定を知らせるために、手動で記事から情報を取り出す必要がある。
本研究は, (a) 臨床試験を記載した全文記事から治療結果と成果を抽出し, (b) 後者に関して, 前者に対して報告された結果の推測を行うことの両目的について考察する。
論文 参考訳(メタデータ) (2020-10-07T17:50:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。