論文の概要: Towards Structuring Real-World Data at Scale: Deep Learning for
Extracting Key Oncology Information from Clinical Text with Patient-Level
Supervision
- arxiv url: http://arxiv.org/abs/2203.10442v1
- Date: Sun, 20 Mar 2022 03:42:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-22 15:10:30.641659
- Title: Towards Structuring Real-World Data at Scale: Deep Learning for
Extracting Key Oncology Information from Clinical Text with Patient-Level
Supervision
- Title(参考訳): 大規模実世界データ構築に向けて:患者レベルスーパービジョンによる臨床テキストから重要なオンコロジー情報を抽出するためのディープラーニング
- Authors: Sam Preston, Mu Wei, Rajesh Rao, Robert Tinn, Naoto Usuyama, Michael
Lucas, Roshanthi Weerasinghe, Soohee Lee, Brian Piening, Paul Tittel, Naveen
Valluri, Tristan Naumann, Carlo Bifulco, Hoifung Poon
- Abstract要約: 実世界データ(RWD)の詳細な患者情報の大部分は、フリーテキストの臨床文書でのみ利用可能である。
従来のルールベースのシステムは、臨床テキストの言語的変異やあいまいさに弱い。
本稿では,患者レベルの管理を医療登録から活用することを提案する。
- 参考スコア(独自算出の注目度): 10.929271646369887
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Objective: The majority of detailed patient information in real-world data
(RWD) is only consistently available in free-text clinical documents. Manual
curation is expensive and time-consuming. Developing natural language
processing (NLP) methods for structuring RWD is thus essential for scaling
real-world evidence generation.
Materials and Methods: Traditional rule-based systems are vulnerable to the
prevalent linguistic variations and ambiguities in clinical text, and prior
applications of machine-learning methods typically require sentence-level or
report-level labeled examples that are hard to produce at scale. We propose
leveraging patient-level supervision from medical registries, which are often
readily available and capture key patient information, for general RWD
applications. To combat the lack of sentence-level or report-level annotations,
we explore advanced deep-learning methods by combining domain-specific
pretraining, recurrent neural networks, and hierarchical attention.
Results: We conduct an extensive study on 135,107 patients from the cancer
registry of a large integrated delivery network (IDN) comprising healthcare
systems in five western US states. Our deep learning methods attain test AUROC
of 94-99% for key tumor attributes and comparable performance on held-out data
from separate health systems and states.
Discussion and Conclusion: Ablation results demonstrate clear superiority of
these advanced deep-learning methods over prior approaches. Error analysis
shows that our NLP system sometimes even corrects errors in registrar labels.
We also conduct a preliminary investigation in accelerating registry curation
and general RWD structuring via assisted curation for over 1.2 million cancer
patients in this healthcare network.
- Abstract(参考訳): 目的: 実世界データ (RWD) における詳細な患者情報の大部分は, フリーテキスト臨床文書でのみ利用可能である。
手動のキュレーションは高価で時間がかかります。
したがって、RWDを構造化するための自然言語処理(NLP)手法の開発は、実世界のエビデンス生成のスケーリングに不可欠である。
材料と方法: 従来のルールベースのシステムは、臨床テキストにおける一般的な言語的バリエーションや曖昧さに弱い。
一般のrwd応用のために, 容易に入手でき, 重要な患者情報を収集できる医療機関からの患者レベルの監督を活用することを提案する。
文レベルのアノテーションやレポートレベルのアノテーションの欠如に対処するため,ドメイン固有の事前学習,リカレントニューラルネットワーク,階層的注意を組み合わせ,高度なディープラーニング手法を検討する。
結果:米国西部5つの医療システムからなる大規模統合配送ネットワーク (idn) のがん登録簿から135,107例について広範な調査を行った。
われわれはAUROCを94-99%の有意な腫瘍特性で試験し,個別の健康システムと状態から得られた保持データと比較した。
議論と結論: アブレーションの結果は、これらの先進的なディープラーニング手法が従来の手法よりも明らかに優れていることを示す。
誤り解析により,我々のNLPシステムは時々レジストラーラベルの誤りを訂正する。
また,この医療ネットワークにおいて,120万人以上のがん患者を対象に,登録キュレーションと一般RWD構造化の促進に関する予備的研究を行った。
関連論文リスト
- Assertion Detection Large Language Model In-context Learning LoRA
Fine-tuning [2.401755243180179]
本稿では,大規模言語モデル(LLM)を多数の医療データに基づいて事前学習してアサーション検出を行う手法を提案する。
提案手法は従来の手法よりも0.31高い0.74のF-1を達成した。
論文 参考訳(メタデータ) (2024-01-31T05:11:00Z) - README: Bridging Medical Jargon and Lay Understanding for Patient Education through Data-Centric NLP [9.432205523734707]
医療用語を患者に親しみやすい平易な言語に簡略化することを目的とした,レイ定義の自動生成という新たなタスクを導入する。
このデータセットは、5万以上のユニークな(医療用語、日常の定義)ペアと30万の言及からなる。
また、データフィルタリング、拡張、選択を相乗化してデータ品質を改善する、データ中心のHuman-AIパイプラインも開発しました。
論文 参考訳(メタデータ) (2023-12-24T23:01:00Z) - Self-Verification Improves Few-Shot Clinical Information Extraction [73.6905567014859]
大規模言語モデル (LLMs) は、数発のテキスト内学習を通じて臨床キュレーションを加速する可能性を示している。
正確性や解釈可能性に関する問題、特に健康のようなミッションクリティカルな領域ではまだ苦戦している。
本稿では,自己検証を用いた汎用的な緩和フレームワークについて検討する。このフレームワークはLLMを利用して,自己抽出のための証明を提供し,その出力をチェックする。
論文 参考訳(メタデータ) (2023-05-30T22:05:11Z) - Development and validation of a natural language processing algorithm to
pseudonymize documents in the context of a clinical data warehouse [53.797797404164946]
この研究は、この領域でツールやリソースを共有する際に直面する困難を浮き彫りにしている。
臨床文献のコーパスを12種類に分類した。
私たちは、ディープラーニングモデルと手動ルールの結果をマージして、ハイブリッドシステムを構築します。
論文 参考訳(メタデータ) (2023-03-23T17:17:46Z) - Dissecting Self-Supervised Learning Methods for Surgical Computer Vision [51.370873913181605]
一般のコンピュータビジョンコミュニティでは,自己監視学習(SSL)手法が普及し始めている。
医学や手術など、より複雑で影響力のある領域におけるSSLメソッドの有効性は、限定的かつ未調査のままである。
外科的文脈理解,位相認識,ツール存在検出の2つの基本的なタスクに対して,これらの手法の性能をColec80データセット上で広範囲に解析する。
論文 参考訳(メタデータ) (2022-07-01T14:17:11Z) - TCM-SD: A Benchmark for Probing Syndrome Differentiation via Natural
Language Processing [31.190757020836656]
TCM診断・治療システムの中核的課題に焦点をあてる -- 症候群分化(SD)
本データセットは,148症例を対象とした実世界の臨床記録54,152例を含む。
本稿では、ZY-BERTと呼ばれるドメイン固有の事前学習言語モデルを提案する。
論文 参考訳(メタデータ) (2022-03-21T09:59:54Z) - Federated Cycling (FedCy): Semi-supervised Federated Learning of
Surgical Phases [57.90226879210227]
FedCyは、FLと自己教師付き学習を組み合わせた半教師付き学習(FSSL)手法で、ラベル付きビデオとラベルなしビデオの両方の分散データセットを利用する。
外科的段階の自動認識作業において,最先端のFSSL法よりも顕著な性能向上を示した。
論文 参考訳(メタデータ) (2022-03-14T17:44:53Z) - A Systematic Review of Natural Language Processing Applied to Radiology
Reports [3.600747505433814]
本研究は, 放射線学報告に応用されたNLPの最近の文献を体系的に評価する。
本研究は, 放射線学的特徴, nlp法, 性能, 研究, 臨床応用特性を含む21の変数に基づく。
論文 参考訳(メタデータ) (2021-02-18T18:54:41Z) - Uncovering the structure of clinical EEG signals with self-supervised
learning [64.4754948595556]
教師付き学習パラダイムは、しばしば利用可能なラベル付きデータの量によって制限される。
この現象は脳波(EEG)などの臨床関連データに特に問題となる。
ラベルのないデータから情報を抽出することで、ディープニューラルネットワークとの競合性能に到達することができるかもしれない。
論文 参考訳(メタデータ) (2020-07-31T14:34:47Z) - Natural Language Processing with Deep Learning for Medical Adverse Event
Detection from Free-Text Medical Narratives: A Case Study of Detecting Total
Hip Replacement Dislocation [0.0]
人工股関節置換術後の股関節脱臼AEの検出を効率的かつ正確に行うための深層学習ベースNLP(DL-NLP)モデルを提案する。
提案したモデルをML-NLP(ML-NLP)モデルでベンチマークした。
すべてのDL-NLPモデルはML-NLPモデルをすべて上回り、畳み込みニューラルネットワーク(CNN)モデルは全体的なパフォーマンスを最高のものにした。
論文 参考訳(メタデータ) (2020-04-17T16:25:36Z) - DeepEnroll: Patient-Trial Matching with Deep Embedding and Entailment
Prediction [67.91606509226132]
臨床試験は医薬品開発に不可欠であるが、高価で不正確で不十分な患者募集に苦しむことが多い。
DeepEnrollは、入力基準(タブラリデータ)を一致する推論のための共有潜在空間に共同でエンコードする、クロスモーダル推論学習モデルである。
論文 参考訳(メタデータ) (2020-01-22T17:51:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。