論文の概要: An Open Natural Language Processing Development Framework for EHR-based
Clinical Research: A case demonstration using the National COVID Cohort
Collaborative (N3C)
- arxiv url: http://arxiv.org/abs/2110.10780v1
- Date: Wed, 20 Oct 2021 21:09:41 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-23 13:14:16.964823
- Title: An Open Natural Language Processing Development Framework for EHR-based
Clinical Research: A case demonstration using the National COVID Cohort
Collaborative (N3C)
- Title(参考訳): EHRに基づく臨床研究のためのオープン自然言語処理開発フレームワーク:National COVID Cohort Collaborative (N3C)を用いた事例
- Authors: Sijia Liu, Andrew Wen, Liwei Wang, Huan He, Sunyang Fu, Robert Miller,
Andrew Williams, Daniel Harris, Ramakanth Kavuluru, Mei Liu, Noor Abu-el-rub,
Rui Zhang, John D. Osborne, Masoud Rouhizadeh, Yongqun He, Emily Pfaff,
Christopher G. Chute, Tim Duong, Melissa A. Haendel, Rafael Fuentes, Peter
Szolovits, Hua Xu, Hongfang Liu (N3C Natural Language Processing (NLP)
Subgroup)
- Abstract要約: 我々は、N3C(National COVID Cohort Collaborative)のためのNLPアルゴリズムの実装を通じて、オープンな自然言語処理開発フレームワークを提案し、評価する。
本研究は,(1)新型コロナウイルスの症状と症状を用いたオープンなデータアノテーションプロセス,2)コミュニティ主導のルールセット作成プラットフォーム,3)人体を介さずに情報抽出タスクのテキストを生成するための合成テキストデータ生成ワークフロー,である。
- 参考スコア(独自算出の注目度): 29.701601520785033
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While we pay attention to the latest advances in clinical natural language
processing (NLP), we can notice some resistance in the clinical and
translational research community to adopt NLP models due to limited
transparency, Interpretability and usability. Built upon our previous work, in
this study, we proposed an open natural language processing development
framework and evaluated it through the implementation of NLP algorithms for the
National COVID Cohort Collaborative (N3C). Based on the interests in
information extraction from COVID-19 related clinical notes, our work includes
1) an open data annotation process using COVID-19 signs and symptoms as the use
case, 2) a community-driven ruleset composing platform, and 3) a synthetic text
data generation workflow to generate texts for information extraction tasks
without involving human subjects. The generated corpora derived out of the
texts from multiple intuitions and gold standard annotation are tested on a
single institution's rule set has the performances in F1 score of 0.876, 0.706
and 0.694, respectively. The study as a consortium effort of the N3C NLP
subgroup demonstrates the feasibility of creating a federated NLP algorithm
development and benchmarking platform to enhance multi-institution clinical NLP
study.
- Abstract(参考訳): 臨床自然言語処理(NLP)の最近の進歩に留意しながらも, 透明性, 解釈可能性, ユーザビリティの制限により, 臨床・翻訳研究コミュニティのNLPモデル導入に対する抵抗性に気付くことができる。
本研究では,N3C(National COVID Cohort Collaborative)のためのNLPアルゴリズムの実装を通じて,オープンな自然言語処理開発フレームワークを提案し,評価を行った。
新型コロナウイルス関連臨床ノートからの情報抽出の関心に基づいて,本研究は本研究を含む。
1) 症例として、新型コロナウイルスの徴候及び症状を用いたオープンデータアノテーションプロセス。
2)コミュニティ主導のルールセット作成プラットフォーム、及び
3)人体を介さずに情報抽出タスクのためのテキストを生成する合成テキストデータ生成ワークフロー。
複数の直観から得られたテキストと金標準アノテーションから生成されたコーパスを、1つの機関のルールセットでテストし、それぞれF1スコア0.876、0.706、0.694の成績を有する。
N3C NLPサブグループのコンソーシアムとしてのこの研究は、多施設NLP研究を強化するために、フェデレーションNLPアルゴリズムの開発とベンチマークプラットフォームを作成する可能性を示している。
関連論文リスト
- A Novel Cartography-Based Curriculum Learning Method Applied on RoNLI: The First Romanian Natural Language Inference Corpus [71.77214818319054]
自然言語推論は自然言語理解のプロキシである。
ルーマニア語のNLIコーパスは公開されていない。
58Kの訓練文対からなるルーマニア初のNLIコーパス(RoNLI)を紹介する。
論文 参考訳(メタデータ) (2024-05-20T08:41:15Z) - Natural Language Processing for Dialects of a Language: A Survey [56.93337350526933]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。
この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。
方言データセットに対するNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文 参考訳(メタデータ) (2024-01-11T03:04:38Z) - Knowledge-Infused Prompting: Assessing and Advancing Clinical Text Data
Generation with Large Language Models [48.07083163501746]
臨床自然言語処理には、ドメイン固有の課題に対処できる方法が必要である。
我々は,そのプロセスに知識を注入する,革新的で資源効率のよいアプローチであるClinGenを提案する。
7つのNLPタスクと16のデータセットを比較検討した結果,ClinGenはさまざまなタスクのパフォーマンスを継続的に向上させることがわかった。
論文 参考訳(メタデータ) (2023-11-01T04:37:28Z) - Multi-Site Clinical Federated Learning using Recursive and Attentive
Models and NVFlare [13.176351544342735]
本稿では、データプライバシと規制コンプライアンスの課題に対処する統合フレームワークを開発する。
これには、データのプライバシと規制コンプライアンスの課題に対処し、高い精度を維持し、提案されたアプローチの有効性を実証する統合フレームワークの開発が含まれている。
論文 参考訳(メタデータ) (2023-06-28T17:00:32Z) - Development and validation of a natural language processing algorithm to
pseudonymize documents in the context of a clinical data warehouse [53.797797404164946]
この研究は、この領域でツールやリソースを共有する際に直面する困難を浮き彫りにしている。
臨床文献のコーパスを12種類に分類した。
私たちは、ディープラーニングモデルと手動ルールの結果をマージして、ハイブリッドシステムを構築します。
論文 参考訳(メタデータ) (2023-03-23T17:17:46Z) - A Unified Framework of Medical Information Annotation and Extraction for
Chinese Clinical Text [1.4841452489515765]
現在の最先端(SOTA)NLPモデルは、ディープラーニング技術と高度に統合されている。
本研究では,医学的実体認識,関係抽出,属性抽出の工学的枠組みを提案する。
論文 参考訳(メタデータ) (2022-03-08T03:19:16Z) - WANLI: Worker and AI Collaboration for Natural Language Inference
Dataset Creation [101.00109827301235]
我々は人間と機械の協調に基づくデータセット作成のための新しいパラダイムを導入する。
我々は、データセット地図を用いて、挑戦的な推論パターンを示すサンプルを自動的に識別し、GPT-3に同様のパターンで新しい例を作成するよう指示する。
結果として得られたデータセットであるWANLIは、108,357の自然言語推論(NLI)の例からなり、ユニークな経験的強度を示す。
論文 参考訳(メタデータ) (2022-01-16T03:13:49Z) - FedNLP: A Research Platform for Federated Learning in Natural Language
Processing [55.01246123092445]
NLPのフェデレーションラーニングのための研究プラットフォームであるFedNLPを紹介します。
FedNLPは、テキスト分類、シーケンスタグ付け、質問応答、Seq2seq生成、言語モデリングなど、NLPで一般的なタスクの定式化をサポートしている。
FedNLPによる予備実験では、分散型データセットと集中型データセットの学習には大きなパフォーマンスギャップが存在することが明らかになった。
論文 参考訳(メタデータ) (2021-04-18T11:04:49Z) - Improving Clinical Document Understanding on COVID-19 Research with
Spark NLP [0.0]
世界的な新型コロナウイルスのパンデミックの後、ウイルスを研究する科学論文の数は大幅に増加しました。
これまでの取り組みを3つの方法で改善する臨床テキストマイニングシステムを紹介します。
まず、健康、解剖学、リスクファクター、有害事象の社会的決定要因を含む100以上の異なるエンティティタイプを認識することができます。
第2に、テキスト処理パイプラインは、アサーション状態検出を含み、患者以外の誰かの存在、欠如、条件付き、または、患者に関する臨床事実を区別する。
論文 参考訳(メタデータ) (2020-12-07T19:17:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。