論文の概要: SemClinBr -- a multi institutional and multi specialty semantically
annotated corpus for Portuguese clinical NLP tasks
- arxiv url: http://arxiv.org/abs/2001.10071v1
- Date: Mon, 27 Jan 2020 20:39:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-06 08:24:39.915005
- Title: SemClinBr -- a multi institutional and multi specialty semantically
annotated corpus for Portuguese clinical NLP tasks
- Title(参考訳): semclinbr --ポルトガル臨床nlpタスクのための多施設・多専門的意味論的コーパス
- Authors: Lucas Emanuel Silva e Oliveira, Ana Carolina Peters, Adalniza Moura
Pucca da Silva, Caroline P. Gebeluca, Yohan Bonescki Gumiel, Lilian Mie Mukai
Cintho, Deborah Ribeiro Carvalho, Sadid A. Hasan, Claudia Maria Cabral Moro
- Abstract要約: SemClinBrは1000の臨床ノートを持ち、65,117個のエンティティと11,263個の関係を持つコーパスである。
この研究はSemClinBrというコーパスで、臨床ノートが1000個あり、65,117のエンティティと11,263のリレーションがラベル付けされている。
- 参考スコア(独自算出の注目度): 0.7311642662742726
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The high volume of research focusing on extracting patient's information from
electronic health records (EHR) has led to an increase in the demand for
annotated corpora, which are a very valuable resource for both the development
and evaluation of natural language processing (NLP) algorithms. The absence of
a multi-purpose clinical corpus outside the scope of the English language,
especially in Brazilian Portuguese, is glaring and severely impacts scientific
progress in the biomedical NLP field. In this study, we developed a
semantically annotated corpus using clinical texts from multiple medical
specialties, document types, and institutions. We present the following: (1) a
survey listing common aspects and lessons learned from previous research, (2) a
fine-grained annotation schema which could be replicated and guide other
annotation initiatives, (3) a web-based annotation tool focusing on an
annotation suggestion feature, and (4) both intrinsic and extrinsic evaluation
of the annotations. The result of this work is the SemClinBr, a corpus that has
1,000 clinical notes, labeled with 65,117 entities and 11,263 relations, and
can support a variety of clinical NLP tasks and boost the EHR's secondary use
for the Portuguese language.
- Abstract(参考訳): 電子健康記録(ehr)から患者の情報を抽出することに焦点を当てた大量の研究が、自然言語処理(nlp)アルゴリズムの開発と評価の両方にとって非常に価値のあるリソースである注釈付きコーパス(annotated corpora)の需要の増加につながった。
英語圏外、特にブラジルポルトガル語の多目的臨床コーパスの欠如は、医学的nlp分野における科学的進歩に大きな影響を与えている。
本研究では,複数の専門分野,文書タイプ,機関の臨床テキストを用いた意味的注釈付きコーパスを開発した。
1) 先行研究から得られた共通的な側面と教訓を列挙した調査, (2) 他のアノテーションイニシアチブを再現しガイドできる細粒度アノテーションスキーマ, (3) アノテーション提案機能に着目したwebベースのアノテーションツール,(4) アノテーションの内在的評価と外在的評価について述べる。
この研究の結果、SemClinBrは1000の臨床ノートを持ち、65,117のエンティティと11,263の関連がラベル付けられ、様々な臨床NLPタスクをサポートし、ポルトガル語に対するEHRの二次的使用を促進することができる。
関連論文リスト
- ClinLinker: Medical Entity Linking of Clinical Concept Mentions in Spanish [39.81302995670643]
本研究は、医療エンティティリンクのための2相パイプラインを用いた新しいアプローチであるClinLinkerを提示する。
SapBERTベースのバイエンコーダに基づいており、その後クロスエンコーダで再ランクされ、スペインの医療概念に合わせた対照的な学習戦略に従って訓練されている。
論文 参考訳(メタデータ) (2024-04-09T15:04:27Z) - An Empirical Evaluation of Prompting Strategies for Large Language
Models in Zero-Shot Clinical Natural Language Processing [4.758617742396169]
本研究は,5つのNLPタスクに対する即時エンジニアリングに関する包括的,系統的研究である。
近年の文献では, 単純な接頭辞, 単純なクローゼ, 思考の連鎖, 予測プロンプトなどが提案されている。
臨床NLPにおけるLCMの迅速なエンジニアリングのための新しい知見とガイドラインを提供する。
論文 参考訳(メタデータ) (2023-09-14T19:35:00Z) - Making the Most Out of the Limited Context Length: Predictive Power
Varies with Clinical Note Type and Note Section [70.37720062263176]
本研究では,高い予測力で区間を解析する枠組みを提案する。
MIMIC-IIIを用いて,(1)看護用音符と退院用音符とでは予測電力分布が異なること,(2)文脈長が大きい場合の音符の組み合わせにより性能が向上することが示唆された。
論文 参考訳(メタデータ) (2023-07-13T20:04:05Z) - Natural Language Processing in Electronic Health Records in Relation to
Healthcare Decision-making: A Systematic Review [2.555168694997103]
自然言語処理は電子健康記録から臨床知見を抽出するために広く用いられている。
注釈付きデータや自動化ツール、その他の課題の欠如は、EHRに対するNLPのフル活用を妨げる。
機械学習(ML)、ディープラーニング(DL)、NLP技術を研究し、この分野の限界と機会を包括的に理解するために比較した。
論文 参考訳(メタデータ) (2023-06-22T12:10:41Z) - Development and validation of a natural language processing algorithm to
pseudonymize documents in the context of a clinical data warehouse [53.797797404164946]
この研究は、この領域でツールやリソースを共有する際に直面する困難を浮き彫りにしている。
臨床文献のコーパスを12種類に分類した。
私たちは、ディープラーニングモデルと手動ルールの結果をマージして、ハイブリッドシステムを構築します。
論文 参考訳(メタデータ) (2023-03-23T17:17:46Z) - Few-Shot Cross-lingual Transfer for Coarse-grained De-identification of
Code-Mixed Clinical Texts [56.72488923420374]
事前学習型言語モデル (LM) は低リソース環境下での言語間移動に大きな可能性を示している。
脳卒中におけるコードミキシング(スペイン・カタラン)臨床ノートの低リソース・実世界の課題を解決するために,NER (name recognition) のためのLMの多言語間転写特性を示す。
論文 参考訳(メタデータ) (2022-04-10T21:46:52Z) - A Unified Framework of Medical Information Annotation and Extraction for
Chinese Clinical Text [1.4841452489515765]
現在の最先端(SOTA)NLPモデルは、ディープラーニング技術と高度に統合されている。
本研究では,医学的実体認識,関係抽出,属性抽出の工学的枠組みを提案する。
論文 参考訳(メタデータ) (2022-03-08T03:19:16Z) - Self-supervised Answer Retrieval on Clinical Notes [68.87777592015402]
本稿では,ドメイン固有パスマッチングのためのトランスフォーマー言語モデルをトレーニングするためのルールベースのセルフスーパービジョンであるCAPRを紹介する。
目的をトランスフォーマーベースの4つのアーキテクチャ、コンテキスト文書ベクトル、ビ-、ポリエンコーダ、クロスエンコーダに適用する。
本稿では,ドメイン固有パスの検索において,CAPRが強いベースラインを上回り,ルールベースおよび人間ラベル付きパスを効果的に一般化することを示す。
論文 参考訳(メタデータ) (2021-08-02T10:42:52Z) - CBLUE: A Chinese Biomedical Language Understanding Evaluation Benchmark [51.38557174322772]
中国初のバイオメディカル言語理解評価ベンチマークを提示する。
名前付きエンティティ認識、情報抽出、臨床診断正規化、単文/文対分類を含む自然言語理解タスクのコレクションである。
本研究は,現在の11種類の中国モデルによる実験結果について報告し,その実験結果から,現在最先端のニューラルモデルがヒトの天井よりもはるかに悪い性能を示すことが示された。
論文 参考訳(メタデータ) (2021-06-15T12:25:30Z) - Benchmarking Automated Clinical Language Simplification: Dataset,
Algorithm, and Evaluation [48.87254340298189]
我々はMedLaneという名の新しいデータセットを構築し、自動化された臨床言語簡易化手法の開発と評価を支援する。
我々は,人間のアノテーションの手順に従い,最先端のパフォーマンスを実現するDECLAREと呼ばれる新しいモデルを提案する。
論文 参考訳(メタデータ) (2020-12-04T06:09:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。