論文の概要: A Unified Framework of Medical Information Annotation and Extraction for
Chinese Clinical Text
- arxiv url: http://arxiv.org/abs/2203.03823v1
- Date: Tue, 8 Mar 2022 03:19:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-09 14:16:58.366000
- Title: A Unified Framework of Medical Information Annotation and Extraction for
Chinese Clinical Text
- Title(参考訳): 中国語臨床テキストにおける医用情報アノテーションと抽出の統一的枠組み
- Authors: Enwei Zhu, Qilin Sheng, Huanwan Yang, Jinpeng Li
- Abstract要約: 現在の最先端(SOTA)NLPモデルは、ディープラーニング技術と高度に統合されている。
本研究では,医学的実体認識,関係抽出,属性抽出の工学的枠組みを提案する。
- 参考スコア(独自算出の注目度): 1.4841452489515765
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Medical information extraction consists of a group of natural language
processing (NLP) tasks, which collaboratively convert clinical text to
pre-defined structured formats. Current state-of-the-art (SOTA) NLP models are
highly integrated with deep learning techniques and thus require massive
annotated linguistic data. This study presents an engineering framework of
medical entity recognition, relation extraction and attribute extraction, which
are unified in annotation, modeling and evaluation. Specifically, the
annotation scheme is comprehensive, and compatible between tasks, especially
for the medical relations. The resulted annotated corpus includes 1,200 full
medical records (or 18,039 broken-down documents), and achieves inter-annotator
agreements (IAAs) of 94.53%, 73.73% and 91.98% F 1 scores for the three tasks.
Three task-specific neural network models are developed within a shared
structure, and enhanced by SOTA NLP techniques, i.e., pre-trained language
models. Experimental results show that the system can retrieve medical
entities, relations and attributes with F 1 scores of 93.47%, 67.14% and
90.89%, respectively. This study, in addition to our publicly released
annotation scheme and code, provides solid and practical engineering experience
of developing an integrated medical information extraction system.
- Abstract(参考訳): 医療情報抽出は自然言語処理(NLP)タスクのグループから構成されており、臨床テキストを予め定義された構造化形式に変換する。
現在のSOTA(State-of-the-art)NLPモデルは、ディープラーニング技術と高度に統合されており、大量の注釈付き言語データを必要とする。
本研究では,アノテーション,モデリング,評価に統一された医療エンティティ認識,関係抽出,属性抽出に関する工学的枠組みを提案する。
具体的には、アノテーションスキームは包括的で、特に医療関係においてタスク間で互換性がある。
その結果得られた注釈付きコーパスは1,200の完全な医療記録(または18,039の文書)を含み、3つのタスクでアノテーション間合意(iaas)を94.53%、73.73%、91.98%のf1スコアで達成した。
3つのタスク固有ニューラルネットワークモデルが共有構造内で開発され、SOTA NLP技術によって強化される。
実験の結果,F1スコアが93.47%,67.14%,90.89%の医療機関,関係,属性を検索できることがわかった。
本研究は,公表されたアノテーション・スキームとコードに加えて,総合的な医療情報抽出システムを開発するための堅牢かつ実用的な工学的経験を提供する。
関連論文リスト
- GAMedX: Generative AI-based Medical Entity Data Extractor Using Large Language Models [1.123722364748134]
本稿では,Large Language Models(LLMs)を利用した名前付きエンティティ認識(NER)アプローチであるGAMedXを紹介する。
この方法論は、NERのためのオープンソースのLCMを統合し、特殊な医学用語の複雑さをナビゲートするために、連鎖プロンプトとピダンティックスキーマを構造化出力に利用している。
その結果, 評価データセットの1つに対して, 98%の精度でROUGE F1の有意なスコアが得られた。
論文 参考訳(メタデータ) (2024-05-31T02:53:22Z) - Medical Vision-Language Pre-Training for Brain Abnormalities [96.1408455065347]
本稿では,PubMedなどの公共リソースから,医用画像・テキスト・アライメントデータを自動的に収集する方法を示す。
特に,まず大きな脳画像テキストデータセットを収集することにより,事前学習プロセスの合理化を図るパイプラインを提案する。
また,医療領域におけるサブフィギュアをサブキャプションにマッピングするというユニークな課題についても検討した。
論文 参考訳(メタデータ) (2024-04-27T05:03:42Z) - High-throughput Biomedical Relation Extraction for Semi-Structured Web Articles Empowered by Large Language Models [1.9665865095034865]
関係抽出タスクを大言語モデルのバイナリ分類として定式化する。
メインタイトルをテールエンティティとして指定し、コンテキストに明示的に組み込む。
長い内容はテキストチャンクにスライスされ、埋め込みされ、追加の埋め込みモデルで検索される。
論文 参考訳(メタデータ) (2023-12-13T16:43:41Z) - Advancing Italian Biomedical Information Extraction with
Transformers-based Models: Methodological Insights and Multicenter Practical
Application [0.27027468002793437]
インフォメーション抽出は、自動化されたテキストマイニングパイプラインを使用することで、臨床実践者が限界を克服するのに役立つ。
我々は、最初のイタリアの神経心理学的名前付きエンティティ認識データセットであるPsyNITを作成し、それをトランスフォーマーベースのモデルの開発に利用した。
i)一貫性のあるアノテーションプロセスの重要な役割と(ii)古典的なメソッドと“低リソース”なアプローチを組み合わせた微調整戦略です。
論文 参考訳(メタデータ) (2023-06-08T16:15:46Z) - Detecting automatically the layout of clinical documents to enhance the
performances of downstream natural language processing [53.797797404164946]
我々は,臨床用PDF文書を処理し,臨床用テキストのみを抽出するアルゴリズムを設計した。
このアルゴリズムは、PDFを使った最初のテキスト抽出と、続いてボディテキスト、左書き、フッタなどのカテゴリに分類される。
それぞれのセクションのテキストから興味ある医学的概念を抽出し,医療的パフォーマンスを評価した。
論文 参考訳(メタデータ) (2023-05-23T08:38:33Z) - PMC-LLaMA: Towards Building Open-source Language Models for Medicine [62.39105735933138]
大規模言語モデル(LLM)は、自然言語理解において顕著な能力を示した。
LLMは、ドメイン固有の知識が不足しているため、医学的応用のような正確性を必要とする領域で苦労している。
PMC-LLaMAと呼ばれる医療応用に特化した強力なオープンソース言語モデルの構築手順について述べる。
論文 参考訳(メタデータ) (2023-04-27T18:29:05Z) - Development and validation of a natural language processing algorithm to
pseudonymize documents in the context of a clinical data warehouse [53.797797404164946]
この研究は、この領域でツールやリソースを共有する際に直面する困難を浮き彫りにしている。
臨床文献のコーパスを12種類に分類した。
私たちは、ディープラーニングモデルと手動ルールの結果をマージして、ハイブリッドシステムを構築します。
論文 参考訳(メタデータ) (2023-03-23T17:17:46Z) - Automated tabulation of clinical trial results: A joint entity and
relation extraction approach with transformer-based language representations [5.825190876052148]
本稿では,2つの言語処理タスク間で問題を分解し,エビデンス表の自動生成について検討する。
本稿では,実践成果を報告するRCT要約文の自動集計に着目する。
これらのモデルを訓練し、試験するために、6つの疾患領域から600近い結果文を含む新しいゴールドスタンダードコーパスが開発された。
論文 参考訳(メタデータ) (2021-12-10T15:26:43Z) - CBLUE: A Chinese Biomedical Language Understanding Evaluation Benchmark [51.38557174322772]
中国初のバイオメディカル言語理解評価ベンチマークを提示する。
名前付きエンティティ認識、情報抽出、臨床診断正規化、単文/文対分類を含む自然言語理解タスクのコレクションである。
本研究は,現在の11種類の中国モデルによる実験結果について報告し,その実験結果から,現在最先端のニューラルモデルがヒトの天井よりもはるかに悪い性能を示すことが示された。
論文 参考訳(メタデータ) (2021-06-15T12:25:30Z) - Benchmarking Automated Clinical Language Simplification: Dataset,
Algorithm, and Evaluation [48.87254340298189]
我々はMedLaneという名の新しいデータセットを構築し、自動化された臨床言語簡易化手法の開発と評価を支援する。
我々は,人間のアノテーションの手順に従い,最先端のパフォーマンスを実現するDECLAREと呼ばれる新しいモデルを提案する。
論文 参考訳(メタデータ) (2020-12-04T06:09:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。