論文の概要: Detecting automatically the layout of clinical documents to enhance the
performances of downstream natural language processing
- arxiv url: http://arxiv.org/abs/2305.13817v1
- Date: Tue, 23 May 2023 08:38:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-24 17:45:28.871838
- Title: Detecting automatically the layout of clinical documents to enhance the
performances of downstream natural language processing
- Title(参考訳): 下流自然言語処理の性能向上のための臨床文書のレイアウトの自動検出
- Authors: Christel G\'erardin, Perceval Wajsb\"urt, Basile Dura, Alice Calliger,
Alexandre Moucher, Xavier Tannier and Romain Bey
- Abstract要約: 我々は,臨床用PDF文書を処理し,臨床用テキストのみを抽出するアルゴリズムを設計した。
このアルゴリズムは、PDFを使った最初のテキスト抽出と、続いてボディテキスト、左書き、フッタなどのカテゴリに分類される。
それぞれのセクションのテキストから興味ある医学的概念を抽出し,医療的パフォーマンスを評価した。
- 参考スコア(独自算出の注目度): 53.797797404164946
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Objective:Develop and validate an algorithm for analyzing the layout of PDF
clinical documents to improve the performance of downstream natural language
processing tasks. Materials and Methods: We designed an algorithm to process
clinical PDF documents and extract only clinically relevant text. The algorithm
consists of several steps: initial text extraction using a PDF parser, followed
by classification into categories such as body text, left notes, and footers
using a Transformer deep neural network architecture, and finally an
aggregation step to compile the lines of a given label in the text. We
evaluated the technical performance of the body text extraction algorithm by
applying it to a random sample of documents that were annotated. Medical
performance was evaluated by examining the extraction of medical concepts of
interest from the text in their respective sections. Finally, we tested an
end-to-end system on a medical use case of automatic detection of acute
infection described in the hospital report. Results:Our algorithm achieved
per-line precision, recall, and F1 score of 98.4, 97.0, and 97.7, respectively,
for body line extraction. The precision, recall, and F1 score per document for
the acute infection detection algorithm were 82.54 (95CI 72.86-91.60), 85.24
(95CI 76.61-93.70), 83.87 (95CI 76, 92-90.08) with exploitation of the results
of the advanced body extraction algorithm, respectively. Conclusion:We have
developed and validated a system for extracting body text from clinical
documents in PDF format by identifying their layout. We were able to
demonstrate that this preprocessing allowed us to obtain better performances
for a common downstream task, i.e., the extraction of medical concepts in their
respective sections, thus proving the interest of this method on a clinical use
case.
- Abstract(参考訳): 目的:下流自然言語処理タスクの性能を向上させるために,PDF臨床文書のレイアウト解析アルゴリズムの開発と検証を行う。
資料と方法: 臨床用PDF文書を処理し, 臨床用テキストのみを抽出するアルゴリズムを設計した。
このアルゴリズムは、PDFパーサを使用した初期テキスト抽出、続いてトランスフォーマーのディープニューラルネットワークアーキテクチャを使用したボディテキスト、左メモ、フッタなどのカテゴリに分類され、最終的にテキスト内の与えられたラベルの行をコンパイルする集約ステップで構成されている。
注釈付き文書のランダムなサンプルに適用することにより,身体テキスト抽出アルゴリズムの技術的性能を評価した。
それぞれのセクションのテキストから興味ある医学的概念を抽出し,医療的パフォーマンスを評価した。
最後に,病院報告に記載された急性感染症を自動的に検出する医療症例に対して,エンド・ツー・エンドシステムの試験を行った。
結果:我々のアルゴリズムは,体線抽出の精度,リコール,F1スコアを98.4,97.0,97.7とした。
急性感染症検出アルゴリズムの精度、リコール、F1スコアはそれぞれ82.54(95CI 72.86-91.60)、85.24(95CI 76.61-93.70)、83.87(95CI 76, 92-90.08)であった。
結論:我々はPDF形式で臨床文書から身体テキストを抽出するシステムを開発し,そのレイアウトを同定した。
我々は,この前処理により,共通の下流作業,すなわちそれぞれの部分における医療概念の抽出において,より良いパフォーマンスが得られることを実証し,臨床症例における本手法の意義を証明できた。
関連論文リスト
- Attribute Structuring Improves LLM-Based Evaluation of Clinical Text
Summaries [62.32403630651586]
大規模言語モデル(LLM)は、正確な臨床テキスト要約を生成する可能性を示しているが、根拠付けと評価に関する問題に苦慮している。
本稿では、要約評価プロセスを構成するAttribute Structuring(AS)を用いた一般的な緩和フレームワークについて検討する。
ASは、臨床テキスト要約における人間のアノテーションと自動メトリクスの対応性を一貫して改善する。
論文 参考訳(メタデータ) (2024-03-01T21:59:03Z) - Investigating Deep-Learning NLP for Automating the Extraction of
Oncology Efficacy Endpoints from Scientific Literature [0.0]
我々は,論文中のテキストから有効終端を抽出するフレームワークを開発し,最適化した。
我々の機械学習モデルは、有効性エンドポイントに関連する25のクラスを予測し、高いF1スコアを得る。
論文 参考訳(メタデータ) (2023-11-03T14:01:54Z) - Towards Unifying Anatomy Segmentation: Automated Generation of a
Full-body CT Dataset via Knowledge Aggregation and Anatomical Guidelines [113.08940153125616]
我々は533巻のボクセルレベルのラベルを142ドル(約1万2000円)で、全身CTスキャンのデータセットを作成し、解剖学的包括的カバレッジを提供する。
提案手法はラベル集約段階において手作業によるアノテーションに依存しない。
我々はCTデータに142ドルの解剖学的構造を予測できる統一解剖学的セグメンテーションモデルをリリースする。
論文 参考訳(メタデータ) (2023-07-25T09:48:13Z) - Development and validation of a natural language processing algorithm to
pseudonymize documents in the context of a clinical data warehouse [53.797797404164946]
この研究は、この領域でツールやリソースを共有する際に直面する困難を浮き彫りにしている。
臨床文献のコーパスを12種類に分類した。
私たちは、ディープラーニングモデルと手動ルールの結果をマージして、ハイブリッドシステムを構築します。
論文 参考訳(メタデータ) (2023-03-23T17:17:46Z) - A Unified Framework of Medical Information Annotation and Extraction for
Chinese Clinical Text [1.4841452489515765]
現在の最先端(SOTA)NLPモデルは、ディープラーニング技術と高度に統合されている。
本研究では,医学的実体認識,関係抽出,属性抽出の工学的枠組みを提案する。
論文 参考訳(メタデータ) (2022-03-08T03:19:16Z) - Automated tabulation of clinical trial results: A joint entity and
relation extraction approach with transformer-based language representations [5.825190876052148]
本稿では,2つの言語処理タスク間で問題を分解し,エビデンス表の自動生成について検討する。
本稿では,実践成果を報告するRCT要約文の自動集計に着目する。
これらのモデルを訓練し、試験するために、6つの疾患領域から600近い結果文を含む新しいゴールドスタンダードコーパスが開発された。
論文 参考訳(メタデータ) (2021-12-10T15:26:43Z) - Human-in-the-Loop Disinformation Detection: Stance, Sentiment, or
Something Else? [93.91375268580806]
政治とパンデミックは、機械学習対応の偽ニュース検出アルゴリズムの開発に十分な動機を与えている。
既存の文献は、主に完全自動化されたケースに焦点を当てているが、その結果得られた技術は、軍事応用に必要な様々なトピック、ソース、時間スケールに関する偽情報を確実に検出することはできない。
既に利用可能なアナリストを人間のループとして活用することにより、感情分析、アスペクトベースの感情分析、姿勢検出といった標準的な機械学習技術は、部分的に自動化された偽情報検出システムに使用するためのもっとも有効な方法となる。
論文 参考訳(メタデータ) (2021-11-09T13:30:34Z) - Machine Learning Based on Natural Language Processing to Detect Cardiac
Failure in Clinical Narratives [0.2936007114555107]
この研究の目的は、患者が心不全または健康な状態を有するかどうかを自動的に検出する機械学習アルゴリズムを開発することである。
bag-of-word (BoW), term frequency inverse document frequency (TFIDF), and neural word embeddeddings (word2vec) を用いて単語表現学習を行った。
提案されたフレームワークは、ac、pre、rec、f1がそれぞれ84%、82%、85%、83%の全体的な分類性能を達成した。
論文 参考訳(メタデータ) (2021-04-08T17:28:43Z) - Detecting of a Patient's Condition From Clinical Narratives Using
Natural Language Representation [0.3149883354098941]
本稿では,臨床自然言語表現学習と教師付き分類フレームワークを提案する。
この新しいフレームワークは、文脈的臨床物語入力から分布構文と潜在意味論(表現学習)を共同で発見する。
提案手法では, 精度, 再現性, 精度をそれぞれ89 %, 88 %, 89 %とした総合分類性能が得られる。
論文 参考訳(メタデータ) (2021-04-08T17:16:04Z) - VerSe: A Vertebrae Labelling and Segmentation Benchmark for
Multi-detector CT Images [121.31355003451152]
大規模Vertebrae Challenge(VerSe)は、2019年と2020年に開催されたMICCAI(International Conference on Medical Image Computing and Computer Assisted Intervention)と共同で設立された。
本評価の結果を報告するとともに,脊椎レベル,スキャンレベル,および異なる視野での性能変化について検討した。
論文 参考訳(メタデータ) (2020-01-24T21:09:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。