論文の概要: DEXTER: An end-to-end system to extract table contents from electronic
medical health documents
- arxiv url: http://arxiv.org/abs/2207.06823v2
- Date: Mon, 18 Jul 2022 06:52:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-19 11:35:51.619981
- Title: DEXTER: An end-to-end system to extract table contents from electronic
medical health documents
- Title(参考訳): dexter:電子医療文書から表内容を抽出するエンド・ツー・エンドシステム
- Authors: Nandhinee PR, Harinath Krishnamoorthy, Koushik Srivatsan, Anil Goyal,
Sudarsun Santhiappan
- Abstract要約: DEXTERは、医療医療文書にある表から情報を抽出するエンド・ツー・エンドシステムである。
本稿では,CDeC-Netアーキテクチャを用いた2段階移動学習手法を提案する。
DeXTERは、アノテートされた現実世界の医療データセット上で、市販のAmazon TextractとMicrosoft Azure Form Recognizerシステムより優れていることを実験的に示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we propose DEXTER, an end to end system to extract information
from tables present in medical health documents, such as electronic health
records (EHR) and explanation of benefits (EOB). DEXTER consists of four
sub-system stages: i) table detection ii) table type classification iii) cell
detection; and iv) cell content extraction. We propose a two-stage transfer
learning-based approach using CDeC-Net architecture along with Non-Maximal
suppression for table detection. We design a conventional computer vision-based
approach for table type classification and cell detection using parameterized
kernels based on image size for detecting rows and columns. Finally, we extract
the text from the detected cells using pre-existing OCR engine Tessaract. To
evaluate our system, we manually annotated a sample of the real-world medical
dataset (referred to as Meddata) consisting of wide variations of documents (in
terms of appearance) covering different table structures, such as bordered,
partially bordered, borderless, or coloured tables. We experimentally show that
DEXTER outperforms the commercially available Amazon Textract and Microsoft
Azure Form Recognizer systems on the annotated real-world medical dataset
- Abstract(参考訳): 本稿では、電子健康記録(EHR)や福利厚生説明(EOB)など、医療医療文書に記載されている表から情報を抽出するエンド・ツー・エンドシステムであるDEXTERを提案する。
DEXTERは4つのサブシステムステージから構成される。
i) 表の検出
二 表型分類
三 細胞の検出及び
iv) 細胞内容の抽出。
本稿では,CDeC-Netアーキテクチャを用いた2段階移動学習手法を提案する。
画像サイズに基づくパラメータ化カーネルを用いたテーブル型分類とセル検出のための従来のコンピュータビジョンに基づく手法を行と列の検出のために設計する。
最後に,既存のocrエンジンtessaractを用いて検出されたセルからテキストを抽出する。
本システムを評価するために, 境界, 部分境界, 境界, 色付きテーブルなど, 異なる表構造をカバーする多種多様な文書からなる実世界の医療データセット(Meddata参照)のサンプルを手動でアノテートした。
DeXTERは、アノテートされた実世界の医療データセット上で、市販のAmazon TextractとMicrosoft Azure Form Recognizerシステムより優れていることを実験的に示す。
関連論文リスト
- arXiVeri: Automatic table verification with GPT [44.388120096898554]
自動表検証(AutoTV)の新たな課題を提案する。
本研究の目的は,参照ソースを相互参照することで,テーブル内の数値データの精度を検証することである。
現代の大規模言語モデル(LLM)の柔軟性を活用して,テーブル検証のためのシンプルなベースラインを提案する。
論文 参考訳(メタデータ) (2023-06-13T17:59:57Z) - Detecting automatically the layout of clinical documents to enhance the
performances of downstream natural language processing [53.797797404164946]
我々は,臨床用PDF文書を処理し,臨床用テキストのみを抽出するアルゴリズムを設計した。
このアルゴリズムは、PDFを使った最初のテキスト抽出と、続いてボディテキスト、左書き、フッタなどのカテゴリに分類される。
それぞれのセクションのテキストから興味ある医学的概念を抽出し,医療的パフォーマンスを評価した。
論文 参考訳(メタデータ) (2023-05-23T08:38:33Z) - Development and validation of a natural language processing algorithm to
pseudonymize documents in the context of a clinical data warehouse [53.797797404164946]
この研究は、この領域でツールやリソースを共有する際に直面する困難を浮き彫りにしている。
臨床文献のコーパスを12種類に分類した。
私たちは、ディープラーニングモデルと手動ルールの結果をマージして、ハイブリッドシステムを構築します。
論文 参考訳(メタデータ) (2023-03-23T17:17:46Z) - CHARTER: heatmap-based multi-type chart data extraction [7.838284602257369]
本稿では,文書チャートを機械可読データ形式に変換する手法とシステムを提案する。
提案手法では,グラフの抽出と解析,グラフィカルな要素の抽出と構造解析を行う。
我々の検出システムはニューラルネットワークに基づいており、合成データのみに基づいて訓練されている。
論文 参考訳(メタデータ) (2021-11-28T11:01:21Z) - TGRNet: A Table Graph Reconstruction Network for Table Structure
Recognition [76.06530816349763]
本稿では,表構造認識のためのエンドツーエンドのトレーニング可能な表グラフ再構成ネットワーク(TGRNet)を提案する。
具体的には,異なる細胞の空間的位置と論理的位置を共同で予測するために,細胞検出枝と細胞論理的位置分岐の2つの主枝を有する。
論文 参考訳(メタデータ) (2021-06-20T01:57:05Z) - Tab.IAIS: Flexible Table Recognition and Semantic Interpretation System [84.39812458417246]
完全テーブル認識処理を行い、最も頻繁なテーブル形式をサポートする2つのルールベースのアルゴリズムを開発する。
意味情報の抽出をテーブル認識プロセスに組み込むため,グラフに基づくテーブル解釈法を開発した。
我々のテーブル認識アプローチは、最先端のアプローチと競合する結果を得る。
論文 参考訳(メタデータ) (2021-05-25T12:31:02Z) - Multi-Type-TD-TSR -- Extracting Tables from Document Images using a
Multi-stage Pipeline for Table Detection and Table Structure Recognition:
from OCR to Structured Table Representations [63.98463053292982]
テーブルの認識は、テーブル検出とテーブル構造認識という2つの主要なタスクから構成される。
最近の研究は、テーブル構造認識のタスクにトランスファーラーニングを併用したディープラーニングアプローチへの明確な傾向を示している。
本稿では,テーブル認識問題に対するエンドツーエンドのソリューションを提供するMulti-Type-TD-TSRというマルチステージパイプラインを提案する。
論文 参考訳(メタデータ) (2021-05-23T21:17:18Z) - ToTTo: A Controlled Table-To-Text Generation Dataset [61.83159452483026]
ToTToはオープンドメインの英語のテーブル・トゥ・テキストのデータセットで、12万以上のトレーニングサンプルがある。
本稿では、ウィキペディアから既存の候補文を直接修正するデータセット構築プロセスを紹介する。
通常流動的であるが、既存の方法は多くの場合、表がサポートしていないフレーズを幻覚させる。
論文 参考訳(メタデータ) (2020-04-29T17:53:45Z) - Identifying Table Structure in Documents using Conditional Generative
Adversarial Networks [0.0]
多くの産業や学術研究において、情報は主に構造化されていない文書の形で伝達される。
本稿では,まず,テーブルイメージを標準化されたスケルトンテーブル形式にマッピングするために,条件付き生成逆数ネットワークを用いたトップダウンアプローチを提案する。
次に、xy-cutプロジェクションと遺伝的アルゴリズムを用いた潜在テーブル構造を導出する。
論文 参考訳(メタデータ) (2020-01-13T20:42:40Z) - Table Structure Extraction with Bi-directional Gated Recurrent Unit
Networks [5.350788087718877]
本稿では,検出されたテーブルから行や列を高精度に抽出する,堅牢な深層学習手法を提案する。
我々は、現在利用可能なUNLVとICDAR 2013データセットのベンチマークを行い、最先端のテーブル構造抽出システムよりも大幅に性能を向上した。
論文 参考訳(メタデータ) (2020-01-08T13:17:44Z) - TableNet: Deep Learning model for end-to-end Table detection and Tabular
data extraction from Scanned Document Images [18.016832803961165]
本稿では,テーブル検出と構造認識のための新しいエンドツーエンドディープラーニングモデルを提案する。
TableNetは、テーブル検出のツインタスクとテーブル構造認識の相互依存性を利用する。
提案手法は, ICDAR 2013 と Marmot Table のデータセットを用いて評価した。
論文 参考訳(メタデータ) (2020-01-06T10:25:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。