論文の概要: A Multimodal Pipeline for Clinical Data Extraction: Applying Vision-Language Models to Scans of Transfusion Reaction Reports
- arxiv url: http://arxiv.org/abs/2504.20220v1
- Date: Mon, 28 Apr 2025 19:40:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:54.656059
- Title: A Multimodal Pipeline for Clinical Data Extraction: Applying Vision-Language Models to Scans of Transfusion Reaction Reports
- Title(参考訳): 臨床データ抽出のためのマルチモーダルパイプライン : ビジョンランゲージモデルによる輸血反応レポートの作成
- Authors: Henning Schäfer, Cynthia S. Schmidt, Johannes Wutzkowsky, Kamil Lorek, Lea Reinartz, Johannes Rückert, Christian Temme, Britta Böckmann, Peter A. Horn, Christoph M. Friedrich,
- Abstract要約: 本研究では,スキャンした文書からチェックボックスデータを抽出し,分類するオープンソースパイプラインを提案する。
パイプラインは、2017年から2024年にかけて毎年コンパイルされた金標準と比較して高い精度とリコールを達成する。
- 参考スコア(独自算出の注目度): 0.3552186988607578
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the growing adoption of electronic health records, many processes still rely on paper documents, reflecting the heterogeneous real-world conditions in which healthcare is delivered. The manual transcription process is time-consuming and prone to errors when transferring paper-based data to digital formats. To streamline this workflow, this study presents an open-source pipeline that extracts and categorizes checkbox data from scanned documents. Demonstrated on transfusion reaction reports, the design supports adaptation to other checkbox-rich document types. The proposed method integrates checkbox detection, multilingual optical character recognition (OCR) and multilingual vision-language models (VLMs). The pipeline achieves high precision and recall compared against annually compiled gold-standards from 2017 to 2024. The result is a reduction in administrative workload and accurate regulatory reporting. The open-source availability of this pipeline encourages self-hosted parsing of checkbox forms.
- Abstract(参考訳): 電子カルテの普及にもかかわらず、多くのプロセスは依然として紙文書に依存しており、医療が納入される異質な現実世界の状態を反映している。
手書きの書き起こしプロセスは、紙ベースのデータをデジタルフォーマットに転送する際のエラーに時間を要する。
このワークフローを合理化するために、スキャンした文書からチェックボックスデータを抽出し分類するオープンソースのパイプラインを提案する。
輸液反応の報告を実証し、他のチェックボックスに富んだドキュメントタイプへの適応をサポートする。
提案手法は,チェックボックス検出,多言語光学文字認識(OCR),多言語視覚言語モデル(VLM)を統合する。
パイプラインは、2017年から2024年にかけて毎年コンパイルされた金標準と比較して高い精度とリコールを達成する。
その結果、管理作業負荷の削減と正確な規制報告が実現した。
このパイプラインのオープンソース提供により、チェックボックス形式の自己ホスト型解析が促進される。
関連論文リスト
- An Efficient Deep Learning-Based Approach to Automating Invoice Document Validation [0.0]
本稿では,文書レイアウト解析とオブジェクト検出技術を用いて,機械による請求書の検証を自動化することを提案する。
本稿では,手動で注釈付き実世界の請求書と複数基準検証プロセスからなる新しいデータセットを提案する。
論文 参考訳(メタデータ) (2025-03-15T21:33:00Z) - Information Extraction from Heterogeneous Documents without Ground Truth Labels using Synthetic Label Generation and Knowledge Distillation [0.2302001830524133]
ラベルなしVRDコーパスにおける合成ラベル生成手法であるタスク認識命令に基づくラベリング(TAIL)を提案する。
応答型知識蒸留を用いた多モード視覚リッチ文書理解モデル(VRDU)をTAILラベル上で微調整する。
得られたモデルが、最先端のLMMよりも大規模な多国籍組織の内部費用文書に匹敵する性能を示した。
論文 参考訳(メタデータ) (2024-11-22T14:16:09Z) - Give Me More Details: Improving Fact-Checking with Latent Retrieval [58.706972228039604]
証拠は、自動化された事実チェックにおいて重要な役割を果たす。
既存のファクトチェックシステムは、エビデンス文が与えられたと仮定するか、検索エンジンが返した検索スニペットを使用する。
資料から得られた全文を証拠として組み込んで,2つの豊富なデータセットを導入することを提案する。
論文 参考訳(メタデータ) (2023-05-25T15:01:19Z) - Document Flattening: Beyond Concatenating Context for Document-Level
Neural Machine Translation [45.56189820979461]
Document Flattening(DocFlat)技術は、Flat-Batch Attention(FB)とNeural Context Gate(NCG)をTransformerモデルに統合する。
我々は、英語とドイツ語の翻訳のための3つのベンチマークデータセットに関する総合的な実験と分析を行う。
論文 参考訳(メタデータ) (2023-02-16T04:38:34Z) - Generate rather than Retrieve: Large Language Models are Strong Context
Generators [74.87021992611672]
本稿では,文書検索を大規模言語モデル生成器に置き換えることで,知識集約型タスクを解く新しい視点を提案する。
我々は,提案手法をgenRead (genRead) と呼び,まず大きな言語モデルに対して,与えられた質問に基づいて文脈文書を生成し,次に生成された文書を読み出して最終回答を生成する。
論文 参考訳(メタデータ) (2022-09-21T01:30:59Z) - Unified Pretraining Framework for Document Understanding [52.224359498792836]
文書理解のための統合事前学習フレームワークであるUDocを紹介する。
UDocは、ほとんどのドキュメント理解タスクをサポートするように設計されており、Transformerを拡張してマルチモーダル埋め込みを入力とする。
UDocの重要な特徴は、3つの自己管理的損失を利用して汎用的な表現を学ぶことである。
論文 参考訳(メタデータ) (2022-04-22T21:47:04Z) - GERE: Generative Evidence Retrieval for Fact Verification [57.78768817972026]
本稿では,ジェネレーション方式で証拠を検索する最初のシステムであるGEREを提案する。
FEVERデータセットの実験結果は、GEREが最先端のベースラインよりも大幅に改善されていることを示している。
論文 参考訳(メタデータ) (2022-04-12T03:49:35Z) - DocScanner: Robust Document Image Rectification with Progressive
Learning [162.03694280524084]
この研究はDocScannerという、文書画像の修正のための新しいディープネットワークアーキテクチャを提示する。
DocScannerは、修正されたイメージの1つの見積を維持し、再帰的なアーキテクチャで徐々に修正される。
反復的な改善によりDocScannerは堅牢で優れたパフォーマンスに収束し、軽量なリカレントアーキテクチャにより実行効率が保証される。
論文 参考訳(メタデータ) (2021-10-28T09:15:02Z) - Automated Generation of Accurate \& Fluent Medical X-ray Reports [17.927768992248172]
胸部X線画像入力から医療報告を自動生成することに焦点を当てた。
本手法は,言語流布度と臨床精度に関する一般的な測定値について有望な結果を得た。
論文 参考訳(メタデータ) (2021-08-27T05:47:28Z) - Learning Contextualized Document Representations for Healthcare Answer
Retrieval [68.02029435111193]
コンテキスト談話ベクトル(英: Contextual Discourse Vectors、CDV)は、長文からの効率的な回答検索のための分散文書表現である。
本モデルでは,階層型LSTMレイヤとマルチタスクトレーニングを併用したデュアルエンコーダアーキテクチャを用いて,臨床エンティティの位置と文書の談話に沿った側面をエンコードする。
我々の一般化モデルは、医療パスランキングにおいて、最先端のベースラインを著しく上回っていることを示す。
論文 参考訳(メタデータ) (2020-02-03T15:47:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。