論文の概要: A Multimodal Pipeline for Clinical Data Extraction: Applying Vision-Language Models to Scans of Transfusion Reaction Reports
- arxiv url: http://arxiv.org/abs/2504.20220v1
- Date: Mon, 28 Apr 2025 19:40:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:54.656059
- Title: A Multimodal Pipeline for Clinical Data Extraction: Applying Vision-Language Models to Scans of Transfusion Reaction Reports
- Title(参考訳): 臨床データ抽出のためのマルチモーダルパイプライン : ビジョンランゲージモデルによる輸血反応レポートの作成
- Authors: Henning Schäfer, Cynthia S. Schmidt, Johannes Wutzkowsky, Kamil Lorek, Lea Reinartz, Johannes Rückert, Christian Temme, Britta Böckmann, Peter A. Horn, Christoph M. Friedrich,
- Abstract要約: 本研究では,スキャンした文書からチェックボックスデータを抽出し,分類するオープンソースパイプラインを提案する。
パイプラインは、2017年から2024年にかけて毎年コンパイルされた金標準と比較して高い精度とリコールを達成する。
- 参考スコア(独自算出の注目度): 0.3552186988607578
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the growing adoption of electronic health records, many processes still rely on paper documents, reflecting the heterogeneous real-world conditions in which healthcare is delivered. The manual transcription process is time-consuming and prone to errors when transferring paper-based data to digital formats. To streamline this workflow, this study presents an open-source pipeline that extracts and categorizes checkbox data from scanned documents. Demonstrated on transfusion reaction reports, the design supports adaptation to other checkbox-rich document types. The proposed method integrates checkbox detection, multilingual optical character recognition (OCR) and multilingual vision-language models (VLMs). The pipeline achieves high precision and recall compared against annually compiled gold-standards from 2017 to 2024. The result is a reduction in administrative workload and accurate regulatory reporting. The open-source availability of this pipeline encourages self-hosted parsing of checkbox forms.
- Abstract(参考訳): 電子カルテの普及にもかかわらず、多くのプロセスは依然として紙文書に依存しており、医療が納入される異質な現実世界の状態を反映している。
手書きの書き起こしプロセスは、紙ベースのデータをデジタルフォーマットに転送する際のエラーに時間を要する。
このワークフローを合理化するために、スキャンした文書からチェックボックスデータを抽出し分類するオープンソースのパイプラインを提案する。
輸液反応の報告を実証し、他のチェックボックスに富んだドキュメントタイプへの適応をサポートする。
提案手法は,チェックボックス検出,多言語光学文字認識(OCR),多言語視覚言語モデル(VLM)を統合する。
パイプラインは、2017年から2024年にかけて毎年コンパイルされた金標準と比較して高い精度とリコールを達成する。
その結果、管理作業負荷の削減と正確な規制報告が実現した。
このパイプラインのオープンソース提供により、チェックボックス形式の自己ホスト型解析が促進される。
関連論文リスト
- Retrieval or Representation? Reassessing Benchmark Gaps in Multilingual and Visually Rich RAG [1.4425299138308667]
BM25の文書は、コーパスレベルの重み付けと重なり合う。
大規模なクエリドキュメントデータセットでトレーニングされたエンドツーエンドのマルチモーダルレトリバーは、これらのアプローチよりも大幅に改善されている。
より優れたドキュメント表現がベンチマーク改善の原動力であることを実証する。
論文 参考訳(メタデータ) (2026-03-04T16:21:20Z) - Training-Free Acceleration for Document Parsing Vision-Language Model with Hierarchical Speculative Decoding [102.88996030431662]
本稿では,文書解析タスクの学習自由かつ高効率な高速化手法を提案する。
投機的復号化にインスパイアされた私たちは、将来のトークンのバッチを予測するために、ドラフトモデルとして軽量な文書解析パイプラインを使用します。
汎用OmniDocBenchに対するアプローチの有効性を示す。
論文 参考訳(メタデータ) (2026-02-13T14:22:10Z) - A Hybrid Architecture for Multi-Stage Claim Document Understanding: Combining Vision-Language Models and Machine Learning for Real-Time Processing [0.0]
請求書は医療や保険業務に基本的であり、返済、監査、コンプライアンスの基盤となっている。
本稿では,多言語光文字認識(OCR)エンジンのPaddleOCR,従来のロジスティック回帰,コンパクトビジョンランゲージモデル(VLM),Qwen 2.5-VL-7Bを統合した多段パイプラインを提案する。
提案システムでは,文書毎の処理遅延を平均2秒以下に抑えながら,95%以上の文書型分類精度とフィールドレベルの抽出精度を約87%とする。
論文 参考訳(メタデータ) (2026-01-05T08:40:44Z) - Document Data Matching for Blockchain-Supported Real Estate [2.9873162504735133]
本研究は,光学文字認識(OCR),自然言語処理(NLP),検証資格情報(VC)を統合し,文書抽出,検証,管理を自動化するシステムを提案する。
このアプローチは異質なドキュメントフォーマットをVCに標準化し、不整合を検出するために自動データマッチングを適用する。
提案フレームワークは、不動産取引の合理化、株主信頼の強化、スケーラブルでセキュアなデジタルプロセスの実現の可能性を示す。
論文 参考訳(メタデータ) (2025-12-30T20:30:48Z) - MedDCR: Learning to Design Agentic Workflows for Medical Coding [55.51674334874892]
医療符号化は、フリーテキスト臨床ノートを標準化された診断および手続きコードに変換する。
本稿では,設計を学習問題として扱うクローズドループフレームワークであるMedDCRを提案する。
ベンチマークデータセットでは、MedDCRは最先端のベースラインを上回っている。
論文 参考訳(メタデータ) (2025-11-17T13:30:51Z) - Infinity Parser: Layout Aware Reinforcement Learning for Scanned Document Parsing [37.052999707460636]
layoutRLは、レイアウトを明示的に認識するようにモデルをトレーニングするエンドツーエンドの強化学習フレームワークである。
堅牢なドキュメント理解の進歩を加速するために、コードとデータセットを公開します。
論文 参考訳(メタデータ) (2025-06-01T15:19:52Z) - DocSpiral: A Platform for Integrated Assistive Document Annotation through Human-in-the-Spiral [11.336757553731639]
多くのダウンストリームタスクにおいて、ドメイン固有の画像ベースのドキュメントから構造化されたデータを取得することが不可欠である。
多くの文書は機械可読テキストではなく画像として存在し、自動抽出システムの訓練には人間のアノテーションが必要である。
初となるHuman-in-the-Spiral補助文書アノテーションプラットフォームDocSpiralについて述べる。
論文 参考訳(メタデータ) (2025-05-06T06:02:42Z) - An Efficient Deep Learning-Based Approach to Automating Invoice Document Validation [0.0]
本稿では,文書レイアウト解析とオブジェクト検出技術を用いて,機械による請求書の検証を自動化することを提案する。
本稿では,手動で注釈付き実世界の請求書と複数基準検証プロセスからなる新しいデータセットを提案する。
論文 参考訳(メタデータ) (2025-03-15T21:33:00Z) - Learning Refined Document Representations for Dense Retrieval via Deliberate Thinking [58.69615583599489]
Deliberate Thinking based Retriever (Debater) は、段階的な思考プロセスを導入することで文書表現を強化する新しいアプローチである。
Debaterは、いくつかのベンチマークで既存のメソッドよりも大幅に優れています。
論文 参考訳(メタデータ) (2025-02-18T15:56:34Z) - Information Extraction from Heterogeneous Documents without Ground Truth Labels using Synthetic Label Generation and Knowledge Distillation [0.2302001830524133]
ラベルなしVRDコーパスにおける合成ラベル生成手法であるタスク認識命令に基づくラベリング(TAIL)を提案する。
応答型知識蒸留を用いた多モード視覚リッチ文書理解モデル(VRDU)をTAILラベル上で微調整する。
得られたモデルが、最先端のLMMよりも大規模な多国籍組織の内部費用文書に匹敵する性能を示した。
論文 参考訳(メタデータ) (2024-11-22T14:16:09Z) - Give Me More Details: Improving Fact-Checking with Latent Retrieval [58.706972228039604]
証拠は、自動化された事実チェックにおいて重要な役割を果たす。
既存のファクトチェックシステムは、エビデンス文が与えられたと仮定するか、検索エンジンが返した検索スニペットを使用する。
資料から得られた全文を証拠として組み込んで,2つの豊富なデータセットを導入することを提案する。
論文 参考訳(メタデータ) (2023-05-25T15:01:19Z) - Document Flattening: Beyond Concatenating Context for Document-Level
Neural Machine Translation [45.56189820979461]
Document Flattening(DocFlat)技術は、Flat-Batch Attention(FB)とNeural Context Gate(NCG)をTransformerモデルに統合する。
我々は、英語とドイツ語の翻訳のための3つのベンチマークデータセットに関する総合的な実験と分析を行う。
論文 参考訳(メタデータ) (2023-02-16T04:38:34Z) - Generate rather than Retrieve: Large Language Models are Strong Context
Generators [74.87021992611672]
本稿では,文書検索を大規模言語モデル生成器に置き換えることで,知識集約型タスクを解く新しい視点を提案する。
我々は,提案手法をgenRead (genRead) と呼び,まず大きな言語モデルに対して,与えられた質問に基づいて文脈文書を生成し,次に生成された文書を読み出して最終回答を生成する。
論文 参考訳(メタデータ) (2022-09-21T01:30:59Z) - Unified Pretraining Framework for Document Understanding [52.224359498792836]
文書理解のための統合事前学習フレームワークであるUDocを紹介する。
UDocは、ほとんどのドキュメント理解タスクをサポートするように設計されており、Transformerを拡張してマルチモーダル埋め込みを入力とする。
UDocの重要な特徴は、3つの自己管理的損失を利用して汎用的な表現を学ぶことである。
論文 参考訳(メタデータ) (2022-04-22T21:47:04Z) - GERE: Generative Evidence Retrieval for Fact Verification [57.78768817972026]
本稿では,ジェネレーション方式で証拠を検索する最初のシステムであるGEREを提案する。
FEVERデータセットの実験結果は、GEREが最先端のベースラインよりも大幅に改善されていることを示している。
論文 参考訳(メタデータ) (2022-04-12T03:49:35Z) - DocScanner: Robust Document Image Rectification with Progressive
Learning [162.03694280524084]
この研究はDocScannerという、文書画像の修正のための新しいディープネットワークアーキテクチャを提示する。
DocScannerは、修正されたイメージの1つの見積を維持し、再帰的なアーキテクチャで徐々に修正される。
反復的な改善によりDocScannerは堅牢で優れたパフォーマンスに収束し、軽量なリカレントアーキテクチャにより実行効率が保証される。
論文 参考訳(メタデータ) (2021-10-28T09:15:02Z) - Automated Generation of Accurate \& Fluent Medical X-ray Reports [17.927768992248172]
胸部X線画像入力から医療報告を自動生成することに焦点を当てた。
本手法は,言語流布度と臨床精度に関する一般的な測定値について有望な結果を得た。
論文 参考訳(メタデータ) (2021-08-27T05:47:28Z) - Learning Contextualized Document Representations for Healthcare Answer
Retrieval [68.02029435111193]
コンテキスト談話ベクトル(英: Contextual Discourse Vectors、CDV)は、長文からの効率的な回答検索のための分散文書表現である。
本モデルでは,階層型LSTMレイヤとマルチタスクトレーニングを併用したデュアルエンコーダアーキテクチャを用いて,臨床エンティティの位置と文書の談話に沿った側面をエンコードする。
我々の一般化モデルは、医療パスランキングにおいて、最先端のベースラインを著しく上回っていることを示す。
論文 参考訳(メタデータ) (2020-02-03T15:47:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。