論文の概要: MeDocVL: A Visual Language Model for Medical Document Understanding and Parsing
- arxiv url: http://arxiv.org/abs/2602.06402v1
- Date: Fri, 06 Feb 2026 05:47:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-09 22:18:26.247684
- Title: MeDocVL: A Visual Language Model for Medical Document Understanding and Parsing
- Title(参考訳): MeDocVL: 医用文書の理解と解析のためのビジュアル言語モデル
- Authors: Wenjie Wang, Wei Wu, Ying Liu, Yuan Zhao, Xiaole Lv, Liang Diao, Zengjian Fan, Wenfeng Xie, Ziling Lin, De Shi, Lin Huang, Kaihe Xu, Hong Li,
- Abstract要約: 本稿では,クエリ駆動型医療文書解析のための学習後視覚言語モデルであるMeDocVLを提案する。
筆者らのフレームワークは,トレーニング駆動型ラベルリファインメントを組み合わせることで,ノイズの多いアノテーションから高品質な監視を構築する。
MeDocVLは従来のOCRシステムと強力なVLMベースラインを一貫して上回っている。
- 参考スコア(独自算出の注目度): 23.094753062515863
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Medical document OCR is challenging due to complex layouts, domain-specific terminology, and noisy annotations, while requiring strict field-level exact matching. Existing OCR systems and general-purpose vision-language models often fail to reliably parse such documents. We propose MeDocVL, a post-trained vision-language model for query-driven medical document parsing. Our framework combines Training-driven Label Refinement to construct high-quality supervision from noisy annotations, with a Noise-aware Hybrid Post-training strategy that integrates reinforcement learning and supervised fine-tuning to achieve robust and precise extraction. Experiments on medical invoice benchmarks show that MeDocVL consistently outperforms conventional OCR systems and strong VLM baselines, achieving state-of-the-art performance under noisy supervision.
- Abstract(参考訳): OCRは複雑なレイアウト、ドメイン固有の用語、ノイズの多いアノテーションのため、厳密なフィールドレベルの正確なマッチングを必要とするため、難しい。
既存のOCRシステムや汎用視覚言語モデルは、そのような文書を確実に解析することができないことが多い。
本稿では,クエリ駆動型医療文書解析のための学習後視覚言語モデルであるMeDocVLを提案する。
提案手法は,騒音に敏感なアノテーションから高品質な教師機能を構築するためのトレーニング駆動ラベルリファインメントと,強化学習と教師付き微調整を統合したノイズ対応ハイブリッドポストトレーニング戦略を組み合わせて,堅牢かつ正確な抽出を実現する。
医療請求ベンチマークの実験では、MeDocVLは従来のOCRシステムと強力なVLMベースラインを一貫して上回り、ノイズの多い監視下で最先端のパフォーマンスを達成している。
関連論文リスト
- Aligning Findings with Diagnosis: A Self-Consistent Reinforcement Learning Framework for Trustworthy Radiology Reporting [37.57009831483529]
MLLM(Multimodal Large Language Models)は放射線学レポート生成に強い可能性を示している。
本フレームワークは, より詳細な発見のための思考ブロックと, 構造化された疾患ラベルに対する回答ブロックという, 生成を2つの異なる構成要素に再構成する。
論文 参考訳(メタデータ) (2026-01-06T14:17:44Z) - From Chaos to Clarity: Schema-Constrained AI for Auditable Biomedical Evidence Extraction from Full-Text PDFs [2.136797327390818]
既存のドキュメントAIシステムは、OCRエラー、長期文書の断片化、制限されたスループット、ハイテイク合成のための監査性に制限されている。
本稿では,フルテキストのバイオメディカルPDFを構造化された解析可能なレコードに変換する,スキーマ制約付きAI抽出システムを提案する。
論文 参考訳(メタデータ) (2025-12-31T00:43:53Z) - MedDCR: Learning to Design Agentic Workflows for Medical Coding [55.51674334874892]
医療符号化は、フリーテキスト臨床ノートを標準化された診断および手続きコードに変換する。
本稿では,設計を学習問題として扱うクローズドループフレームワークであるMedDCRを提案する。
ベンチマークデータセットでは、MedDCRは最先端のベースラインを上回っている。
論文 参考訳(メタデータ) (2025-11-17T13:30:51Z) - MonkeyOCR v1.5 Technical Report: Unlocking Robust Document Parsing for Complex Patterns [80.05126590825121]
MonkeyOCR v1.5は、レイアウト理解とコンテンツ認識の両方を強化する統合ビジョン言語フレームワークである。
複雑なテーブル構造に対処するために,視覚的整合性に基づく強化学習手法を提案する。
2つの特別なモジュール、Image-Decoupled Table ParsingとType-Guided Table Mergingを導入し、テーブルの信頼性の高いパースを可能にする。
論文 参考訳(メタデータ) (2025-11-13T15:12:17Z) - M-DocSum: Do LVLMs Genuinely Comprehend Interleaved Image-Text in Document Summarization? [49.53982792497275]
本稿では,LVLM(Large Vision-Language Models)が文書中のインターリーブ画像テキストを真に理解しているかどうかを検討する。
既存の文書理解ベンチマークは、しばしば質問応答形式を用いてLVLMを評価する。
マルチモーダル文書要約ベンチマーク(M-DocSum-Bench)について紹介する。
M-DocSum-Benchは500の高品質なarXiv論文と、人間の好みに合わせたインターリーブされたマルチモーダル要約で構成されている。
論文 参考訳(メタデータ) (2025-03-27T07:28:32Z) - mPLUG-DocOwl: Modularized Multimodal Large Language Model for Document
Understanding [55.4806974284156]
文書理解とは、ウェブページのようなデジタル文書から自動的に情報を抽出し、分析し、理解することである。
既存のMLLM(Multi-model Large Language Models)は、浅いOCRフリーテキスト認識において、望ましくないゼロショット機能を実証している。
論文 参考訳(メタデータ) (2023-07-04T11:28:07Z) - Learning Contextualized Document Representations for Healthcare Answer
Retrieval [68.02029435111193]
コンテキスト談話ベクトル(英: Contextual Discourse Vectors、CDV)は、長文からの効率的な回答検索のための分散文書表現である。
本モデルでは,階層型LSTMレイヤとマルチタスクトレーニングを併用したデュアルエンコーダアーキテクチャを用いて,臨床エンティティの位置と文書の談話に沿った側面をエンコードする。
我々の一般化モデルは、医療パスランキングにおいて、最先端のベースラインを著しく上回っていることを示す。
論文 参考訳(メタデータ) (2020-02-03T15:47:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。