論文の概要: A Hybrid Architecture for Multi-Stage Claim Document Understanding: Combining Vision-Language Models and Machine Learning for Real-Time Processing
- arxiv url: http://arxiv.org/abs/2601.01897v1
- Date: Mon, 05 Jan 2026 08:40:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:22.866533
- Title: A Hybrid Architecture for Multi-Stage Claim Document Understanding: Combining Vision-Language Models and Machine Learning for Real-Time Processing
- Title(参考訳): 多段階文書理解のためのハイブリッドアーキテクチャ:視覚言語モデルと機械学習を組み合わせたリアルタイム処理
- Authors: Lilu Cheng, Jingjun Lu, Yi Xuan Chan, Quoc Khai Nguyen, John Bi, Sean Ho,
- Abstract要約: 請求書は医療や保険業務に基本的であり、返済、監査、コンプライアンスの基盤となっている。
本稿では,多言語光文字認識(OCR)エンジンのPaddleOCR,従来のロジスティック回帰,コンパクトビジョンランゲージモデル(VLM),Qwen 2.5-VL-7Bを統合した多段パイプラインを提案する。
提案システムでは,文書毎の処理遅延を平均2秒以下に抑えながら,95%以上の文書型分類精度とフィールドレベルの抽出精度を約87%とする。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Claims documents are fundamental to healthcare and insurance operations, serving as the basis for reimbursement, auditing, and compliance. However, these documents are typically not born digital; they often exist as scanned PDFs or photographs captured under uncontrolled conditions. Consequently, they exhibit significant content heterogeneity, ranging from typed invoices to handwritten medical reports, as well as linguistic diversity. This challenge is exemplified by operations at Fullerton Health, which handles tens of millions of claims annually across nine markets, including Singapore, the Philippines, Indonesia, Malaysia, Mainland China, Hong Kong, Vietnam, Papua New Guinea, and Cambodia. Such variability, coupled with inconsistent image quality and diverse layouts, poses a significant obstacle to automated parsing and structured information extraction. This paper presents a robust multi-stage pipeline that integrates the multilingual optical character recognition (OCR) engine PaddleOCR, a traditional Logistic Regression classifier, and a compact Vision-Language Model (VLM), Qwen 2.5-VL-7B, to achieve efficient and accurate field extraction from large-scale claims data. The proposed system achieves a document-type classification accuracy of over 95 percent and a field-level extraction accuracy of approximately 87 percent, while maintaining an average processing latency of under 2 seconds per document. Compared to manual processing, which typically requires around 10 minutes per claim, our system delivers a 300x improvement in efficiency. These results demonstrate that combining traditional machine learning models with modern VLMs enables production-grade accuracy and speed for real-world automation. The solution has been successfully deployed in our mobile application and is currently processing tens of thousands of claims weekly from Vietnam and Singapore.
- Abstract(参考訳): 請求書は医療や保険業務に基本的であり、返済、監査、コンプライアンスの基盤となっている。
しかし、これらの文書は典型的にはデジタル化されておらず、しばしばスキャンされたPDFや、制御されていない条件下で撮影された写真として存在している。
その結果, 入力請求書から手書き医療報告, 言語的多様性など, 重要な内容の不均一性がみられた。
この課題は、シンガポール、フィリピン、インドネシア、マレーシア、中国本土、香港、ベトナム、パプアニューギニア、カンボジアを含む9つの市場で毎年数千万件の請求を処理しているフラートンヘルスの運用によって実証されている。
このような可変性には、一貫性のない画質と多様なレイアウトが組み合わさり、自動解析や構造化情報抽出に重大な障害となる。
本稿では,多言語光学式文字認識(OCR)エンジンのPaddleOCR,従来のロジスティック回帰分類器,コンパクトビジョン言語モデル(VLM),Qwen 2.5-VL-7Bを統合し,大規模クレームデータから効率よく高精度なフィールド抽出を実現する。
提案システムでは,文書毎の処理遅延を平均2秒以下に抑えながら,95%以上の文書型分類精度とフィールドレベルの抽出精度を約87%とする。
通常、1クレームあたり10分程度を要する手作業処理と比較して、私たちのシステムは効率を300倍改善します。
これらの結果は、従来の機械学習モデルと現代のVLMを組み合わせることで、実世界の自動化のためのプロダクショングレードの精度とスピードを実現できることを示している。
このソリューションは当社のモバイルアプリに成功しており、現在ベトナムとシンガポールから毎週数万件の請求を処理しています。
関連論文リスト
- MosaicDoc: A Large-Scale Bilingual Benchmark for Visually Rich Document Understanding [7.650139800950797]
MosaicDocは、ビジュアルリッチドキュメント理解(VRDU)の境界を押し上げるために設計された、大規模なバイリンガル(中国語と英語)リソースである。
72Kイメージと600KのQAペアを持つMosaicDocは、この分野における決定的なベンチマークとして機能する。
このベンチマークにおける最先端モデルの評価は、実際の文書の複雑さを扱う際の現在の限界を明らかにしている。
論文 参考訳(メタデータ) (2025-11-13T03:34:44Z) - Multi-Stage Field Extraction of Financial Documents with OCR and Compact Vision-Language Models [2.6300820904868263]
金融文書は、規制当局、監査官、金融機関にとって重要な情報源である。
これらの文書は異質であり、同じレポートの中で物語、表、図形、多言語の内容が混在する傾向がある。
本稿では,従来の画像処理モデルとOCR抽出を利用するマルチステージパイプラインと,構造化されたフィールド抽出のためのコンパクトなVLMを提案する。
論文 参考訳(メタデータ) (2025-10-27T06:56:08Z) - Finetuning Vision-Language Models as OCR Systems for Low-Resource Languages: A Case Study of Manchu [0.0]
危険に晒された言語である満州には、現実世界の歴史的文書を扱うことができる効果的なOCRシステムがない。
本研究では,3つのオープンソースビジョン言語モデルを微調整し,高性能なOCRシステムを構築する。
LLaMA-3.2-11Bは98.3%の単語精度と0.0024文字誤り率で優れた性能を達成した。
論文 参考訳(メタデータ) (2025-07-09T11:38:20Z) - A Multimodal Pipeline for Clinical Data Extraction: Applying Vision-Language Models to Scans of Transfusion Reaction Reports [0.3552186988607578]
本研究では,スキャンした文書からチェックボックスデータを抽出し,分類するオープンソースパイプラインを提案する。
パイプラインは、2017年から2024年にかけて毎年コンパイルされた金標準と比較して高い精度とリコールを達成する。
論文 参考訳(メタデータ) (2025-04-28T19:40:28Z) - Harnessing PDF Data for Improving Japanese Large Multimodal Models [56.80385809059738]
大規模マルチモーダルモデル (LMM) は英語では高い性能を示したが、日本語では有効性は限られている。
現在の日本のLMMは、しばしば翻訳された英語のデータセットに依存しており、日本固有の文化知識を捉える能力を制限する。
我々は、事前訓練されたモデルを利用してPDFから画像とテキストのペアを抽出する完全自動パイプラインを導入する。
論文 参考訳(メタデータ) (2025-02-20T17:59:59Z) - PDF-WuKong: A Large Multimodal Model for Efficient Long PDF Reading with End-to-End Sparse Sampling [63.93112754821312]
マルチモーダル文書理解は,大量のテキスト情報や視覚情報を処理し,理解するための課題である。
大規模言語モデル(LLM)の最近の進歩は、このタスクの性能を大幅に改善した。
長いPDF文書に対する多モーダル質問回答(QA)を強化するために設計された多モーダル大言語モデル(MLLM)であるPDF-WuKongを紹介する。
論文 参考訳(メタデータ) (2024-10-08T12:17:42Z) - Privacy Adhering Machine Un-learning in NLP [66.17039929803933]
現実の業界では、機械学習を使ってユーザデータに基づくモデルを構築します。
このような委任事項には、データだけでなく、モデルの再トレーニングにも労力が要る。
データの継続的な削除と モデル再訓練のステップはスケールしません
この課題に対処するために、textitMachine Unlearningを提案する。
論文 参考訳(メタデータ) (2022-12-19T16:06:45Z) - Families In Wild Multimedia: A Multimodal Database for Recognizing
Kinship [63.27052967981546]
マルチタスク MM キンシップデータセットを初めて公開する。
FIW MMを構築するために,データを自動収集,注釈付け,作成する機構を開発した。
結果は、改善の異なる領域で将来の研究を刺激するエッジケースを強調します。
論文 参考訳(メタデータ) (2020-07-28T22:36:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。