論文の概要: From Handwriting to Structured Data: Benchmarking AI Digitisation of Handwritten Forms
- arxiv url: http://arxiv.org/abs/2604.16504v1
- Date: Tue, 14 Apr 2026 17:45:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.03499
- Title: From Handwriting to Structured Data: Benchmarking AI Digitisation of Handwritten Forms
- Title(参考訳): 手書きデータから構造化データへ:手書きフォームのAIディジタイズをベンチマークする
- Authors: Nicholas Pather, Joshua Fouché, Sitwala Mundia, Karl-Günter Technau, Thokozile Malaba, Alex Welte, Ushma Mehta, Bruce A. Bassett,
- Abstract要約: 構造化された手書き文書のマニュアルのデジタル化は遅くてコストがかかる。
しかし、GoogleとOpenAIの最新モデルは、約85%の精度に達している。
プロンプト最適化はマクロ精度、リコール、F1を劇的に向上させる。
- 参考スコア(独自算出の注目度): 0.8675465447537681
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Manual digitisation of structured handwritten documents is slow and costly. We benchmark 17 leading frontier multi-modal large language models and open-source models against a very challenging real-world medical form that mixes dates; structured, printed text; hand-written responses and significant variability challenges. None of the smaller or older models perform well but the latest Google and OpenAI models reach accuracies around $85\%$ with weighted F1 scores $\simeq 90\%$ across the discrete or predefined fields despite the very challenging nature of the responses. Clear task specific strengths emerge: GPT 5.4 excels in noisy date extraction as well as reliability with the lowest hallucination rate ($6\%$). Claude Sonnet 4.6 had the best average performance across formatted fields (dates and numerical values), while Gemini 3.1 delivered the best overall performance, with the lowest free text error rates (WER = $0.50$ and CER = $0.31$) and the strongest results across discrete classification metrics. We further show that prompt optimisation dramatically improves macro precision, recall and F1 by over $60\%$, but has little impact on weighted metrics (only $\sim2-5\%$ improvement). These results provide evidence that the rapid improvements of multimodal large language models offer a compelling pathway toward fully automated digitisation of complex handwritten workflows that is particularly relevant in low- and middle-income countries.
- Abstract(参考訳): 構造化された手書き文書のマニュアルのデジタル化は遅くてコストがかかる。
我々は、17の先進的なマルチモーダルな大規模言語モデルとオープンソースモデルと、日付、構造化された印刷されたテキスト、手書きの応答、および大きな可変性の課題を混在させる非常に困難な現実の医療形態をベンチマークする。
より小さなモデルや古いモデルはいずれもうまく動作しないが、最新のGoogleとOpenAIモデルは、応答の非常に困難な性質にもかかわらず、重み付けされたF1スコアが離散または事前定義されたフィールド全体にわたって$\simeq 90\%の精度に達する。
GPT 5.4はノイズの多い日付抽出と最も低い幻覚率(6\%$)の信頼性を誇っている。
Claude Sonnet 4.6 はフォーマットされたフィールド(日付と数値)で最高の平均性能を示し、Gemini 3.1 は最も低いフリーテキストエラー率 (WER = $0.50$、CER = $0.31$) と、個々の分類指標で最高の結果を得た。
さらに、迅速な最適化はマクロ精度、リコール、F1を60\%以上向上させるが、重み付けされたメトリクスにはほとんど影響しない($\sim2-5\%$改善のみ)。
これらの結果から,マルチモーダルな大規模言語モデルの急速な改良が,特に低所得国と中所得国で関係のある複雑な手書きワークフローの完全なデジタル化に向けた説得力のある道筋となることが示唆された。
関連論文リスト
- UniRec-0.1B: Unified Text and Formula Recognition with 0.1B Parameters [55.34921520578968]
視覚言語モデル(VLM)は、テキストと公式の統一的な認識を実現している。
パラメータが0.1Bしか持たない統一認識モデルUniRec-0.1Bを提案する。
文字、単語、行、段落、文書など、複数のレベルでテキストや公式の認識を行うことができる。
論文 参考訳(メタデータ) (2025-12-24T10:35:21Z) - FRED: Financial Retrieval-Enhanced Detection and Editing of Hallucinations in Language Models [1.9894117371899613]
大規模言語モデルにおける幻覚は、事実的信頼性を必要とするアプリケーションにとって重要な課題である。
本研究は,モデル生成応答における事実的誤りコンテンツの検出と編集に有効な手法を提案する。
論文 参考訳(メタデータ) (2025-07-28T15:41:53Z) - MonkeyOCR: Document Parsing with a Structure-Recognition-Relation Triplet Paradigm [60.14048367611333]
MonkeyOCRはドキュメント解析のためのビジョン言語モデルである。
SRR(Structure-Recognition-Relation)三重項パラダイムを活用することで、最先端の技術の進歩を図っている。
論文 参考訳(メタデータ) (2025-06-05T16:34:57Z) - Discourse Features Enhance Detection of Document-Level Machine-Generated Content [53.41994768824785]
機械生成コンテンツは、学術プラジャリズムや誤報の拡散といった課題を提起する。
既存のMGC検出器は、しばしば表面レベルの情報のみに焦点を当て、暗黙的かつ構造的な特徴を見渡す。
これらの課題を克服するために、新しい方法論とデータセットを導入します。
論文 参考訳(メタデータ) (2024-12-17T08:47:41Z) - NeKo: Toward Post Recognition Generative Correction Large Language Models with Task-Oriented Experts [57.53692236201343]
提案するマルチタスク補正MOEでは,専門家が音声・テキスト・言語・テキスト・視覚・テキスト・データセットの「専門家」になるよう訓練する。
NeKoはマルチタスクモデルとして文法とポストOCR補正を競合的に実行している。
論文 参考訳(メタデータ) (2024-11-08T20:11:24Z) - How to Leverage Demonstration Data in Alignment for Large Language Model? A Self-Imitation Learning Perspective [17.956310574300765]
本稿では,新しい自己アニメーション学習フレームワーク(textbfGSIL$)を紹介する。
大規模な言語モデルとオフラインのデモデータとを効果的に効率的に整列する。
$textbfGSIL$一貫性があり、多くの挑戦的なベンチマークでベースラインをはるかに上回っている。
論文 参考訳(メタデータ) (2024-10-14T02:21:29Z) - Evaluating Named Entity Recognition: A comparative analysis of mono- and multilingual transformer models on a novel Brazilian corporate earnings call transcripts dataset [3.809702129519642]
ブラジルポルトガル語で事前訓練された2つのモデル (BERTimbau と PTT5) と2つの多言語モデル (mBERT と mT5) を同定する。
本研究では,ファイナンシャル・ネームド・エンティティ・認識(NER)タスク上での性能評価を行い,微調整と推論のための計算条件を決定することを目的とした。
論文 参考訳(メタデータ) (2024-03-18T19:53:56Z) - Text Embeddings by Weakly-Supervised Contrastive Pre-training [98.31785569325402]
E5は最先端のテキスト埋め込みのファミリーであり、幅広いタスクにうまく転送される。
E5は、テキストの単一ベクトル表現を必要とするタスクに対して、汎用的な埋め込みモデルとして簡単に使用できる。
論文 参考訳(メタデータ) (2022-12-07T09:25:54Z) - Robust Layout-aware IE for Visually Rich Documents with Pre-trained
Language Models [23.42593796135709]
視覚的にリッチな文書(VRD)からの情報抽出の問題について検討する。
ビジネス文書のテキスト情報と視覚情報の両方を効率的に符号化するために,大規模な事前学習言語モデルとグラフニューラルネットワークのパワーを組み合わせたモデルを提案する。
論文 参考訳(メタデータ) (2020-05-22T06:04:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。