論文の概要: AutoFormBench: Benchmark Dataset for Automating Form Understanding
- arxiv url: http://arxiv.org/abs/2603.29832v1
- Date: Tue, 31 Mar 2026 14:53:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-01 15:25:03.732644
- Title: AutoFormBench: Benchmark Dataset for Automating Form Understanding
- Title(参考訳): AutoFormBench:フォーム理解を自動化するベンチマークデータセット
- Authors: Gaurab Baral, Junxiu Zhou,
- Abstract要約: AutoFormBenchは、政府、医療、エンタープライズドメインにまたがる407のアノテートされた実世界のフォームのベンチマークデータセットである。
YOLOv11はF1スコアとJaccardの精度において、すべての要素クラスとトレランスレベルにおいて一貫して優れたパフォーマンスを示している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Automated processing of structured documents such as government forms, healthcare records, and enterprise invoices remains a persistent challenge due to the high degree of layout variability encountered in real-world settings. This paper introduces AutoFormBench, a benchmark dataset of 407 annotated real-world forms spanning government, healthcare, and enterprise domains, designed to train and evaluate form element detection models. We present a systematic comparison of classical OpenCV approaches and four YOLO architectures (YOLOv8, YOLOv11, YOLOv26-s, and YOLOv26-l) for localizing and classifying fillable form elements. specifically checkboxes, input lines, and text boxes across diverse PDF document types. YOLOv11 demonstrates consistently superior performance in both F1 score and Jaccard accuracy across all element classes and tolerance levels.
- Abstract(参考訳): 政府形態、医療記録、企業の請求書などの構造化文書の自動処理は、現実世界の状況で発生する高いレイアウトのばらつきのため、依然として永続的な課題である。
本稿では、政府、医療、企業ドメインにまたがる407のアノテートされた実世界のフォームのベンチマークデータセットであるAutoFormBenchを紹介し、フォーム要素検出モデルのトレーニングと評価を行う。
本稿では,従来のOpenCV手法とYOLOアーキテクチャ(YOLOv8, YOLOv11, YOLOv26-s, YOLOv26-l)の体系的比較を行った。
特に、さまざまなPDFドキュメントタイプにまたがるチェックボックス、入力行、テキストボックス。
YOLOv11はF1スコアとJaccardの精度において、すべての要素クラスとトレランスレベルにおいて一貫して優れたパフォーマンスを示している。
関連論文リスト
- UniRec-0.1B: Unified Text and Formula Recognition with 0.1B Parameters [55.34921520578968]
視覚言語モデル(VLM)は、テキストと公式の統一的な認識を実現している。
パラメータが0.1Bしか持たない統一認識モデルUniRec-0.1Bを提案する。
文字、単語、行、段落、文書など、複数のレベルでテキストや公式の認識を行うことができる。
論文 参考訳(メタデータ) (2025-12-24T10:35:21Z) - MonkeyOCR v1.5 Technical Report: Unlocking Robust Document Parsing for Complex Patterns [80.05126590825121]
MonkeyOCR v1.5は、レイアウト理解とコンテンツ認識の両方を強化する統合ビジョン言語フレームワークである。
複雑なテーブル構造に対処するために,視覚的整合性に基づく強化学習手法を提案する。
2つの特別なモジュール、Image-Decoupled Table ParsingとType-Guided Table Mergingを導入し、テーブルの信頼性の高いパースを可能にする。
論文 参考訳(メタデータ) (2025-11-13T15:12:17Z) - DocLayout-YOLO: Enhancing Document Layout Analysis through Diverse Synthetic Data and Global-to-Local Adaptive Perception [16.301481927603554]
速度の優位性を保ちながら精度を向上させる新しいアプローチであるDoc-YOLOを導入する。
堅牢な文書事前学習には、Mesh-candidate BestFitアルゴリズムを導入する。
モデル最適化の観点からは,グローバルからローカライズ可能な受信モジュールを提案する。
論文 参考訳(メタデータ) (2024-10-16T14:50:47Z) - Semantic Constraint Inference for Web Form Test Generation [6.0759036120654315]
我々は、Webフォームの自動テスト生成のためのFormNexusと呼ばれる革新的なアプローチを導入する。
FormNexusは、個々のフォーム要素とそれらの関係から意味的な洞察を導き出すことを強調している。
GPT-4と組み合わされたFormNexusは,フォームサブミッション状態において89%のカバレッジを実現していることを示す。
論文 参考訳(メタデータ) (2024-02-01T19:10:05Z) - XDoc: Unified Pre-training for Cross-Format Document Understanding [84.63416346227176]
XDocは、単一のモデルで異なるドキュメントフォーマットを扱う、統合された事前訓練されたモデルである。
XDocは、トレーニング済みの個々のモデルと比較して、さまざまなダウンストリームタスクで同等またはそれ以上のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-10-06T12:07:18Z) - Benchmarking Multimodal AutoML for Tabular Data with Text Fields [83.43249184357053]
テキストフィールドを含む18個のマルチモーダルデータテーブルを組み立てる。
このベンチマークにより、研究者は、数値的、分類的、テキスト的特徴を用いて教師あり学習を行うための独自の方法を評価することができる。
論文 参考訳(メタデータ) (2021-11-04T09:29:16Z) - LayoutLMv2: Multi-modal Pre-training for Visually-Rich Document
Understanding [49.941806975280045]
テキストとレイアウトの事前トレーニングは、視覚的に豊富な文書理解タスクで有効であることが証明されています。
テキスト,レイアウト,イメージをマルチモーダルフレームワークで事前学習することで,テキスト-bfLMv2を提示する。
論文 参考訳(メタデータ) (2020-12-29T13:01:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。