論文の概要: CommonForms: A Large, Diverse Dataset for Form Field Detection
- arxiv url: http://arxiv.org/abs/2509.16506v1
- Date: Sat, 20 Sep 2025 02:55:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:15.826553
- Title: CommonForms: A Large, Diverse Dataset for Form Field Detection
- Title(参考訳): CommonForms: フォームフィールド検出のための大規模分散データセット
- Authors: Joe Barrow,
- Abstract要約: 本稿では,フォームフィールド検出のためのWebスケールデータセットであるCommonFormsを紹介する。
データセットはCommon Crawlをフィルタリングして構築され、充填可能な要素を持つPDFを見つける。
本稿では,CommonForms テストセット上で,非常に高い平均精度を実現するフォームフィールド検出器 FFDNet-Small と FFDNet-Large のファミリについて述べる。
- 参考スコア(独自算出の注目度): 5.888193638583421
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces CommonForms, a web-scale dataset for form field detection. It casts the problem of form field detection as object detection: given an image of a page, predict the location and type (Text Input, Choice Button, Signature) of form fields. The dataset is constructed by filtering Common Crawl to find PDFs that have fillable elements. Starting with 8 million documents, the filtering process is used to arrive at a final dataset of roughly 55k documents that have over 450k pages. Analysis shows that the dataset contains a diverse mixture of languages and domains; one third of the pages are non-English, and among the 14 classified domains, no domain makes up more than 25% of the dataset. In addition, this paper presents a family of form field detectors, FFDNet-Small and FFDNet-Large, which attain a very high average precision on the CommonForms test set. Each model cost less than $500 to train. Ablation results show that high-resolution inputs are crucial for high-quality form field detection, and that the cleaning process improves data efficiency over using all PDFs that have fillable fields in Common Crawl. A qualitative analysis shows that they outperform a popular, commercially available PDF reader that can prepare forms. Unlike the most popular commercially available solutions, FFDNet can predict checkboxes in addition to text and signature fields. This is, to our knowledge, the first large scale dataset released for form field detection, as well as the first open source models. The dataset, models, and code will be released at https://github.com/jbarrow/commonforms
- Abstract(参考訳): 本稿では,フォームフィールド検出のためのWebスケールデータセットであるCommonFormsを紹介する。
フォームフィールド検出は、ページのイメージを与えられ、フォームフィールドの位置と型(テキスト入力、選択ボタン、署名)を予測する。
データセットはCommon Crawlをフィルタリングして構築され、充填可能な要素を持つPDFを見つける。
800万のドキュメントから始めて、フィルタリングプロセスは、450万ページを超える約55万のドキュメントの最終データセットに到達するのに使用される。
分析によると、データセットは多種多様な言語とドメインを含んでいる。ページの3分の1は英語ではない。
さらに,本論文では,CommonForms テストセットにおいて,非常に高い平均精度を実現するフォームフィールド検出器 FFDNet-Small と FFDNet-Large のファミリについて述べる。
各モデルは500ドル以下で練習できる。
アブレーションの結果,高分解能入力は高品質なフォームフィールド検出に不可欠であり,クリーニングプロセスはCommon Crawlのフィールドが満たされるすべてのPDFを使用するよりもデータ効率が向上することがわかった。
質的な分析では、フォームを準備できる人気のある商用PDFリーダーよりも優れています。
最も人気のある商用ソリューションとは異なり、FFDNetはテキストやシグネチャフィールドに加えてチェックボックスを予測することができる。
これは私たちの知る限り、フォームフィールド検出のための最初の大規模データセットと、最初のオープンソースモデルです。
データセット、モデル、コードはhttps://github.com/jbarrow/commonformsでリリースされる。
関連論文リスト
- Multi-Field Adaptive Retrieval [39.38972160512916]
MFAR(Multi-Field Adaptive Retrieval)は、構造化データ上の任意の文書インデックスに対応するフレキシブルなフレームワークである。
本フレームワークは,(1) 既存の文書のフィールドへの分解,(2) 文書クエリの条件付けによるフィールドの重要性を適応的に予測するモデル学習,という2つのステップから構成される。
提案手法により,フィールドタイプ間での濃密表現と語彙表現の最適化が実現され,既存の検索者よりも文書のランク付けが大幅に向上し,マルチフィールド構造における最先端の性能が向上することがわかった。
論文 参考訳(メタデータ) (2024-10-26T03:07:22Z) - RanLayNet: A Dataset for Document Layout Detection used for Domain Adaptation and Generalization [36.973388673687815]
RanLayNetは、自動的に割り当てられたラベルでリッチ化された合成ドキュメントデータセットである。
本研究では,データセットでトレーニングしたディープレイアウト識別モデルに対して,実際の文書のみをトレーニングしたモデルと比較して,性能が向上したことを示す。
論文 参考訳(メタデータ) (2024-04-15T07:50:15Z) - Robust Domain Misinformation Detection via Multi-modal Feature Alignment [49.89164555394584]
マルチモーダルな誤情報検出のための頑健なドメインとクロスモーダルなアプローチを提案する。
テキストと視覚の共役分布を整列させることにより、ドメインシフトを低減する。
また,ドメイン一般化のアプリケーションシナリオを同時に検討するフレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-24T07:06:16Z) - DocumentNet: Bridging the Data Gap in Document Pre-Training [78.01647768018485]
本稿では,Webから大規模かつ弱いラベル付きデータを収集し,VDERモデルの学習に役立てる手法を提案する。
収集されたデータセットはDocumentNetと呼ばれ、特定のドキュメントタイプやエンティティセットに依存しない。
広く採用されているVDERタスクの実験は、DocumentNetを事前トレーニングに組み込んだ場合、大幅に改善されている。
論文 参考訳(メタデータ) (2023-06-15T08:21:15Z) - RDU: A Region-based Approach to Form-style Document Understanding [69.29541701576858]
キー情報抽出(KIE)は,フォーム形式の文書から構造化された情報を抽出することを目的としている。
我々は、Rerea-based Understanding Document (RDU) と呼ばれる新しいKIEモデルを開発する。
RDUは文書のテキスト内容と対応する座標を入力として、バウンディングボックスのような領域をローカライズして結果を予測しようとする。
論文 参考訳(メタデータ) (2022-06-14T14:47:48Z) - Simple multi-dataset detection [83.9604523643406]
複数の大規模データセット上で統合検出器を訓練する簡単な方法を提案する。
データセット固有のアウトプットを共通の意味分類に自動的に統合する方法を示す。
私たちのアプローチは手動の分類学の調整を必要としません。
論文 参考訳(メタデータ) (2021-02-25T18:55:58Z) - SciREX: A Challenge Dataset for Document-Level Information Extraction [56.83748634747753]
ドキュメントレベルで大規模な情報抽出データセットを作成するのは難しい。
複数のIEタスクを含む文書レベルのIEデータセットであるSciREXを紹介する。
我々は、従来の最先端のIEモデルをドキュメントレベルのIEに拡張する強力なベースラインとして、ニューラルモデルを開発する。
論文 参考訳(メタデータ) (2020-05-01T17:30:10Z) - Cross-Domain Document Object Detection: Benchmark Suite and Method [71.4339949510586]
文書オブジェクト検出(DOD)は、インテリジェントな文書編集や理解といった下流タスクに不可欠である。
我々は、ソースドメインからのラベル付きデータとターゲットドメインからのラベルなしデータのみを用いて、ターゲットドメインの検出器を学習することを目的として、クロスドメインDODを調査した。
各データセットに対して、ページイメージ、バウンディングボックスアノテーション、PDFファイル、PDFファイルから抽出されたレンダリング層を提供する。
論文 参考訳(メタデータ) (2020-03-30T03:04:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。