論文の概要: DELINE8K: A Synthetic Data Pipeline for the Semantic Segmentation of Historical Documents
- arxiv url: http://arxiv.org/abs/2404.19259v1
- Date: Tue, 30 Apr 2024 04:53:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-01 15:23:59.545585
- Title: DELINE8K: A Synthetic Data Pipeline for the Semantic Segmentation of Historical Documents
- Title(参考訳): DELINE8K: 歴史的文書のセマンティックセグメンテーションのための合成データパイプライン
- Authors: Taylor Archibald, Tony Martinez,
- Abstract要約: 文書セマンティックセグメンテーションは、OCR、フォーム分類、文書編集などの文書解析作業を容易にする。
いくつかの合成データセットは、印刷されたテキストと手書きを区別するために開発されたが、それらはクラス多様性と文書の多様性に欠ける。
現在までに最も包括的な文書セマンティックセマンティクスパイプラインを提案し、10以上のソースからプレプリントされたテキスト、手書き、文書背景を組み込んだ。
我々のカスタマイズされたデータセットはNAFSSベンチマークで優れたパフォーマンスを示し、さらなる研究において有望なツールであることを示した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Document semantic segmentation is a promising avenue that can facilitate document analysis tasks, including optical character recognition (OCR), form classification, and document editing. Although several synthetic datasets have been developed to distinguish handwriting from printed text, they fall short in class variety and document diversity. We demonstrate the limitations of training on existing datasets when solving the National Archives Form Semantic Segmentation dataset (NAFSS), a dataset which we introduce. To address these limitations, we propose the most comprehensive document semantic segmentation synthesis pipeline to date, incorporating preprinted text, handwriting, and document backgrounds from over 10 sources to create the Document Element Layer INtegration Ensemble 8K, or DELINE8K dataset. Our customized dataset exhibits superior performance on the NAFSS benchmark, demonstrating it as a promising tool in further research. The DELINE8K dataset is available at https://github.com/Tahlor/deline8k.
- Abstract(参考訳): 文書セマンティックセグメンテーション(Document semantic segmentation)は、光学文字認識(OCR)、形態分類、文書編集などの文書解析作業を容易にする有望な方法である。
いくつかの合成データセットは、印刷されたテキストと手書きを区別するために開発されたが、それらはクラス多様性と文書の多様性に欠ける。
我々は,国立アーカイブ形式セマンティックセグメンテーションデータセット(NAFSS)を解く際に,既存のデータセットに対するトレーニングの限界を示す。
これらの制約に対処するため、我々は10以上のソースからプレプリントされたテキスト、手書き、文書背景を組み込んだ最も包括的な文書セマンティックセマンティクス合成パイプラインを提案し、文書要素層Integration Ensemble 8K(DELINE8K)データセットを作成する。
我々のカスタマイズされたデータセットはNAFSSベンチマークで優れたパフォーマンスを示し、さらなる研究において有望なツールであることを示した。
DELINE8Kデータセットはhttps://github.com/Tahlor/deline8k.comで公開されている。
関連論文リスト
- Contextual Document Embeddings [77.22328616983417]
本稿では,コンテキスト化された文書埋め込みのための2つの補完手法を提案する。
第一に、文書近傍を明示的にバッチ内コンテキスト損失に組み込む別のコントラスト学習目標である。
第二に、隣接する文書情報をエンコードされた表現に明示的にエンコードする新しいコンテキストアーキテクチャ。
論文 参考訳(メタデータ) (2024-10-03T14:33:34Z) - SynthDoc: Bilingual Documents Synthesis for Visual Document Understanding [23.910783272007407]
本稿では、ビジュアル文書理解(VDU)を強化するために設計された新しい合成文書生成パイプラインであるSynthDocを紹介する。
データ取得の課題と既存のデータセットの制限に対処するため、SynthDocは、一般公開されたコーパスと高度なレンダリングツールを活用して、包括的な汎用データセットを作成する。
ドナウモデルを用いて実験を行った結果,SynthDocのデータを用いて学習したモデルは,事前学習された読み出しタスクにおいて優れた性能を示し,言語的矛盾にもかかわらず,下流タスクにおいて堅牢性を維持することができた。
論文 参考訳(メタデータ) (2024-08-27T03:31:24Z) - Unifying Multimodal Retrieval via Document Screenshot Embedding [92.03571344075607]
Document Screenshot Embedding (DSE)は、文書のスクリーンショットを統一的な入力フォーマットとして扱う新しい検索パラダイムである。
まず、Wiki-SSというウィキペディアのウェブページのスクリーンショットをコーパスとして作成し、Natural Questionsデータセットからの質問に答える。
このようなテキスト集約的な文書検索設定では、DSEは構文解析に依存する他のテキスト検索方法と比較して、競合効果を示す。
論文 参考訳(メタデータ) (2024-06-17T06:27:35Z) - Visually Guided Generative Text-Layout Pre-training for Document Intelligence [51.09853181377696]
視覚誘導型生成テキスト事前学習(ViTLP)を提案する。
文書画像が与えられた場合、モデルは階層言語とレイアウトモデリングの目的を最適化し、インターリーブされたテキストとレイアウトシーケンスを生成する。
ViTLPは、文書画像のテキストをローカライズし、認識するためのネイティブなOCRモデルとして機能する。
論文 参考訳(メタデータ) (2024-03-25T08:00:43Z) - Handwritten and Printed Text Segmentation: A Signature Case Study [0.0]
我々は手書きテキストセグメンテーションの課題に対処するための新しいアプローチを開発する。
我々の目的は、クラス全体からテキストを復元することであり、特に重なり合う部分のセグメンテーション性能を向上させることである。
私たちの最高の設定は、以前の2つの異なるデータセットで17.9%、IoUスコアで7.3%のパフォーマンスを上回っています。
論文 参考訳(メタデータ) (2023-07-15T21:49:22Z) - TransDocAnalyser: A Framework for Offline Semi-structured Handwritten
Document Analysis in the Legal Domain [3.5018563401895455]
最初の半構造化文書解析データセットを法域内に構築する。
このデータセットは、多種多様な手書きテキストと印刷テキストを組み合わせる。
本稿では,手書き半構造化文書のオフライン処理のためのエンドツーエンドフレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-03T15:56:30Z) - Documenting the English Colossal Clean Crawled Corpus [28.008953329187648]
この作業は、Common Crawlの単一のスナップショットにフィルターのセットを適用することによって作成されたデータセットであるColossal Clean Crawled Corpus(C4; Raffel et al., 2020)の最初のドキュメントを提供します。
まず、テキストがどこから来ていつ書き込まれたかの分布を含む、データのハイレベルな要約から始めます。
次に、最も頻繁なテキストソースを含む、このデータの突出した部分に関するより詳細な分析を行う。
論文 参考訳(メタデータ) (2021-04-18T07:42:52Z) - Handwriting Classification for the Analysis of Art-Historical Documents [6.918282834668529]
We focus on the analysis of handwriting in scanned document from the art-historic Archive of the WPI。
視覚構造に基づいて抽出されたテキストの断片をラベル付けする手書き分類モデルを提案する。
論文 参考訳(メタデータ) (2020-11-04T13:06:46Z) - DocBank: A Benchmark Dataset for Document Layout Analysis [114.81155155508083]
文書レイアウト解析のための詳細なトークンレベルのアノテーションを備えた500Kドキュメントページを含むベンチマークデータセットである textbfDocBank を提示する。
実験の結果,DocBankでトレーニングされたモデルは,さまざまなドキュメントのレイアウト情報を正確に認識することがわかった。
論文 参考訳(メタデータ) (2020-06-01T16:04:30Z) - SciREX: A Challenge Dataset for Document-Level Information Extraction [56.83748634747753]
ドキュメントレベルで大規模な情報抽出データセットを作成するのは難しい。
複数のIEタスクを含む文書レベルのIEデータセットであるSciREXを紹介する。
我々は、従来の最先端のIEモデルをドキュメントレベルのIEに拡張する強力なベースラインとして、ニューラルモデルを開発する。
論文 参考訳(メタデータ) (2020-05-01T17:30:10Z) - Learning to Select Bi-Aspect Information for Document-Scale Text Content
Manipulation [50.01708049531156]
我々は、テキストスタイルの転送とは逆の文書スケールのテキストコンテンツ操作という、新しい実践的なタスクに焦点を当てる。
詳細は、入力は構造化されたレコードと、別のレコードセットを記述するための参照テキストのセットである。
出力は、ソースレコードセットの部分的内容と参照の書き込みスタイルを正確に記述した要約である。
論文 参考訳(メタデータ) (2020-02-24T12:52:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。