論文の概要: Generating Synthetic Handwritten Historical Documents With OCR
Constrained GANs
- arxiv url: http://arxiv.org/abs/2103.08236v1
- Date: Mon, 15 Mar 2021 09:39:17 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-16 14:30:17.881040
- Title: Generating Synthetic Handwritten Historical Documents With OCR
Constrained GANs
- Title(参考訳): OCR制約GANを用いた合成手書き歴史文書の生成
- Authors: Lars V\"ogtlin, Manuel Drazyk, Vinaychandran Pondenkandath, Michele
Alberti, Rolf Ingold
- Abstract要約: 我々は,無記名歴史画像のコレクションのみを用いて,正確な根拠真理を持つ合成歴史文書を生成する枠組みを提案する。
我々は,大規模ラベル付き歴史文書データセットを精度良く生成することのできる高品質な合成法を実証する。
- 参考スコア(独自算出の注目度): 2.3808546906079178
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a framework to generate synthetic historical documents with
precise ground truth using nothing more than a collection of unlabeled
historical images. Obtaining large labeled datasets is often the limiting
factor to effectively use supervised deep learning methods for Document Image
Analysis (DIA). Prior approaches towards synthetic data generation either
require expertise or result in poor accuracy in the synthetic documents. To
achieve high precision transformations without requiring expertise, we tackle
the problem in two steps. First, we create template documents with
user-specified content and structure. Second, we transfer the style of a
collection of unlabeled historical images to these template documents while
preserving their text and layout. We evaluate the use of our synthetic
historical documents in a pre-training setting and find that we outperform the
baselines (randomly initialized and pre-trained). Additionally, with visual
examples, we demonstrate a high-quality synthesis that makes it possible to
generate large labeled historical document datasets with precise ground truth.
- Abstract(参考訳): 我々は,無記名歴史画像のコレクションのみを用いて,正確な根拠真理を持つ合成歴史文書を生成する枠組みを提案する。
大きなラベル付きデータセットを取得することは、ドキュメント画像解析(DIA)の教師付きディープラーニングメソッドを効果的に使用するための制限要因であることが多い。
合成データ生成に対する以前のアプローチでは、専門知識が必要か、あるいは合成文書の精度が低かった。
専門知識を必要とせずに高精度な変換を実現するため、2つのステップで課題に取り組みます。
まず、ユーザー指定のコンテンツと構造を持つテンプレートドキュメントを作成します。
第2に,テキストやレイアウトを維持しつつ,これらのテンプレート文書にラベルなしの歴史的画像の集合のスタイルを転送する。
事前学習環境での合成履歴文書の使用を評価し、ベースライン(ランダムに初期化および事前トレーニング)を上回っていることを見つけます。
さらに,視覚的な例を用いて,大規模ラベル付き歴史文書データセットを精度良く生成することのできる高品質な合成を実演する。
関連論文リスト
- Contextual Document Embeddings [77.22328616983417]
本稿では,コンテキスト化された文書埋め込みのための2つの補完手法を提案する。
第一に、文書近傍を明示的にバッチ内コンテキスト損失に組み込む別のコントラスト学習目標である。
第二に、隣接する文書情報をエンコードされた表現に明示的にエンコードする新しいコンテキストアーキテクチャ。
論文 参考訳(メタデータ) (2024-10-03T14:33:34Z) - SynthDoc: Bilingual Documents Synthesis for Visual Document Understanding [23.910783272007407]
本稿では、ビジュアル文書理解(VDU)を強化するために設計された新しい合成文書生成パイプラインであるSynthDocを紹介する。
データ取得の課題と既存のデータセットの制限に対処するため、SynthDocは、一般公開されたコーパスと高度なレンダリングツールを活用して、包括的な汎用データセットを作成する。
ドナウモデルを用いて実験を行った結果,SynthDocのデータを用いて学習したモデルは,事前学習された読み出しタスクにおいて優れた性能を示し,言語的矛盾にもかかわらず,下流タスクにおいて堅牢性を維持することができた。
論文 参考訳(メタデータ) (2024-08-27T03:31:24Z) - Improving Text Embeddings with Large Language Models [59.930513259982725]
合成データと1k以下のトレーニングステップのみを用いて,高品質なテキスト埋め込みを実現するための,新しい簡易な手法を提案する。
我々は、93言語にまたがる数十万のテキスト埋め込みタスクのための多様な合成データを生成するために、プロプライエタリなLLMを活用している。
実験により,ラベル付きデータを使わずに,高度に競争力のあるテキスト埋め込みベンチマークにおいて高い性能が得られることが示された。
論文 参考訳(メタデータ) (2023-12-31T02:13:18Z) - PHD: Pixel-Based Language Modeling of Historical Documents [55.75201940642297]
実史文書に類似した合成スキャンを生成する新しい手法を提案する。
我々は,1700-1900年代における合成スキャンと実際の歴史新聞を組み合わせて,我々のモデルであるPHDを事前訓練した。
我々は、この領域におけるその有用性を強調しながら、我々のモデルを歴史的QAタスクに適用することに成功しました。
論文 参考訳(メタデータ) (2023-10-22T08:45:48Z) - Synthetic Document Generator for Annotation-free Layout Recognition [15.657295650492948]
本稿では,空間的位置,範囲,レイアウト要素のカテゴリを示すラベル付きリアル文書を自動生成する合成文書生成装置について述べる。
合成文書上で純粋に訓練された深層レイアウト検出モデルが,実文書を用いたモデルの性能と一致することを実証的に示す。
論文 参考訳(メタデータ) (2021-11-11T01:58:44Z) - Synthesis in Style: Semantic Segmentation of Historical Documents using
Synthetic Data [12.704529528199062]
文書画像のセマンティックセグメンテーションのためのトレーニングデータの合成法を提案する。
我々はRGBとラベル画像の合成にStyleGANジェネレータの中間機能に見られるクラスタを利用する。
我々のモデルは、個々の画像のマニュアルアノテーションを必要とせずに、スキャンされた文書のデータセットに適用できる。
論文 参考訳(メタデータ) (2021-07-14T15:36:47Z) - docExtractor: An off-the-shelf historical document element extraction [18.828438308738495]
文献からテキストやイラストなどの視覚的要素を抽出する汎用的手法である docExtractor を提案する。
さまざまなデータセットにまたがるオフザシェルフシステムとして,高品質なパフォーマンスを提供することを実証する。
IlluHisDocと呼ばれる新しい公開データセットを導入し、歴史文書におけるイラストのセグメンテーションを詳細に評価する。
論文 参考訳(メタデータ) (2020-12-15T10:19:18Z) - Robust Document Representations using Latent Topics and Metadata [17.306088038339336]
本稿では,文書分類問題に対する事前学習型ニューラルネットワークモデルの微調整手法を提案する。
テキストとメタデータの両方をタスク形式でキャプチャする文書表現を生成します。
私たちのソリューションでは、メタデータを単にテキストで拡張するのではなく、明示的に組み込んでいます。
論文 参考訳(メタデータ) (2020-10-23T21:52:38Z) - Self-supervised Deep Reconstruction of Mixed Strip-shredded Text
Documents [63.41717168981103]
本研究は,従来の1ページ再構成の深層学習手法を,より現実的で複雑なシナリオに拡張する。
本手法では, 整合性評価を2クラス(無効または無効)パターン認識問題としてモデル化する。
提案手法は複雑なシナリオにおいて競合する手法よりも優れ、90%以上の精度で精度が向上する。
論文 参考訳(メタデータ) (2020-07-01T21:48:05Z) - SciREX: A Challenge Dataset for Document-Level Information Extraction [56.83748634747753]
ドキュメントレベルで大規模な情報抽出データセットを作成するのは難しい。
複数のIEタスクを含む文書レベルのIEデータセットであるSciREXを紹介する。
我々は、従来の最先端のIEモデルをドキュメントレベルのIEに拡張する強力なベースラインとして、ニューラルモデルを開発する。
論文 参考訳(メタデータ) (2020-05-01T17:30:10Z) - Learning to Select Bi-Aspect Information for Document-Scale Text Content
Manipulation [50.01708049531156]
我々は、テキストスタイルの転送とは逆の文書スケールのテキストコンテンツ操作という、新しい実践的なタスクに焦点を当てる。
詳細は、入力は構造化されたレコードと、別のレコードセットを記述するための参照テキストのセットである。
出力は、ソースレコードセットの部分的内容と参照の書き込みスタイルを正確に記述した要約である。
論文 参考訳(メタデータ) (2020-02-24T12:52:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。