論文の概要: Synthetic Document Generator for Annotation-free Layout Recognition
- arxiv url: http://arxiv.org/abs/2111.06016v1
- Date: Thu, 11 Nov 2021 01:58:44 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-12 14:37:02.957898
- Title: Synthetic Document Generator for Annotation-free Layout Recognition
- Title(参考訳): アノテーションフリーレイアウト認識のための合成文書生成装置
- Authors: Natraj Raman, Sameena Shah and Manuela Veloso
- Abstract要約: 本稿では,空間的位置,範囲,レイアウト要素のカテゴリを示すラベル付きリアル文書を自動生成する合成文書生成装置について述べる。
合成文書上で純粋に訓練された深層レイアウト検出モデルが,実文書を用いたモデルの性能と一致することを実証的に示す。
- 参考スコア(独自算出の注目度): 15.657295650492948
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Analyzing the layout of a document to identify headers, sections, tables,
figures etc. is critical to understanding its content. Deep learning based
approaches for detecting the layout structure of document images have been
promising. However, these methods require a large number of annotated examples
during training, which are both expensive and time consuming to obtain. We
describe here a synthetic document generator that automatically produces
realistic documents with labels for spatial positions, extents and categories
of the layout elements. The proposed generative process treats every physical
component of a document as a random variable and models their intrinsic
dependencies using a Bayesian Network graph. Our hierarchical formulation using
stochastic templates allow parameter sharing between documents for retaining
broad themes and yet the distributional characteristics produces visually
unique samples, thereby capturing complex and diverse layouts. We empirically
illustrate that a deep layout detection model trained purely on the synthetic
documents can match the performance of a model that uses real documents.
- Abstract(参考訳): ヘッダー、セクション、テーブル、図などを特定するためにドキュメントのレイアウトを分析することは、その内容を理解する上で重要である。
文書画像のレイアウト構造を検出するための深層学習手法は有望である。
しかし、これらの方法は訓練中に多くの注釈付き例を必要とし、それらは費用も時間もかかる。
本稿では,レイアウト要素の空間的位置,範囲,カテゴリをラベル付きで自動生成する合成文書生成装置について述べる。
提案した生成過程は、文書のすべての物理成分をランダム変数として扱い、ベイズネットワークグラフを用いて固有の依存関係をモデル化する。
確率的テンプレートを用いた階層的定式化により,広範なテーマを保持するためのドキュメント間のパラメータ共有が可能となるが,分散特性は視覚的にユニークなサンプルを生成し,複雑で多様なレイアウトをキャプチャする。
人工文書上で純粋に訓練された深層レイアウト検出モデルは,実文書を用いたモデルの性能に適合することを示す。
関連論文リスト
- Leveraging Collection-Wide Similarities for Unsupervised Document
Structure Extraction [69.68042613919447]
本稿では,コレクション内の文書の典型的構造を特定することを提案する。
任意のヘッダのパラフレーズを抽象化し、各トピックを各ドキュメントのロケーションにグルーピングします。
文書間の類似性を利用した教師なしグラフベース手法を開発した。
論文 参考訳(メタデータ) (2024-02-21T16:22:21Z) - SelfDocSeg: A Self-Supervised vision-based Approach towards Document
Segmentation [15.953725529361874]
文書レイアウト分析は文書研究コミュニティにとって既知の問題である。
個人生活へのインターネット接続が拡大するにつれ、パブリックドメインでは膨大な量のドキュメントが利用できるようになった。
我々は,この課題に自己監督型文書セグメンテーションアプローチと異なり,自己監督型文書セグメンテーションアプローチを用いて対処する。
論文 参考訳(メタデータ) (2023-05-01T12:47:55Z) - XDoc: Unified Pre-training for Cross-Format Document Understanding [84.63416346227176]
XDocは、単一のモデルで異なるドキュメントフォーマットを扱う、統合された事前訓練されたモデルである。
XDocは、トレーニング済みの個々のモデルと比較して、さまざまなダウンストリームタスクで同等またはそれ以上のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-10-06T12:07:18Z) - Doc-GCN: Heterogeneous Graph Convolutional Networks for Document Layout
Analysis [4.920817773181236]
我々のDoc-GCNは、文書レイアウト分析のための異種側面の調和と統合に有効な方法を提供する。
まず、構文、意味、密度、外見/視覚情報を含む4つの主要な側面を明示的に記述するグラフを構築した。
情報の各側面を表現するためにグラフ畳み込みネットワークを適用し、それらを統合するためにプールを使用する。
論文 参考訳(メタデータ) (2022-08-22T07:22:05Z) - Learning Diverse Document Representations with Deep Query Interactions
for Dense Retrieval [79.37614949970013]
そこで本研究では,問合せの深い文書表現を学習する高密度検索モデルを提案する。
本モデルでは,各文書に生成した擬似クエリをエンコードして,クエリインフォームド・マルチビュー文書表現を得る。
論文 参考訳(メタデータ) (2022-08-08T16:00:55Z) - Unified Pretraining Framework for Document Understanding [52.224359498792836]
文書理解のための統合事前学習フレームワークであるUDocを紹介する。
UDocは、ほとんどのドキュメント理解タスクをサポートするように設計されており、Transformerを拡張してマルチモーダル埋め込みを入力とする。
UDocの重要な特徴は、3つの自己管理的損失を利用して汎用的な表現を学ぶことである。
論文 参考訳(メタデータ) (2022-04-22T21:47:04Z) - DocSegTr: An Instance-Level End-to-End Document Image Segmentation
Transformer [16.03084865625318]
ビジネスインテリジェンスプロセスは、しばしばドキュメントから有用なセマンティックコンテンツを抽出する必要がある。
本稿では,文書画像における複雑なレイアウトのエンドツーエンドセグメンテーションのためのトランスフォーマーモデルを提案する。
我々のモデルは、既存の最先端手法に比べて、同等またはより良いセグメンテーション性能を達成した。
論文 参考訳(メタデータ) (2022-01-27T10:50:22Z) - Writing Style Aware Document-level Event Extraction [11.146719375024674]
イベント抽出技術は、ドキュメントから構造情報を自動取得することを目的としている。
既存の研究の多くは、トークンを異なる役割として区別し、文書の書式を無視してこの問題について議論している。
我々は、トークンの役割を判断するための重要な手がかりを含む書体スタイルと、そのようなパターンの無知がパフォーマンスの低下につながるかもしれないと論じる。
論文 参考訳(メタデータ) (2022-01-10T06:54:06Z) - DocSynth: A Layout Guided Approach for Controllable Document Image
Synthesis [16.284895792639137]
本稿では,Doc Synthと呼ばれる新しい手法を用いて,所定のレイアウトに基づいて文書画像を自動的に合成する手法を提案する。
本研究では,ユーザによる参照として空間的レイアウト(オブジェクトカテゴリ付きバウンディングボックス)を考慮し,提案するDoc Synthモデルを用いて,現実的な文書画像の集合を生成する。
その結果,本モデルでは,複数のオブジェクトを用いて,現実的かつ多様な文書画像を生成することが可能であることが示唆された。
論文 参考訳(メタデータ) (2021-07-06T14:24:30Z) - DOC2PPT: Automatic Presentation Slides Generation from Scientific
Documents [76.19748112897177]
文書・スライド生成のための新しい課題とアプローチを提案する。
エンドツーエンドでタスクに取り組むための階層的なシーケンス・ツー・シーケンスアプローチを提案する。
提案手法では,文書やスライド内の固有構造を利用して,パラフレーズとレイアウト予測モジュールを組み込んでスライドを生成する。
論文 参考訳(メタデータ) (2021-01-28T03:21:17Z) - Multilevel Text Alignment with Cross-Document Attention [59.76351805607481]
既存のアライメントメソッドは、1つの事前定義されたレベルで動作します。
本稿では,文書を文書間注目要素で表現するための階層的アテンションエンコーダを予め確立した新しい学習手法を提案する。
論文 参考訳(メタデータ) (2020-10-03T02:52:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。