論文の概要: LayoutReader: Pre-training of Text and Layout for Reading Order
Detection
- arxiv url: http://arxiv.org/abs/2108.11591v2
- Date: Fri, 27 Aug 2021 04:56:07 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-30 11:22:56.060179
- Title: LayoutReader: Pre-training of Text and Layout for Reading Order
Detection
- Title(参考訳): LayoutReader: 読み出し順序検出のためのテキストとレイアウトの事前トレーニング
- Authors: Zilong Wang, Yiheng Xu, Lei Cui, Jingbo Shang, Furu Wei
- Abstract要約: 読み出し順序検出は、視覚的に豊富な文書を理解するための基盤となる。
ReadingBankは50万のドキュメントイメージの読み込み順序、テキスト、レイアウト情報を含むベンチマークデータセットである。
この最初の大規模なデータセットは、読み取り順序検出のためのディープニューラルネットワークのパワーを解放する。
- 参考スコア(独自算出の注目度): 46.79387840664033
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Reading order detection is the cornerstone to understanding visually-rich
documents (e.g., receipts and forms). Unfortunately, no existing work took
advantage of advanced deep learning models because it is too laborious to
annotate a large enough dataset. We observe that the reading order of WORD
documents is embedded in their XML metadata; meanwhile, it is easy to convert
WORD documents to PDFs or images. Therefore, in an automated manner, we
construct ReadingBank, a benchmark dataset that contains reading order, text,
and layout information for 500,000 document images covering a wide spectrum of
document types. This first-ever large-scale dataset unleashes the power of deep
neural networks for reading order detection. Specifically, our proposed
LayoutReader captures the text and layout information for reading order
prediction using the seq2seq model. It performs almost perfectly in reading
order detection and significantly improves both open-source and commercial OCR
engines in ordering text lines in their results in our experiments. We will
release the dataset and model at \url{https://aka.ms/layoutreader}.
- Abstract(参考訳): 読み出し順序検出は、視覚的にリッチな文書(レシートやフォームなど)を理解するための基盤となる。
残念ながら、大規模なデータセットをアノテートするには労力がかかりすぎるため、高度なディープラーニングモデルを活用する既存の作業はありませんでした。
WORD文書の読み込み順序はXMLメタデータに埋め込まれているのに対し、WORD文書をPDFや画像に変換するのは容易である。
そこで我々は,様々な文書タイプをカバーする50万の文書画像に対して,読み出し順序,テキスト,レイアウト情報を含むベンチマークデータセットであるreadingbankを構築した。
この最初の大規模データセットは、読み出し順序検出のためのディープニューラルネットワークの力を解き放つ。
特に,提案するLayoutReaderは,セック2seqモデルを用いて,読み出し順序予測のためのテキストとレイアウト情報をキャプチャする。
読み出し順序検出においてほぼ完全に動作し,実験結果のテキスト行の順序付けにおいて,オープンソースのOCRエンジンと商用OCRエンジンの両方を大幅に改善する。
データセットとモデルは \url{https://aka.ms/layoutreader} でリリースします。
関連論文リスト
- UReader: Universal OCR-free Visually-situated Language Understanding
with Multimodal Large Language Model [108.85584502396182]
MLLM(Multimodal Large Language Model)に基づく汎用OCRのない視覚的言語理解の最初の探索であるUReaderを提案する。
MLLMの浅いテキスト認識能力を利用することで、パラメータを1.2%だけ微調整した。
言語理解タスク10のうち8つは、最先端のocrフリーな性能を実現している。
論文 参考訳(メタデータ) (2023-10-08T11:33:09Z) - mPLUG-DocOwl: Modularized Multimodal Large Language Model for Document
Understanding [55.4806974284156]
文書理解とは、ウェブページのようなデジタル文書から自動的に情報を抽出し、分析し、理解することである。
既存のMLLM(Multi-model Large Language Models)は、浅いOCRフリーテキスト認識において、望ましくないゼロショット機能を実証している。
論文 参考訳(メタデータ) (2023-07-04T11:28:07Z) - Text Reading Order in Uncontrolled Conditions by Sparse Graph
Segmentation [71.40119152422295]
テキストの読み出し順序を識別するための軽量でスケーラブルで一般化可能なアプローチを提案する。
モデルは言語に依存しず、多言語データセットで効果的に実行される。
モバイルデバイスを含むあらゆるプラットフォームにデプロイできるほど小さい。
論文 参考訳(メタデータ) (2023-05-04T06:21:00Z) - Towards End-to-End Unified Scene Text Detection and Layout Analysis [60.68100769639923]
本稿では,シーンテキストの検出とレイアウト解析を統合化するタスクについて紹介する。
この新たな研究課題を実現するために、最初の階層的なシーンテキストデータセットが導入された。
また,シーンテキストを同時に検出し,テキストクラスタを統一的に形成する手法を提案する。
論文 参考訳(メタデータ) (2022-03-28T23:35:45Z) - MarkupLM: Pre-training of Text and Markup Language for Visually-rich
Document Understanding [35.35388421383703]
テキスト、レイアウト、画像によるマルチモーダル事前学習は、ビジュアルリッチ文書理解(VrDU)において大きな進歩を遂げた。
本稿では,マークアップ言語をバックボーンとする文書理解タスクのためのMarkupLMを提案する。
実験の結果,事前学習したMarkupLMは,複数の文書理解タスクにおいて,既存の強力なベースラインモデルよりも大幅に優れていた。
論文 参考訳(メタデータ) (2021-10-16T09:17:28Z) - ROPE: Reading Order Equivariant Positional Encoding for Graph-based
Document Information Extraction [30.228414878857162]
Reading Order Equivariant Positional Graph (ROPE) は文書中の単語のシーケンシャルな表示を認証するために設計された新しい位置符号化技術である。
ROPEは、単語レベルの空間接続が与えられた対象単語に対して、隣接する単語に対して独自の読み順序コードを生成する。
ROPEは既存のGraph Convolutional Networksを最大8.4%のスコアで継続的に改善している。
論文 参考訳(メタデータ) (2021-06-21T00:48:04Z) - Page Layout Analysis System for Unconstrained Historic Documents [0.0]
我々は,線高とテキストブロック境界予測を追加することで,CNNベースのテキストベースライン検出システムの拡張を提案する。
提案手法は, cBAD ベースライン検出データセット上で有効であることを示す。
論文 参考訳(メタデータ) (2021-02-23T18:13:36Z) - DocBank: A Benchmark Dataset for Document Layout Analysis [114.81155155508083]
文書レイアウト解析のための詳細なトークンレベルのアノテーションを備えた500Kドキュメントページを含むベンチマークデータセットである textbfDocBank を提示する。
実験の結果,DocBankでトレーニングされたモデルは,さまざまなドキュメントのレイアウト情報を正確に認識することがわかった。
論文 参考訳(メタデータ) (2020-06-01T16:04:30Z) - A Large Dataset of Historical Japanese Documents with Complex Layouts [5.343406649012619]
HJDatasetは、複雑なレイアウトを持つ日本古文書の大規模なデータセットである。
レイアウト要素アノテーションには7つのタイプがある。
レイアウト要素を抽出する半ルール法を開発し、その結果を人間の検査員が確認する。
論文 参考訳(メタデータ) (2020-04-18T18:38:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。