論文の概要: WordScape: a Pipeline to extract multilingual, visually rich Documents
with Layout Annotations from Web Crawl Data
- arxiv url: http://arxiv.org/abs/2312.10188v1
- Date: Fri, 15 Dec 2023 20:28:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-19 18:15:30.488432
- Title: WordScape: a Pipeline to extract multilingual, visually rich Documents
with Layout Annotations from Web Crawl Data
- Title(参考訳): WordScape: Web Crawl Dataからレイアウトアノテーションで多言語で視覚的にリッチなドキュメントを抽出するパイプライン
- Authors: Maurice Weber, Carlo Siebenschuh, Rory Butler, Anton Alexandrov,
Valdemar Thanner, Georgios Tsolakis, Haris Jabbar, Ian Foster, Bo Li, Rick
Stevens, Ce Zhang
- Abstract要約: 本稿では,学際的,多言語的コーパス作成のための新しいパイプラインであるWordScapeを紹介する。
WordScapeはWebから取得したWordドキュメントのオープンXML構造を解析する。
文化的にも言語的にも多様なドキュメントページを提供し、自然な意味構造と高品質なテキストを提供する。
- 参考スコア(独自算出の注目度): 13.297444760076406
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We introduce WordScape, a novel pipeline for the creation of
cross-disciplinary, multilingual corpora comprising millions of pages with
annotations for document layout detection. Relating visual and textual items on
document pages has gained further significance with the advent of multimodal
models. Various approaches proved effective for visual question answering or
layout segmentation. However, the interplay of text, tables, and visuals
remains challenging for a variety of document understanding tasks. In
particular, many models fail to generalize well to diverse domains and new
languages due to insufficient availability of training data. WordScape
addresses these limitations. Our automatic annotation pipeline parses the Open
XML structure of Word documents obtained from the web, jointly providing
layout-annotated document images and their textual representations. In turn,
WordScape offers unique properties as it (1) leverages the ubiquity of the Word
file format on the internet, (2) is readily accessible through the Common Crawl
web corpus, (3) is adaptive to domain-specific documents, and (4) offers
culturally and linguistically diverse document pages with natural semantic
structure and high-quality text. Together with the pipeline, we will
additionally release 9.5M urls to word documents which can be processed using
WordScape to create a dataset of over 40M pages. Finally, we investigate the
quality of text and layout annotations extracted by WordScape, assess the
impact on document understanding benchmarks, and demonstrate that manual
labeling costs can be substantially reduced.
- Abstract(参考訳): 本稿では,文書レイアウト検出のためのアノテーションを備えた数百万ページからなる多言語コーパスを作成するための新しいパイプラインであるWordScapeを紹介する。
文書ページ上での視覚的およびテキスト的項目の関連は、マルチモーダルモデルの出現によってさらに重要になっている。
様々なアプローチが視覚的質問応答やレイアウトセグメンテーションに有効であった。
しかし、テキスト、テーブル、ビジュアルの相互作用は、様々な文書理解タスクにおいて依然として困難である。
特に、トレーニングデータが不十分なため、多くのモデルは多様なドメインや新しい言語をうまく一般化できない。
WordScapeはこれらの制限に対処する。
自動アノテーションパイプラインは、Webから得られたWord文書のオープンXML構造を解析し、レイアウトアノテートされた文書画像とそのテキスト表現を共同で提供する。
次に、wordscapeは、(1)インターネット上のワードファイルフォーマットの普遍性を活用し、(2)は共通のクロールウェブコーパスを通じて容易にアクセスでき、(3)ドメイン固有の文書に適応し、(4)文化的、言語的に多様な文書ページを提供し、自然な意味構造と高品質なテキストを提供する。
パイプラインと共に9.5MのURLをワードドキュメントにリリースし、WordScapeを使って処理して4000万ページを超えるデータセットを作成する。
最後に、WordScapeが抽出したテキストやレイアウトアノテーションの品質を調査し、文書理解ベンチマークへの影響を評価し、手作業によるラベリングコストを大幅に削減できることを示す。
関連論文リスト
- Unified Multi-Modal Interleaved Document Representation for Information Retrieval [57.65409208879344]
我々は、異なるモダリティでインターリーブされた文書を均等に埋め込み、より包括的でニュアンスのある文書表現を生成する。
具体的には、テキスト、画像、テーブルの処理と統合を統一されたフォーマットと表現に統合する、近年のビジョン言語モデルの能力を活用して、これを実現する。
論文 参考訳(メタデータ) (2024-10-03T17:49:09Z) - OmniParser: A Unified Framework for Text Spotting, Key Information Extraction and Table Recognition [79.852642726105]
多様なシナリオにまたがって視覚的なテキストを解析するための統一パラダイムを提案する。
具体的には,3つの視覚的なテキスト解析タスクを同時に処理できるOmniというユニバーサルモデルを提案する。
オムニでは、全てのタスクが統一エンコーダ・デコーダアーキテクチャ、統一目的点条件テキスト生成、統一入力表現を共有している。
論文 参考訳(メタデータ) (2024-03-28T03:51:14Z) - Visually Guided Generative Text-Layout Pre-training for Document Intelligence [51.09853181377696]
視覚誘導型生成テキスト事前学習(ViTLP)を提案する。
文書画像が与えられた場合、モデルは階層言語とレイアウトモデリングの目的を最適化し、インターリーブされたテキストとレイアウトシーケンスを生成する。
ViTLPは、文書画像のテキストをローカライズし、認識するためのネイティブなOCRモデルとして機能する。
論文 参考訳(メタデータ) (2024-03-25T08:00:43Z) - DocLLM: A layout-aware generative language model for multimodal document
understanding [12.093889265216205]
本稿では,従来の大規模言語モデル(LLM)の軽量拡張であるDocLLMについて述べる。
本モデルは,空間配置構造を組み込むための境界ボックス情報にのみ焦点をあてる。
我々のソリューションは、すべてのタスクにまたがる16のデータセットのうち14のデータセットでSotA LLMよりも優れており、これまで見つからなかった5つのデータセットのうち4のデータセットで十分に一般化されていることを実証しています。
論文 参考訳(メタデータ) (2023-12-31T22:37:52Z) - A Multi-Modal Multilingual Benchmark for Document Image Classification [21.7518357653137]
新たに作成した2つの多言語データセットWIKI-DOCと MultiEUR-DOCLEXを紹介する。
我々は、文書画像分類における未検証設定において、視覚的に豊富な文書理解や文書AIモデルについて研究する。
実験結果から,多言語間移動における多言語文書AIモデルの限界が示された。
論文 参考訳(メタデータ) (2023-10-25T04:35:06Z) - PDFTriage: Question Answering over Long, Structured Documents [60.96667912964659]
構造化文書をプレーンテキストとして表現することは、これらの文書をリッチな構造でユーザ精神モデルと矛盾する。
本稿では,構造や内容に基づいて,モデルがコンテキストを検索できるPDFTriageを提案する。
ベンチマークデータセットは,80以上の構造化文書に900以上の人間が生成した質問からなる。
論文 参考訳(メタデータ) (2023-09-16T04:29:05Z) - PDFVQA: A New Dataset for Real-World VQA on PDF Documents [2.105395241374678]
文書ベースのビジュアル質問回答は、自然言語質問の条件下での文書イメージの文書理解を検証する。
我々のPDF-VQAデータセットは、単一のドキュメントページ上の制限を、複数のページの全ドキュメントに対して質問する新しいスケールに拡張する。
論文 参考訳(メタデータ) (2023-04-13T12:28:14Z) - TRIE++: Towards End-to-End Information Extraction from Visually Rich
Documents [51.744527199305445]
本稿では,視覚的にリッチな文書からエンド・ツー・エンドの情報抽出フレームワークを提案する。
テキスト読み出しと情報抽出は、よく設計されたマルチモーダルコンテキストブロックを介して互いに強化することができる。
フレームワークはエンドツーエンドのトレーニング可能な方法でトレーニングでき、グローバルな最適化が達成できる。
論文 参考訳(メタデータ) (2022-07-14T08:52:07Z) - Combining Deep Learning and Reasoning for Address Detection in
Unstructured Text Documents [0.0]
本研究では,非構造化文書からアドレスを検索・抽出する手法として,ディープラーニングと推論を組み合わせたハイブリッド手法を提案する。
スキャンした文書画像上のアドレス領域の境界を検出するために,視覚的深層学習モデルを用いる。
論文 参考訳(メタデータ) (2022-02-07T12:32:00Z) - Minimally-Supervised Structure-Rich Text Categorization via Learning on
Text-Rich Networks [61.23408995934415]
テキストリッチネットワークから学習することで,最小限に教師付き分類を行う新しいフレームワークを提案する。
具体的には、テキスト理解のためのテキスト解析モジュールと、クラス差別的でスケーラブルなネットワーク学習のためのネットワーク学習モジュールの2つのモジュールを共同でトレーニングします。
実験の結果,1つのカテゴリに3つのシード文書しか与えられず,その精度は約92%であった。
論文 参考訳(メタデータ) (2021-02-23T04:14:34Z) - Kleister: A novel task for Information Extraction involving Long
Documents with Complex Layout [5.8530995077744645]
2つの新しいデータセットを備えた新しいタスク(Kleisterという名前)を導入します。
NLPシステムは、長い形式文書において、様々な種類のエンティティについて最も重要な情報を見つけなければならない。
異なる名前付きエンティティ認識アーキテクチャを持つテキストのみのベースラインとしてパイプライン法を提案する。
論文 参考訳(メタデータ) (2020-03-04T22:45:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。