論文の概要: M$^{6}$Doc: A Large-Scale Multi-Format, Multi-Type, Multi-Layout,
Multi-Language, Multi-Annotation Category Dataset for Modern Document Layout
Analysis
- arxiv url: http://arxiv.org/abs/2305.08719v1
- Date: Mon, 15 May 2023 15:29:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-16 13:55:39.610547
- Title: M$^{6}$Doc: A Large-Scale Multi-Format, Multi-Type, Multi-Layout,
Multi-Language, Multi-Annotation Category Dataset for Modern Document Layout
Analysis
- Title(参考訳): m$^{6}$doc:現代の文書レイアウト分析のための大規模マルチフォーマット、マルチタイプ、マルチレイアウト、マルチ言語、マルチアノテーションカテゴリデータセット
- Authors: Hiuyi Cheng, Peirong Zhang, Sihang Wu, Jiaxin Zhang, Qiyuan Zhu,
Zecheng Xie, Jing Li, Kai Ding, and Lianwen Jin
- Abstract要約: 本稿では,M6Doc$という大規模かつ多様な文書レイアウト解析データセットを紹介する。
本稿ではTransDLANetと呼ばれるトランスフォーマーを用いた文書レイアウト解析手法を提案する。
TransDLANetは64.5%のmAPでM6Doc$で最先端のパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 23.924144353511984
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Document layout analysis is a crucial prerequisite for document
understanding, including document retrieval and conversion. Most public
datasets currently contain only PDF documents and lack realistic documents.
Models trained on these datasets may not generalize well to real-world
scenarios. Therefore, this paper introduces a large and diverse document layout
analysis dataset called $M^{6}Doc$. The $M^6$ designation represents six
properties: (1) Multi-Format (including scanned, photographed, and PDF
documents); (2) Multi-Type (such as scientific articles, textbooks, books, test
papers, magazines, newspapers, and notes); (3) Multi-Layout (rectangular,
Manhattan, non-Manhattan, and multi-column Manhattan); (4) Multi-Language
(Chinese and English); (5) Multi-Annotation Category (74 types of annotation
labels with 237,116 annotation instances in 9,080 manually annotated pages);
and (6) Modern documents. Additionally, we propose a transformer-based document
layout analysis method called TransDLANet, which leverages an adaptive element
matching mechanism that enables query embedding to better match ground truth to
improve recall, and constructs a segmentation branch for more precise document
image instance segmentation. We conduct a comprehensive evaluation of
$M^{6}Doc$ with various layout analysis methods and demonstrate its
effectiveness. TransDLANet achieves state-of-the-art performance on $M^{6}Doc$
with 64.5\% mAP. The $M^{6}Doc$ dataset will be available at
https://github.com/HCIILAB/M6Doc.
- Abstract(参考訳): 文書レイアウト解析は文書検索や変換を含む文書理解の重要な前提条件である。
ほとんどの公開データセットはpdfドキュメントしか含んでおらず、現実的なドキュメントが欠落している。
これらのデータセットでトレーニングされたモデルは、現実世界のシナリオにうまく一般化できない可能性がある。
そこで本稿では,大規模かつ多様な文書レイアウト解析データセット $m^{6}doc$ を導入する。
The $M^6$ designation represents six properties: (1) Multi-Format (including scanned, photographed, and PDF documents); (2) Multi-Type (such as scientific articles, textbooks, books, test papers, magazines, newspapers, and notes); (3) Multi-Layout (rectangular, Manhattan, non-Manhattan, and multi-column Manhattan); (4) Multi-Language (Chinese and English); (5) Multi-Annotation Category (74 types of annotation labels with 237,116 annotation instances in 9,080 manually annotated pages); and (6) Modern documents.
また,TransDLANetと呼ばれる変換器を用いた文書レイアウト解析手法を提案する。この手法では,クエリの埋め込みにより,より正確な文書画像のインスタンス分割のためのセグメンテーション・ブランチを構築することができる。
我々は,様々なレイアウト解析手法を用いて$m^{6}doc$の包括的評価を行い,その効果を示す。
TransDLANetは64.5\% mAPで$M^{6}Doc$の最先端のパフォーマンスを達成する。
M^{6}Doc$データセットはhttps://github.com/HCIILAB/M6Docで入手できる。
関連論文リスト
- M3DocRAG: Multi-modal Retrieval is What You Need for Multi-page Multi-document Understanding [63.33447665725129]
M3DocRAGは、様々な文書コンテキストに柔軟に対応する新しいマルチモーダルRAGフレームワークである。
M3DocRAGは視覚情報を保存しながら、単一の文書や多数の文書を効率的に処理できる。
M3DocVQAはオープンドメインDocVQAを3,000以上のPDFドキュメントと4万以上のページで評価するための新しいベンチマークである。
論文 参考訳(メタデータ) (2024-11-07T18:29:38Z) - Unified Multi-Modal Interleaved Document Representation for Information Retrieval [57.65409208879344]
我々は、異なるモダリティでインターリーブされた文書を均等に埋め込み、より包括的でニュアンスのある文書表現を生成する。
具体的には、テキスト、画像、テーブルの処理と統合を統一されたフォーマットと表現に統合する、近年のビジョン言語モデルの能力を活用して、これを実現する。
論文 参考訳(メタデータ) (2024-10-03T17:49:09Z) - FATURA: A Multi-Layout Invoice Image Dataset for Document Analysis and
Understanding [8.855033708082832]
本稿では,文書分析と理解の分野における研究者のための重要な資料であるFATURAを紹介する。
FATURAは、マルチアノテーションによる請求書の文書イメージを特徴とする、非常に多様なデータセットである。
各種文書分析・理解タスクの総合的なベンチマークを行い,多様な訓練・評価シナリオ下で実験を行う。
論文 参考訳(メタデータ) (2023-11-20T15:51:14Z) - A Multi-Modal Multilingual Benchmark for Document Image Classification [21.7518357653137]
新たに作成した2つの多言語データセットWIKI-DOCと MultiEUR-DOCLEXを紹介する。
我々は、文書画像分類における未検証設定において、視覚的に豊富な文書理解や文書AIモデルについて研究する。
実験結果から,多言語間移動における多言語文書AIモデルの限界が示された。
論文 参考訳(メタデータ) (2023-10-25T04:35:06Z) - PDFTriage: Question Answering over Long, Structured Documents [60.96667912964659]
構造化文書をプレーンテキストとして表現することは、これらの文書をリッチな構造でユーザ精神モデルと矛盾する。
本稿では,構造や内容に基づいて,モデルがコンテキストを検索できるPDFTriageを提案する。
ベンチマークデータセットは,80以上の構造化文書に900以上の人間が生成した質問からなる。
論文 参考訳(メタデータ) (2023-09-16T04:29:05Z) - Vision Grid Transformer for Document Layout Analysis [26.62857594455592]
本稿では、2Dトークンレベルおよびセグメントレベルのセマンティック理解のために、Grid Transformer (GiT) が提案され、事前訓練された2ストリームビジョングリッドトランスフォーマであるVGTを提案する。
実験結果から,提案したVGTモデルにより,文書レイアウト解析タスクにおける新たな最先端結果が得られることが示された。
論文 参考訳(メタデータ) (2023-08-29T02:09:56Z) - Learning Diverse Document Representations with Deep Query Interactions
for Dense Retrieval [79.37614949970013]
そこで本研究では,問合せの深い文書表現を学習する高密度検索モデルを提案する。
本モデルでは,各文書に生成した擬似クエリをエンコードして,クエリインフォームド・マルチビュー文書表現を得る。
論文 参考訳(メタデータ) (2022-08-08T16:00:55Z) - DocLayNet: A Large Human-Annotated Dataset for Document-Layout Analysis [2.9923891863939938]
文書レイアウト解析は高品質なPDF文書変換の鍵となる要件である。
ディープラーニングモデルは、レイアウトの検出とセグメンテーションに非常に効果的であることが証明されている。
textitDocLayNetは、新たに公開され、ドキュメント-アノテーションデータセットである。
論文 参考訳(メタデータ) (2022-06-02T14:25:12Z) - Multi-View Document Representation Learning for Open-Domain Dense
Retrieval [87.11836738011007]
本稿では,多視点文書表現学習フレームワークを提案する。
ドキュメントを表現し、異なるクエリに合わせるように強制するために、マルチビューの埋め込みを作成することを目的としている。
実験により,本手法は最近の成果より優れ,最先端の結果が得られた。
論文 参考訳(メタデータ) (2022-03-16T03:36:38Z) - DocBank: A Benchmark Dataset for Document Layout Analysis [114.81155155508083]
文書レイアウト解析のための詳細なトークンレベルのアノテーションを備えた500Kドキュメントページを含むベンチマークデータセットである textbfDocBank を提示する。
実験の結果,DocBankでトレーニングされたモデルは,さまざまなドキュメントのレイアウト情報を正確に認識することがわかった。
論文 参考訳(メタデータ) (2020-06-01T16:04:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。