論文の概要: Multimodal Tree Decoder for Table of Contents Extraction in Document
Images
- arxiv url: http://arxiv.org/abs/2212.02896v1
- Date: Tue, 6 Dec 2022 11:38:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-07 15:47:55.319263
- Title: Multimodal Tree Decoder for Table of Contents Extraction in Document
Images
- Title(参考訳): 文書画像中の内容のテーブル抽出のためのマルチモーダルツリーデコーダ
- Authors: Pengfei Hu, Zhenrong Zhang, Jianshu Zhang, Jun Du, Jiajia Wu
- Abstract要約: テーブル・オブ・コンテント(ToC)抽出は、文書の様々なレベルの見出しを抽出し、内容のアウトラインをよりよく理解することを目的としている。
まず,学術論文の650件の資料とコンテンツラベルによるイメージサンプルを含む,標準データセットであるHierDocを紹介した。
本稿では,ToCのマルチモーダルツリーデコーダ(MTD)をHierDocのベンチマークとして用いた新しいエンドツーエンドモデルを提案する。
- 参考スコア(独自算出の注目度): 32.46909366312659
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Table of contents (ToC) extraction aims to extract headings of different
levels in documents to better understand the outline of the contents, which can
be widely used for document understanding and information retrieval. Existing
works often use hand-crafted features and predefined rule-based functions to
detect headings and resolve the hierarchical relationship between headings.
Both the benchmark and research based on deep learning are still limited.
Accordingly, in this paper, we first introduce a standard dataset, HierDoc,
including image samples from 650 documents of scientific papers with their
content labels. Then we propose a novel end-to-end model by using the
multimodal tree decoder (MTD) for ToC as a benchmark for HierDoc. The MTD model
is mainly composed of three parts, namely encoder, classifier, and decoder. The
encoder fuses the multimodality features of vision, text, and layout
information for each entity of the document. Then the classifier recognizes and
selects the heading entities. Next, to parse the hierarchical relationship
between the heading entities, a tree-structured decoder is designed. To
evaluate the performance, both the metric of tree-edit-distance similarity
(TEDS) and F1-Measure are adopted. Finally, our MTD approach achieves an
average TEDS of 87.2% and an average F1-Measure of 88.1% on the test set of
HierDoc. The code and dataset will be released at:
https://github.com/Pengfei-Hu/MTD.
- Abstract(参考訳): コンテンツ表(toc)抽出は、文書の理解や情報検索に広く使用できる内容の概要をよりよく理解するために、文書の異なるレベルの見出しを抽出することを目的としている。
既存の作品では、しばしば手作りの特徴とあらかじめ定義された規則に基づく関数を使用して、方向を検出し、方向の間の階層的関係を解決する。
ディープラーニングに基づくベンチマークと研究は、いずれもまだ限られている。
そこで本稿では,まず,学術論文の650件の資料とコンテンツラベルのイメージサンプルを含む,標準データセットであるHierDocを紹介する。
そして,ToC のマルチモーダルツリーデコーダ (MTD) を HierDoc のベンチマークとして用いた新しいエンドツーエンドモデルを提案する。
MTDモデルは、主にエンコーダ、分類器、デコーダの3つの部分で構成されている。
エンコーダは、文書の各エンティティに対する視覚、テキスト、レイアウト情報の多モードな特徴を融合する。
そして、分類器は、先頭エンティティを認識して選択する。
次に、配向エンティティ間の階層的関係を解析するために、木構造デコーダを設計する。
評価には, 樹枝距離類似度(TEDS)とF1-Measureの両方を用いる。
最後に、我々のMTDアプローチでは、平均TEDSは87.2%、平均F1-Measureは88.1%である。
コードとデータセットは、https://github.com/Pengfei-Hu/MTD.comでリリースされる。
関連論文リスト
- Contextual Document Embeddings [77.22328616983417]
本稿では,コンテキスト化された文書埋め込みのための2つの補完手法を提案する。
第一に、文書近傍を明示的にバッチ内コンテキスト損失に組み込む別のコントラスト学習目標である。
第二に、隣接する文書情報をエンコードされた表現に明示的にエンコードする新しいコンテキストアーキテクチャ。
論文 参考訳(メタデータ) (2024-10-03T14:33:34Z) - Unifying Multimodal Retrieval via Document Screenshot Embedding [92.03571344075607]
Document Screenshot Embedding (DSE)は、文書のスクリーンショットを統一的な入力フォーマットとして扱う新しい検索パラダイムである。
まず、Wiki-SSというウィキペディアのウェブページのスクリーンショットをコーパスとして作成し、Natural Questionsデータセットからの質問に答える。
このようなテキスト集約的な文書検索設定では、DSEは構文解析に依存する他のテキスト検索方法と比較して、競合効果を示す。
論文 参考訳(メタデータ) (2024-06-17T06:27:35Z) - A Scalable Framework for Table of Contents Extraction from Complex ESG
Annual Reports [19.669390380593843]
2001年から2022年までの563社から1093社のESG年次レポートをまとめた新しいデータセットESGDocを提案する。
これらの報告は、その多様な構造と幅広い長さのために重大な課題を提起している。
3つのステップからなる新しいToc抽出フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-27T11:40:32Z) - Enhancing Document Information Analysis with Multi-Task Pre-training: A
Robust Approach for Information Extraction in Visually-Rich Documents [8.49076413640561]
モデルは事前訓練され、その後、様々な文書画像解析タスクのために微調整される。
提案されたモデルは、文書分類のためのRVL-CDIPデータセットで95.87%の精度で、すべてのタスクで印象的な結果を得た。
論文 参考訳(メタデータ) (2023-10-25T10:22:30Z) - PDFTriage: Question Answering over Long, Structured Documents [60.96667912964659]
構造化文書をプレーンテキストとして表現することは、これらの文書をリッチな構造でユーザ精神モデルと矛盾する。
本稿では,構造や内容に基づいて,モデルがコンテキストを検索できるPDFTriageを提案する。
ベンチマークデータセットは,80以上の構造化文書に900以上の人間が生成した質問からなる。
論文 参考訳(メタデータ) (2023-09-16T04:29:05Z) - HRDoc: Dataset and Baseline Method Toward Hierarchical Reconstruction of
Document Structures [31.868926876151342]
本稿では,NLPおよびCVフィールドに適した新しいタスクとして,文書構造の階層的再構築を提案する。
私たちは、2500のマルチページドキュメントと200万近いセマンティックユニットからなるHRDocという大規模なデータセットを構築しました。
本稿では,この問題を解決するために,エンコーダデコーダに基づく階層型文書構造解析システム(DSPS)を提案する。
論文 参考訳(メタデータ) (2023-03-24T07:23:56Z) - Lbl2Vec: An Embedding-Based Approach for Unsupervised Document Retrieval
on Predefined Topics [0.6767885381740952]
本稿では,ラベルのない文書データセットから,文書と単語ベクトルを共同で学習する手法を提案する。
提案手法はテキスト前処理をほとんど必要としないが,高い確率で関連文書の検索に有効である。
当社のアプローチの複製を容易にするため,開発済みのLbl2Vecコードを3Clause BSDライセンスの下で利用可能なツールとして公開しています。
論文 参考訳(メタデータ) (2022-10-12T08:57:01Z) - TRIE++: Towards End-to-End Information Extraction from Visually Rich
Documents [51.744527199305445]
本稿では,視覚的にリッチな文書からエンド・ツー・エンドの情報抽出フレームワークを提案する。
テキスト読み出しと情報抽出は、よく設計されたマルチモーダルコンテキストブロックを介して互いに強化することができる。
フレームワークはエンドツーエンドのトレーニング可能な方法でトレーニングでき、グローバルな最適化が達成できる。
論文 参考訳(メタデータ) (2022-07-14T08:52:07Z) - Minimally-Supervised Structure-Rich Text Categorization via Learning on
Text-Rich Networks [61.23408995934415]
テキストリッチネットワークから学習することで,最小限に教師付き分類を行う新しいフレームワークを提案する。
具体的には、テキスト理解のためのテキスト解析モジュールと、クラス差別的でスケーラブルなネットワーク学習のためのネットワーク学習モジュールの2つのモジュールを共同でトレーニングします。
実験の結果,1つのカテゴリに3つのシード文書しか与えられず,その精度は約92%であった。
論文 参考訳(メタデータ) (2021-02-23T04:14:34Z) - DocBank: A Benchmark Dataset for Document Layout Analysis [114.81155155508083]
文書レイアウト解析のための詳細なトークンレベルのアノテーションを備えた500Kドキュメントページを含むベンチマークデータセットである textbfDocBank を提示する。
実験の結果,DocBankでトレーニングされたモデルは,さまざまなドキュメントのレイアウト情報を正確に認識することがわかった。
論文 参考訳(メタデータ) (2020-06-01T16:04:30Z) - Pairwise Multi-Class Document Classification for Semantic Relations
between Wikipedia Articles [5.40541521227338]
2つの文書間の関係をペアワイズ文書分類タスクとして検索する問題をモデル化する。
文書間の意味的関係を見つけるために,GloVe, paragraph-s,BERT,XLNetなどの一連の手法を適用する。
我々は,新たに提案された32,168のウィキペディア記事ペアと,セマンティックドキュメントの関係を定義するウィキデータプロパティに関する実験を行った。
論文 参考訳(メタデータ) (2020-03-22T12:52:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。