論文の概要: Capturing Logical Structure of Visually Structured Documents with
Multimodal Transition Parser
- arxiv url: http://arxiv.org/abs/2105.00150v1
- Date: Sat, 1 May 2021 02:33:50 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-05 12:37:46.196256
- Title: Capturing Logical Structure of Visually Structured Documents with
Multimodal Transition Parser
- Title(参考訳): マルチモーダルトランジションパーザを用いた視覚構造文書の論理構造把握
- Authors: Yuta Koreeda, Christopher D. Manning
- Abstract要約: フラグメントを木にマップするテキストフラグメント間の遷移ラベルの予測として,タスクの定式化を提案する。
視覚,テキスト,意味を融合した特徴ベース機械学習システムを開発した。
本システムでは,F1スコア0.739のPDF-to-textツールよりも有意に優れた段落境界検出F1スコア0.951を得た。
- 参考スコア(独自算出の注目度): 39.75232199445175
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While many NLP papers, tasks and pipelines assume raw, clean texts, many
texts we encounter in the wild are not so clean, with many of them being
visually structured documents (VSDs) such as PDFs. Conventional preprocessing
tools for VSDs mainly focused on word segmentation and coarse layout analysis,
while fine-grained logical structure analysis (such as identifying paragraph
boundaries and their hierarchies) of VSDs is underexplored. To that end, we
proposed to formulate the task as prediction of transition labels between text
fragments that maps the fragments to a tree, and developed a feature-based
machine learning system that fuses visual, textual and semantic cues. Our
system significantly outperformed baselines in identifying different structures
in VSDs. For example, our system obtained a paragraph boundary detection F1
score of 0.951 which is significantly better than a popular PDF-to-text tool
with a F1 score of 0.739.
- Abstract(参考訳): 多くのnlp文書、タスク、パイプラインは生のクリーンテキストを想定しているが、私たちが野生で遭遇する多くのテキストはそれほどクリーンではなく、その多くはpdfのような視覚的構造化ドキュメント(vsd)である。
VSDの従来の前処理ツールは主に単語分割と粗いレイアウト解析に重点を置いているが、VSDの詳細な論理構造解析(段落境界や階層の識別など)は過小評価されている。
そこで我々は,断片を木にマッピングするテキストフラグメント間の遷移ラベルの予測としてタスクを定式化し,視覚的,テキスト的,セマンティックなキューを融合する特徴ベース機械学習システムを開発した。
我々のシステムはVSDの異なる構造を識別する上で、ベースラインを著しく上回った。
例えば,F1スコアが0.739のPDF-to-textツールよりも有意に優れた段落境界検出F1スコアの0.951を得た。
関連論文リスト
- From Text Segmentation to Smart Chaptering: A Novel Benchmark for
Structuring Video Transcriptions [63.11097464396147]
音声コンテンツに焦点をあてた新しいベンチマークYTSegを導入し、その内容は本質的に非構造的であり、トポロジと構造的にも多様である。
また,高効率な階層分割モデルMiniSegを導入する。
論文 参考訳(メタデータ) (2024-02-27T15:59:37Z) - Hierarchical Text Spotter for Joint Text Spotting and Layout Analysis [52.01356859448068]
HTSは画像中のテキストを認識し、文字、単語、行、段落の4段階の階層構造を識別することができる。
HTSは、複数の単語レベルのテキストスポッティングベンチマークデータセットと幾何学的レイアウト解析タスクの最先端結果を達成する。
論文 参考訳(メタデータ) (2023-10-25T22:23:54Z) - DSG: An End-to-End Document Structure Generator [32.040520771901996]
Document Structure Generator (DSG) は、完全にエンドツーエンドのトレーニングが可能な文書解析のための新しいシステムである。
我々のDSGは商用のOCRツールよりも優れており、その上最先端のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2023-10-13T14:03:01Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [72.79006668848186]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - PARAGRAPH2GRAPH: A GNN-based framework for layout paragraph analysis [6.155943751502232]
本稿では,言語に依存しないグラフニューラルネットワーク(GNN)モデルを提案する。
我々のモデルは産業アプリケーション、特に多言語シナリオに適しています。
論文 参考訳(メタデータ) (2023-04-24T03:54:48Z) - TRIE++: Towards End-to-End Information Extraction from Visually Rich
Documents [51.744527199305445]
本稿では,視覚的にリッチな文書からエンド・ツー・エンドの情報抽出フレームワークを提案する。
テキスト読み出しと情報抽出は、よく設計されたマルチモーダルコンテキストブロックを介して互いに強化することができる。
フレームワークはエンドツーエンドのトレーニング可能な方法でトレーニングでき、グローバルな最適化が達成できる。
論文 参考訳(メタデータ) (2022-07-14T08:52:07Z) - Integrating Visuospatial, Linguistic and Commonsense Structure into
Story Visualization [81.26077816854449]
まず、構造的入力を符号化するための選挙区解析木の利用について検討する。
第二に、構造化されたインプットをコモンセンス情報で強化し、この外部知識が視覚的ストーリーの生成に与える影響について検討する。
第3に、境界ボックスと高密度キャプションによって視覚構造を組み込んで、生成された画像の文字やオブジェクトに関するフィードバックを提供する。
論文 参考訳(メタデータ) (2021-10-21T00:16:02Z) - VTLayout: Fusion of Visual and Text Features for Document Layout
Analysis [5.836306027133707]
文書レイアウト分析(DLA)は、歴史文書や科学文書の豊富な情報を大規模に収集する可能性がある。
本稿では,文書の深い視覚的,浅い視覚的,テキスト的特徴を融合させ,カテゴリブロックを識別するVTモデルを提案する。
VTの識別能力はPubLayNetデータセットに基づく最も高度なDLA法よりも優れており、F1スコアは0.9599である。
論文 参考訳(メタデータ) (2021-08-12T17:12:11Z) - StrucTexT: Structured Text Understanding with Multi-Modal Transformers [29.540122964399046]
Visually Rich Documents (VRD)における構造化テキスト理解は、ドキュメントインテリジェンスの重要な部分である。
本稿では,SrucTexTという統合フレームワークを提案する。
セグメントレベルおよびトークンレベルで構造化されたテキスト理解の手法を評価し,その手法が最先端のテキスト理解よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-08-06T02:57:07Z) - Topical Change Detection in Documents via Embeddings of Long Sequences [4.13878392637062]
テキストセグメンテーションのタスクを独立した教師付き予測タスクとして定式化する。
類似セクションの段落を微調整することで、学習した特徴がトピック情報をエンコードすることを示すことができます。
文レベルで操作する従来のアプローチとは異なり、我々は常により広いコンテキストを使用します。
論文 参考訳(メタデータ) (2020-12-07T12:09:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。