論文の概要: Capturing Logical Structure of Visually Structured Documents with
Multimodal Transition Parser
- arxiv url: http://arxiv.org/abs/2105.00150v1
- Date: Sat, 1 May 2021 02:33:50 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-05 12:37:46.196256
- Title: Capturing Logical Structure of Visually Structured Documents with
Multimodal Transition Parser
- Title(参考訳): マルチモーダルトランジションパーザを用いた視覚構造文書の論理構造把握
- Authors: Yuta Koreeda, Christopher D. Manning
- Abstract要約: フラグメントを木にマップするテキストフラグメント間の遷移ラベルの予測として,タスクの定式化を提案する。
視覚,テキスト,意味を融合した特徴ベース機械学習システムを開発した。
本システムでは,F1スコア0.739のPDF-to-textツールよりも有意に優れた段落境界検出F1スコア0.951を得た。
- 参考スコア(独自算出の注目度): 39.75232199445175
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While many NLP papers, tasks and pipelines assume raw, clean texts, many
texts we encounter in the wild are not so clean, with many of them being
visually structured documents (VSDs) such as PDFs. Conventional preprocessing
tools for VSDs mainly focused on word segmentation and coarse layout analysis,
while fine-grained logical structure analysis (such as identifying paragraph
boundaries and their hierarchies) of VSDs is underexplored. To that end, we
proposed to formulate the task as prediction of transition labels between text
fragments that maps the fragments to a tree, and developed a feature-based
machine learning system that fuses visual, textual and semantic cues. Our
system significantly outperformed baselines in identifying different structures
in VSDs. For example, our system obtained a paragraph boundary detection F1
score of 0.951 which is significantly better than a popular PDF-to-text tool
with a F1 score of 0.739.
- Abstract(参考訳): 多くのnlp文書、タスク、パイプラインは生のクリーンテキストを想定しているが、私たちが野生で遭遇する多くのテキストはそれほどクリーンではなく、その多くはpdfのような視覚的構造化ドキュメント(vsd)である。
VSDの従来の前処理ツールは主に単語分割と粗いレイアウト解析に重点を置いているが、VSDの詳細な論理構造解析(段落境界や階層の識別など)は過小評価されている。
そこで我々は,断片を木にマッピングするテキストフラグメント間の遷移ラベルの予測としてタスクを定式化し,視覚的,テキスト的,セマンティックなキューを融合する特徴ベース機械学習システムを開発した。
我々のシステムはVSDの異なる構造を識別する上で、ベースラインを著しく上回った。
例えば,F1スコアが0.739のPDF-to-textツールよりも有意に優れた段落境界検出F1スコアの0.951を得た。
関連論文リスト
- Contextual Document Embeddings [77.22328616983417]
本稿では,コンテキスト化された文書埋め込みのための2つの補完手法を提案する。
第一に、文書近傍を明示的にバッチ内コンテキスト損失に組み込む別のコントラスト学習目標である。
第二に、隣接する文書情報をエンコードされた表現に明示的にエンコードする新しいコンテキストアーキテクチャ。
論文 参考訳(メタデータ) (2024-10-03T14:33:34Z) - Text Grouping Adapter: Adapting Pre-trained Text Detector for Layout Analysis [52.34110239735265]
本稿では,事前学習したテキスト検出装置のレイアウト解析を学習するためのモジュールであるText Grouping Adapter (TGA)を提案する。
我々の総合的な実験は、凍結した事前学習モデルであっても、TGAを様々な事前学習されたテキスト検出器やテキストスポッターに組み込むことで、より優れたレイアウト解析性能が得られることを示した。
論文 参考訳(メタデータ) (2024-05-13T05:48:35Z) - From Text Segmentation to Smart Chaptering: A Novel Benchmark for
Structuring Video Transcriptions [63.11097464396147]
音声コンテンツに焦点をあてた新しいベンチマークYTSegを導入し、その内容は本質的に非構造的であり、トポロジと構造的にも多様である。
また,高効率な階層分割モデルMiniSegを導入する。
論文 参考訳(メタデータ) (2024-02-27T15:59:37Z) - Hierarchical Text Spotter for Joint Text Spotting and Layout Analysis [52.01356859448068]
HTSは画像中のテキストを認識し、文字、単語、行、段落の4段階の階層構造を識別することができる。
HTSは、複数の単語レベルのテキストスポッティングベンチマークデータセットと幾何学的レイアウト解析タスクの最先端結果を達成する。
論文 参考訳(メタデータ) (2023-10-25T22:23:54Z) - DSG: An End-to-End Document Structure Generator [32.040520771901996]
Document Structure Generator (DSG) は、完全にエンドツーエンドのトレーニングが可能な文書解析のための新しいシステムである。
我々のDSGは商用のOCRツールよりも優れており、その上最先端のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2023-10-13T14:03:01Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - PARAGRAPH2GRAPH: A GNN-based framework for layout paragraph analysis [6.155943751502232]
本稿では,言語に依存しないグラフニューラルネットワーク(GNN)モデルを提案する。
我々のモデルは産業アプリケーション、特に多言語シナリオに適しています。
論文 参考訳(メタデータ) (2023-04-24T03:54:48Z) - VTLayout: Fusion of Visual and Text Features for Document Layout
Analysis [5.836306027133707]
文書レイアウト分析(DLA)は、歴史文書や科学文書の豊富な情報を大規模に収集する可能性がある。
本稿では,文書の深い視覚的,浅い視覚的,テキスト的特徴を融合させ,カテゴリブロックを識別するVTモデルを提案する。
VTの識別能力はPubLayNetデータセットに基づく最も高度なDLA法よりも優れており、F1スコアは0.9599である。
論文 参考訳(メタデータ) (2021-08-12T17:12:11Z) - StrucTexT: Structured Text Understanding with Multi-Modal Transformers [29.540122964399046]
Visually Rich Documents (VRD)における構造化テキスト理解は、ドキュメントインテリジェンスの重要な部分である。
本稿では,SrucTexTという統合フレームワークを提案する。
セグメントレベルおよびトークンレベルで構造化されたテキスト理解の手法を評価し,その手法が最先端のテキスト理解よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-08-06T02:57:07Z) - Topical Change Detection in Documents via Embeddings of Long Sequences [4.13878392637062]
テキストセグメンテーションのタスクを独立した教師付き予測タスクとして定式化する。
類似セクションの段落を微調整することで、学習した特徴がトピック情報をエンコードすることを示すことができます。
文レベルで操作する従来のアプローチとは異なり、我々は常により広いコンテキストを使用します。
論文 参考訳(メタデータ) (2020-12-07T12:09:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。