論文の概要: DocSegTr: An Instance-Level End-to-End Document Image Segmentation
Transformer
- arxiv url: http://arxiv.org/abs/2201.11438v1
- Date: Thu, 27 Jan 2022 10:50:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-28 19:56:03.311781
- Title: DocSegTr: An Instance-Level End-to-End Document Image Segmentation
Transformer
- Title(参考訳): docsegtr: インスタンスレベルのエンドツーエンドドキュメントイメージセグメンテーショントランスフォーマ
- Authors: Sanket Biswas, Ayan Banerjee, Josep Llad\'os, and Umapada Pal
- Abstract要約: ビジネスインテリジェンスプロセスは、しばしばドキュメントから有用なセマンティックコンテンツを抽出する必要がある。
本稿では,文書画像における複雑なレイアウトのエンドツーエンドセグメンテーションのためのトランスフォーマーモデルを提案する。
我々のモデルは、既存の最先端手法に比べて、同等またはより良いセグメンテーション性能を達成した。
- 参考スコア(独自算出の注目度): 16.03084865625318
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Understanding documents with rich layouts is an essential step towards
information extraction. Business intelligence processes often require the
extraction of useful semantic content from documents at a large scale for
subsequent decision-making tasks. In this context, instance-level segmentation
of different document objects(title, sections, figures, tables and so on) has
emerged as an interesting problem for the document layout analysis community.
To advance the research in this direction, we present a transformer-based model
for end-to-end segmentation of complex layouts in document images. To our
knowledge, this is the first work on transformer-based document segmentation.
Extensive experimentation on the PubLayNet dataset shows that our model
achieved comparable or better segmentation performance than the existing
state-of-the-art approaches. We hope our simple and flexible framework could
serve as a promising baseline for instance-level recognition tasks in document
images.
- Abstract(参考訳): リッチなレイアウトでドキュメントを理解することは、情報抽出への重要なステップです。
ビジネスインテリジェンスプロセスは、後続の意思決定タスクのために、文書から有用なセマンティックコンテンツを大規模に抽出する必要があることが多い。
この文脈では、異なるドキュメントオブジェクト(タイトル、セクション、フィギュア、テーブルなど)のインスタンスレベルのセグメンテーションが、ドキュメントレイアウト分析コミュニティにとって興味深い問題となっている。
この方向の研究を進めるために,文書画像の複雑なレイアウトをエンドツーエンドに分割するトランスフォーマーモデルを提案する。
私たちの知る限り、トランスフォーマーベースの文書セグメンテーションに関する最初の研究である。
PubLayNetデータセットの大規模な実験により、我々のモデルは既存の最先端のアプローチと比べて、同等またはより良いセグメンテーション性能を達成した。
ドキュメントイメージにおけるインスタンスレベルの認識タスクのベースラインとして,私たちのシンプルで柔軟なフレームワークが役立つことを願っています。
関連論文リスト
- From Text Segmentation to Smart Chaptering: A Novel Benchmark for
Structuring Video Transcriptions [63.11097464396147]
音声コンテンツに焦点をあてた新しいベンチマークYTSegを導入し、その内容は本質的に非構造的であり、トポロジと構造的にも多様である。
また,高効率な階層分割モデルMiniSegを導入する。
論文 参考訳(メタデータ) (2024-02-27T15:59:37Z) - Leveraging Collection-Wide Similarities for Unsupervised Document
Structure Extraction [69.68042613919447]
本稿では,コレクション内の文書の典型的構造を特定することを提案する。
任意のヘッダのパラフレーズを抽象化し、各トピックを各ドキュメントのロケーションにグルーピングします。
文書間の類似性を利用した教師なしグラフベース手法を開発した。
論文 参考訳(メタデータ) (2024-02-21T16:22:21Z) - On Task-personalized Multimodal Few-shot Learning for Visually-rich
Document Entity Retrieval [59.25292920967197]
VDER(Few-shot document entity search)は、NLPアプリケーションにおいて重要なトピックである。
FewVEXは、エンティティレベルの少数ショットVDERの分野における将来の研究を促進するための、新しいデータセットである。
本稿では,タスクパーソナライズを効果的に実現することを中心に,タスク認識型メタラーニングベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-01T17:51:43Z) - SelfDocSeg: A Self-Supervised vision-based Approach towards Document
Segmentation [15.953725529361874]
文書レイアウト分析は文書研究コミュニティにとって既知の問題である。
個人生活へのインターネット接続が拡大するにつれ、パブリックドメインでは膨大な量のドキュメントが利用できるようになった。
我々は,この課題に自己監督型文書セグメンテーションアプローチと異なり,自己監督型文書セグメンテーションアプローチを用いて対処する。
論文 参考訳(メタデータ) (2023-05-01T12:47:55Z) - Unified Pretraining Framework for Document Understanding [52.224359498792836]
文書理解のための統合事前学習フレームワークであるUDocを紹介する。
UDocは、ほとんどのドキュメント理解タスクをサポートするように設計されており、Transformerを拡張してマルチモーダル埋め込みを入力とする。
UDocの重要な特徴は、3つの自己管理的損失を利用して汎用的な表現を学ぶことである。
論文 参考訳(メタデータ) (2022-04-22T21:47:04Z) - Multi-View Document Representation Learning for Open-Domain Dense
Retrieval [87.11836738011007]
本稿では,多視点文書表現学習フレームワークを提案する。
ドキュメントを表現し、異なるクエリに合わせるように強制するために、マルチビューの埋め込みを作成することを目的としている。
実験により,本手法は最近の成果より優れ,最先端の結果が得られた。
論文 参考訳(メタデータ) (2022-03-16T03:36:38Z) - Cross-Domain Document Layout Analysis via Unsupervised Document Style
Guide [12.742967563805074]
文書レイアウト解析(DLA)は、文書画像を高レベルな意味領域に分解することを目的としている。
多くの研究者がこの課題に取り組み、大規模なトレーニングセットを構築するためにデータを合成した。
本稿では文書スタイルのガイダンスに基づく教師なしクロスドメインDLAフレームワークを提案する。
論文 参考訳(メタデータ) (2022-01-24T00:49:19Z) - Synthetic Document Generator for Annotation-free Layout Recognition [15.657295650492948]
本稿では,空間的位置,範囲,レイアウト要素のカテゴリを示すラベル付きリアル文書を自動生成する合成文書生成装置について述べる。
合成文書上で純粋に訓練された深層レイアウト検出モデルが,実文書を用いたモデルの性能と一致することを実証的に示す。
論文 参考訳(メタデータ) (2021-11-11T01:58:44Z) - Modeling Endorsement for Multi-Document Abstractive Summarization [10.166639983949887]
単一文書の要約と多文書の要約の重大な違いは、文書の中で健全なコンテンツがどのように現れるかである。
本稿では,複数文書要約における文書間補完効果とその活用をモデル化する。
提案手法は各文書から合成を生成し,他の文書から有意な内容を識別する支援者として機能する。
論文 参考訳(メタデータ) (2021-10-15T03:55:42Z) - DOC2PPT: Automatic Presentation Slides Generation from Scientific
Documents [76.19748112897177]
文書・スライド生成のための新しい課題とアプローチを提案する。
エンドツーエンドでタスクに取り組むための階層的なシーケンス・ツー・シーケンスアプローチを提案する。
提案手法では,文書やスライド内の固有構造を利用して,パラフレーズとレイアウト予測モジュールを組み込んでスライドを生成する。
論文 参考訳(メタデータ) (2021-01-28T03:21:17Z) - Towards a Multi-modal, Multi-task Learning based Pre-training Framework
for Document Representation Learning [5.109216329453963]
本稿では,新しい事前学習タスクとして,文書トピックモデリングと文書シャッフル予測を導入する。
本稿では,Longformer ネットワークアーキテクチャをバックボーンとして,複数ページの文書からのマルチモーダル情報をエンド・ツー・エンドで符号化する。
論文 参考訳(メタデータ) (2020-09-30T05:39:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。