論文の概要: Evaluation of a Region Proposal Architecture for Multi-task Document
Layout Analysis
- arxiv url: http://arxiv.org/abs/2106.11797v1
- Date: Tue, 22 Jun 2021 14:07:27 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-23 14:56:10.517449
- Title: Evaluation of a Region Proposal Architecture for Multi-task Document
Layout Analysis
- Title(参考訳): マルチタスク文書レイアウト解析のための領域提案アーキテクチャの評価
- Authors: Lorenzo Quir\'os and Enrique Vidal
- Abstract要約: Mask-RCNNアーキテクチャは、ベースライン検出と領域分割の問題に対処するために設計されている。
2つの手書きテキストデータセットと1つの手書き音楽データセットに関する実験結果を示す。
分析したアーキテクチャは有望な結果をもたらし、3つのデータセットすべてで最先端のテクニックよりも優れています。
- 参考スコア(独自算出の注目度): 0.685316573653194
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatically recognizing the layout of handwritten documents is an important
step towards useful extraction of information from those documents. The most
common application is to feed downstream applications such as automatic text
recognition and keyword spotting; however, the recognition of the layout also
helps to establish relationships between elements in the document which allows
to enrich the information that can be extracted. Most of the modern document
layout analysis systems are designed to address only one part of the document
layout problem, namely: baseline detection or region segmentation. In contrast,
we evaluate the effectiveness of the Mask-RCNN architecture to address the
problem of baseline detection and region segmentation in an integrated manner.
We present experimental results on two handwritten text datasets and one
handwritten music dataset. The analyzed architecture yields promising results,
outperforming state-of-the-art techniques in all three datasets.
- Abstract(参考訳): 手書き文書のレイアウトを自動的に認識することは,それらの文書から情報を抽出するための重要なステップである。
最も一般的なアプリケーションは、自動テキスト認識やキーワードスポッティングなどの下流アプリケーションへのフィードであるが、レイアウトの認識はドキュメント内の要素間の関係を確立するのにも役立ち、抽出可能な情報を豊かにすることができる。
現代の文書レイアウト分析システムのほとんどは、文書レイアウト問題の1つの部分、すなわちベースライン検出や領域分割のみに対処するように設計されている。
対照的に,Mask-RCNNアーキテクチャの有効性を評価し,ベースライン検出と領域分割の問題を統合的に解決する。
2つの手書きテキストデータセットと1つの手書き音楽データセットに関する実験結果を示す。
分析されたアーキテクチャは、3つのデータセットすべてにおいて最先端の技術を上回る有望な結果をもたらす。
関連論文リスト
- Unified Multi-Modal Interleaved Document Representation for Information Retrieval [57.65409208879344]
我々は、異なるモダリティでインターリーブされた文書を均等に埋め込み、より包括的でニュアンスのある文書表現を生成する。
具体的には、テキスト、画像、テーブルの処理と統合を統一されたフォーマットと表現に統合する、近年のビジョン言語モデルの能力を活用して、これを実現する。
論文 参考訳(メタデータ) (2024-10-03T17:49:09Z) - Contextual Document Embeddings [77.22328616983417]
本稿では,コンテキスト化された文書埋め込みのための2つの補完手法を提案する。
第一に、文書近傍を明示的にバッチ内コンテキスト損失に組み込む別のコントラスト学習目標である。
第二に、隣接する文書情報をエンコードされた表現に明示的にエンコードする新しいコンテキストアーキテクチャ。
論文 参考訳(メタデータ) (2024-10-03T14:33:34Z) - Hypergraph based Understanding for Document Semantic Entity Recognition [65.84258776834524]
我々は,ハイパグラフアテンションを利用したハイパグラフアテンション文書セマンティックエンティティ認識フレームワークHGAを構築し,エンティティ境界とエンティティカテゴリを同時に重視する。
FUNSD, CORD, XFUNDIE で得られた結果は,本手法が意味的エンティティ認識タスクの性能を効果的に向上できることを示す。
論文 参考訳(メタデータ) (2024-07-09T14:35:49Z) - Knowledge-Driven Cross-Document Relation Extraction [3.868708275322908]
関係抽出(RE)はよく知られたNLPアプリケーションであり、文レベルや文書レベルのタスクとして扱われる。
本稿では,文書横断REのための入力テキストにエンティティのドメイン知識を組み込む新しい手法KXDocREを提案する。
論文 参考訳(メタデータ) (2024-05-22T11:30:59Z) - Object Recognition from Scientific Document based on Compartment Refinement Framework [2.699900017799093]
膨大な資源から貴重な情報を効率的に抽出することがますます重要になっている。
科学文書の現在のデータ抽出方法は、ルールベース(RB)または機械学習(ML)アプローチを用いるのが一般的である。
我々はCTBR(Compartment & Text Blocks Refinement)と呼ばれる新しい文書レイアウト分析フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-14T15:36:49Z) - TransDocAnalyser: A Framework for Offline Semi-structured Handwritten
Document Analysis in the Legal Domain [3.5018563401895455]
最初の半構造化文書解析データセットを法域内に構築する。
このデータセットは、多種多様な手書きテキストと印刷テキストを組み合わせる。
本稿では,手書き半構造化文書のオフライン処理のためのエンドツーエンドフレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-03T15:56:30Z) - Layout-Aware Information Extraction for Document-Grounded Dialogue:
Dataset, Method and Demonstration [75.47708732473586]
視覚的にリッチな文書から構造的知識と意味的知識の両方を抽出するためのレイアウト対応文書レベル情報抽出データセット(LIE)を提案する。
LIEには製品および公式文書の4,061ページから3つの抽出タスクの62kアノテーションが含まれている。
実験の結果、レイアウトはVRDベースの抽出に不可欠であることが示され、システムデモでは、抽出された知識が、ユーザが関心を持っている答えを見つけるのに役立つことも確認されている。
論文 参考訳(メタデータ) (2022-07-14T07:59:45Z) - RDU: A Region-based Approach to Form-style Document Understanding [69.29541701576858]
キー情報抽出(KIE)は,フォーム形式の文書から構造化された情報を抽出することを目的としている。
我々は、Rerea-based Understanding Document (RDU) と呼ばれる新しいKIEモデルを開発する。
RDUは文書のテキスト内容と対応する座標を入力として、バウンディングボックスのような領域をローカライズして結果を予測しようとする。
論文 参考訳(メタデータ) (2022-06-14T14:47:48Z) - Combining Deep Learning and Reasoning for Address Detection in
Unstructured Text Documents [0.0]
本研究では,非構造化文書からアドレスを検索・抽出する手法として,ディープラーニングと推論を組み合わせたハイブリッド手法を提案する。
スキャンした文書画像上のアドレス領域の境界を検出するために,視覚的深層学習モデルを用いる。
論文 参考訳(メタデータ) (2022-02-07T12:32:00Z) - Cross-Domain Document Object Detection: Benchmark Suite and Method [71.4339949510586]
文書オブジェクト検出(DOD)は、インテリジェントな文書編集や理解といった下流タスクに不可欠である。
我々は、ソースドメインからのラベル付きデータとターゲットドメインからのラベルなしデータのみを用いて、ターゲットドメインの検出器を学習することを目的として、クロスドメインDODを調査した。
各データセットに対して、ページイメージ、バウンディングボックスアノテーション、PDFファイル、PDFファイルから抽出されたレンダリング層を提供する。
論文 参考訳(メタデータ) (2020-03-30T03:04:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。