論文の概要: Page Layout Analysis of Text-heavy Historical Documents: a Comparison of
Textual and Visual Approaches
- arxiv url: http://arxiv.org/abs/2212.13924v1
- Date: Mon, 12 Dec 2022 10:10:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-01 14:26:25.199069
- Title: Page Layout Analysis of Text-heavy Historical Documents: a Comparison of
Textual and Visual Approaches
- Title(参考訳): テキストに富む歴史的文書のページレイアウト分析--テキストと視覚的アプローチの比較-
- Authors: Najem-Meyer Sven, Romanello Matteo
- Abstract要約: ページレイアウト分析は、ページを関心のある領域に分割できるドキュメント処理の基本的なステップである。
高度に複雑なレイアウトと混在したスクリプトにより、学術的に注釈付けされた文書は、最先端のモデルでは困難なままである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Page layout analysis is a fundamental step in document processing which
enables to segment a page into regions of interest. With highly complex layouts
and mixed scripts, scholarly commentaries are text-heavy documents which remain
challenging for state-of-the-art models. Their layout considerably varies
across editions and their most important regions are mainly defined by semantic
rather than graphical characteristics such as position or appearance. This
setting calls for a comparison between textual, visual and hybrid approaches.
We therefore assess the performances of two transformers (LayoutLMv3 and
RoBERTa) and an objection-detection network (YOLOv5). If results show a clear
advantage in favor of the latter, we also list several caveats to this finding.
In addition to our experiments, we release a dataset of ca. 300 annotated pages
sampled from 19th century commentaries.
- Abstract(参考訳): ページレイアウト分析は、ページを関心のある領域に分割できるドキュメント処理の基本的なステップである。
非常に複雑なレイアウトと複雑なスクリプトにより、学術的なコメンテータはテキストに富んだドキュメントであり、最先端のモデルでは依然として困難である。
彼らのレイアウトは版によって大きく異なり、最も重要な領域は主に位置や外観といったグラフィカルな特徴ではなく、意味的に定義される。
この設定は、テキスト、ビジュアル、およびハイブリッドのアプローチの比較を要求する。
そこで我々は2つの変圧器(LayoutLMv3とRoBERTa)と対物検出ネットワーク(YOLOv5)の性能を評価する。
結果が後者に有利な点を示した場合、この発見に注意すべき点をいくつか挙げる。
実験に加えて、私たちはcaのデータセットをリリースしました。
19世紀の注釈から採集された300ページ。
関連論文リスト
- Contextual Document Embeddings [77.22328616983417]
本稿では,コンテキスト化された文書埋め込みのための2つの補完手法を提案する。
第一に、文書近傍を明示的にバッチ内コンテキスト損失に組み込む別のコントラスト学習目標である。
第二に、隣接する文書情報をエンコードされた表現に明示的にエンコードする新しいコンテキストアーキテクチャ。
論文 参考訳(メタデータ) (2024-10-03T14:33:34Z) - Story Visualization by Online Text Augmentation with Context Memory [64.86944645907771]
オンラインテキスト拡張による双方向トランスフォーマーフレームワークのための新しいメモリアーキテクチャを提案する。
提案手法は, FID, キャラクタF1, フレーム精度, BLEU-2/3, R精度など, 様々な指標において, 芸術の状態を著しく上回っている。
論文 参考訳(メタデータ) (2023-08-15T05:08:12Z) - TRIE++: Towards End-to-End Information Extraction from Visually Rich
Documents [51.744527199305445]
本稿では,視覚的にリッチな文書からエンド・ツー・エンドの情報抽出フレームワークを提案する。
テキスト読み出しと情報抽出は、よく設計されたマルチモーダルコンテキストブロックを介して互いに強化することができる。
フレームワークはエンドツーエンドのトレーニング可能な方法でトレーニングでき、グローバルな最適化が達成できる。
論文 参考訳(メタデータ) (2022-07-14T08:52:07Z) - Neural Graph Matching for Modification Similarity Applied to Electronic
Document Comparison [0.0]
文書比較は法律や金融業界で一般的な課題である。
本稿では,文書比較に応用した新しいニューラルグラフマッチング手法を提案する。
論文 参考訳(メタデータ) (2022-04-12T02:37:54Z) - Towards End-to-End Unified Scene Text Detection and Layout Analysis [60.68100769639923]
本稿では,シーンテキストの検出とレイアウト解析を統合化するタスクについて紹介する。
この新たな研究課題を実現するために、最初の階層的なシーンテキストデータセットが導入された。
また,シーンテキストを同時に検出し,テキストクラスタを統一的に形成する手法を提案する。
論文 参考訳(メタデータ) (2022-03-28T23:35:45Z) - Including Keyword Position in Image-based Models for Act Segmentation of
Historical Registers [2.064923532131528]
我々は、歴史的レジスターを、アクトのような構造的で意味のある単位に分割するために、視覚情報とテキスト情報の両方を使用することに焦点をあてる。
ある行為は、人口統計情報(洗礼、婚姻または死)や王室の決定(寄付または恩赦)などの貴重な知識を含む文書記録である。
論文 参考訳(メタデータ) (2021-09-17T11:38:34Z) - Topical Change Detection in Documents via Embeddings of Long Sequences [4.13878392637062]
テキストセグメンテーションのタスクを独立した教師付き予測タスクとして定式化する。
類似セクションの段落を微調整することで、学習した特徴がトピック情報をエンコードすることを示すことができます。
文レベルで操作する従来のアプローチとは異なり、我々は常により広いコンテキストを使用します。
論文 参考訳(メタデータ) (2020-12-07T12:09:37Z) - WikiAsp: A Dataset for Multi-domain Aspect-based Summarization [69.13865812754058]
マルチドメインアスペクトベースの要約のための大規模データセットであるWikiAspを提案する。
具体的には、アスペクトアノテーションのプロキシとして、各記事のセクションタイトルとバウンダリを使用して、20の異なるドメインからウィキペディア記事を使用してデータセットを構築します。
その結果,既存の要約モデルがこの設定で直面する重要な課題,例えば引用されたソースの適切な代名詞処理,時間に敏感なイベントの一貫した説明などが浮き彫りになった。
論文 参考訳(メタデータ) (2020-11-16T10:02:52Z) - The Devil is in the Details: Evaluating Limitations of Transformer-based
Methods for Granular Tasks [19.099852869845495]
トランスフォーマーベースのニューラルネットワークモデルから派生したコンテキスト埋め込みは、様々なタスクに対して最先端のパフォーマンスを示している。
本稿では,文書の粒度の一致と抽象レベルという2つの観点から,テキストの類似性の問題に焦点をあてる。
異なるドメインからの2つのデータセットに対して、期待されるように抽象的なドキュメントマッチングのパフォーマンスが高いにもかかわらず、コンテキスト埋め込みは、よりきめ細かいタスクのためにTF-IDFのような単純なベースラインによって一貫して(そして非常に)パフォーマンスが向上していることを実証的に実証した。
論文 参考訳(メタデータ) (2020-11-02T18:41:32Z) - Learning to Select Bi-Aspect Information for Document-Scale Text Content
Manipulation [50.01708049531156]
我々は、テキストスタイルの転送とは逆の文書スケールのテキストコンテンツ操作という、新しい実践的なタスクに焦点を当てる。
詳細は、入力は構造化されたレコードと、別のレコードセットを記述するための参照テキストのセットである。
出力は、ソースレコードセットの部分的内容と参照の書き込みスタイルを正確に記述した要約である。
論文 参考訳(メタデータ) (2020-02-24T12:52:10Z) - Combining Visual and Textual Features for Semantic Segmentation of
Historical Newspapers [2.5899040911480187]
本稿では,歴史新聞のセマンティックセマンティックセグメンテーションのためのマルチモーダルアプローチを提案する。
ダイアクロニックなスイスとルクセンブルクの新聞の実験に基づいて、視覚的特徴とテキスト的特徴の予測力について検討する。
その結果、強力な視覚ベースラインと比較して、マルチモーダルモデルの一貫した改善が見られた。
論文 参考訳(メタデータ) (2020-02-14T17:56:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。