論文の概要: An Evaluation of DNN Architectures for Page Segmentation of Historical
Newspapers
- arxiv url: http://arxiv.org/abs/2004.07317v1
- Date: Wed, 15 Apr 2020 20:05:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-13 03:49:18.452762
- Title: An Evaluation of DNN Architectures for Page Segmentation of Historical
Newspapers
- Title(参考訳): 歴史新聞のページセグメンテーションのためのDNNアーキテクチャの評価
- Authors: Bernhard Liebl and Manuel Burghardt
- Abstract要約: 我々は11種類の異なるDeep Neural Networksバックボーンアーキテクチャと9つの異なるタイリングとスケーリング構成を評価し、テキスト、テーブル、テーブル列を分離する。
本稿では,ラベル数とトレーニングページ数がセグメンテーション品質に与える影響を,マシューズ相関係数を用いて測定する。
この結果から,Inception-ResNet-v2とEfficientNetのバックボーンが最適であることがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: One important and particularly challenging step in the optical character
recognition (OCR) of historical documents with complex layouts, such as
newspapers, is the separation of text from non-text content (e.g. page borders
or illustrations). This step is commonly referred to as page segmentation.
While various rule-based algorithms have been proposed, the applicability of
Deep Neural Networks (DNNs) for this task recently has gained a lot of
attention. In this paper, we perform a systematic evaluation of 11 different
published DNN backbone architectures and 9 different tiling and scaling
configurations for separating text, tables or table column lines. We also show
the influence of the number of labels and the number of training pages on the
segmentation quality, which we measure using the Matthews Correlation
Coefficient. Our results show that (depending on the task) Inception-ResNet-v2
and EfficientNet backbones work best, vertical tiling is generally preferable
to other tiling approaches, and training data that comprises 30 to 40 pages
will be sufficient most of the time.
- Abstract(参考訳): 新聞などの複雑なレイアウトを持つ歴史文書の光学的文字認識(OCR)において重要な、特に困難なステップは、非テキストコンテンツ(例えばページ境界やイラスト)からテキストを分離することである。
このステップは一般にページセグメンテーションと呼ばれる。
様々なルールベースのアルゴリズムが提案されているが、近年、ディープニューラルネットワーク(DNN)の適用性に大きな注目を集めている。
本稿では,11の異なるDNNバックボーンアーキテクチャと,テキスト,テーブル,テーブル列を分離するための9の異なるタイリングおよびスケーリング構成を体系的に評価する。
また,matthews相関係数を用いて測定したセグメンテーション品質に対するラベル数とトレーニングページ数の影響を示す。
この結果から,インセプション-ResNet-v2とEfficientNetのバックボーンが最適であること,垂直タイリングが他のタイリング手法よりも好まれていること,30ページから40ページのトレーニングデータが十分であることがわかった。
関連論文リスト
- From Text Segmentation to Smart Chaptering: A Novel Benchmark for
Structuring Video Transcriptions [63.11097464396147]
音声コンテンツに焦点をあてた新しいベンチマークYTSegを導入し、その内容は本質的に非構造的であり、トポロジと構造的にも多様である。
また,高効率な階層分割モデルMiniSegを導入する。
論文 参考訳(メタデータ) (2024-02-27T15:59:37Z) - Text Reading Order in Uncontrolled Conditions by Sparse Graph
Segmentation [71.40119152422295]
テキストの読み出し順序を識別するための軽量でスケーラブルで一般化可能なアプローチを提案する。
モデルは言語に依存しず、多言語データセットで効果的に実行される。
モバイルデバイスを含むあらゆるプラットフォームにデプロイできるほど小さい。
論文 参考訳(メタデータ) (2023-05-04T06:21:00Z) - Semantic Parsing of Interpage Relations [0.0]
本稿では,ページ間関係のセマンティック解析としてタスクを形式化し,ページ間の依存関係抽出のためのエンドツーエンドアプローチを提案する。
また、ページ依存のセグメンテーション、分類、解析に使用されるページ埋め込みを協調的に最適化するマルチタスクトレーニング手法を設計する。
実験の結果,提案手法は,意味解析の点数41ポイント,ページストリームセグメンテーションの点数33ポイント,ナイーブベースライン上のページ分類の点数45ポイントに向上した。
論文 参考訳(メタデータ) (2022-05-26T17:50:43Z) - Robust Text Line Detection in Historical Documents: Learning and
Evaluation Methods [1.9938405188113029]
本稿では,3つの最先端システムDoc-UFCN,dhSegment,ARU-Netを用いて実験を行った。
多様な未確認ページを正確にセグメント化できる,さまざまな履歴文書データセットに基づいてトレーニングされた汎用モデルを構築することが可能であることを示す。
論文 参考訳(メタデータ) (2022-03-23T11:56:25Z) - Combining Morphological and Histogram based Text Line Segmentation in
the OCR Context [0.0]
本論文で提案するアルゴリズム的アプローチはこの目的のために設計されている。
本手法は, 品質問題に特有な歴史的データ収集に適用するために開発された。
計算コストの低さが組み合わさった有望なセグメンテーション結果のため、このアルゴリズムはルクセンブルク国立図書館のocrパイプラインに組み込まれた。
論文 参考訳(メタデータ) (2021-03-16T09:06:25Z) - Minimally-Supervised Structure-Rich Text Categorization via Learning on
Text-Rich Networks [61.23408995934415]
テキストリッチネットワークから学習することで,最小限に教師付き分類を行う新しいフレームワークを提案する。
具体的には、テキスト理解のためのテキスト解析モジュールと、クラス差別的でスケーラブルなネットワーク学習のためのネットワーク学習モジュールの2つのモジュールを共同でトレーニングします。
実験の結果,1つのカテゴリに3つのシード文書しか与えられず,その精度は約92%であった。
論文 参考訳(メタデータ) (2021-02-23T04:14:34Z) - Topical Change Detection in Documents via Embeddings of Long Sequences [4.13878392637062]
テキストセグメンテーションのタスクを独立した教師付き予測タスクとして定式化する。
類似セクションの段落を微調整することで、学習した特徴がトピック情報をエンコードすることを示すことができます。
文レベルで操作する従来のアプローチとは異なり、我々は常により広いコンテキストを使用します。
論文 参考訳(メタデータ) (2020-12-07T12:09:37Z) - WikiAsp: A Dataset for Multi-domain Aspect-based Summarization [69.13865812754058]
マルチドメインアスペクトベースの要約のための大規模データセットであるWikiAspを提案する。
具体的には、アスペクトアノテーションのプロキシとして、各記事のセクションタイトルとバウンダリを使用して、20の異なるドメインからウィキペディア記事を使用してデータセットを構築します。
その結果,既存の要約モデルがこの設定で直面する重要な課題,例えば引用されたソースの適切な代名詞処理,時間に敏感なイベントの一貫した説明などが浮き彫りになった。
論文 参考訳(メタデータ) (2020-11-16T10:02:52Z) - A Graph Representation of Semi-structured Data for Web Question
Answering [96.46484690047491]
本稿では、半構造化データとそれらの関係の構成要素の体系的分類に基づいて、Webテーブルとリストのグラフ表現を提案する。
本手法は,最先端のベースラインに対してF1スコアを3.90ポイント向上させる。
論文 参考訳(メタデータ) (2020-10-14T04:01:54Z) - Neural Abstractive Summarization with Structural Attention [31.50918718905953]
このような文間依存関係と文書間依存関係をモデル化するための構造的注意に基づく階層型エンコーダを提案する。
提案手法は,単一文書の要約設定と複数文書の要約設定の両方において,ベースラインよりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2020-04-21T03:39:15Z) - Learning to Select Bi-Aspect Information for Document-Scale Text Content
Manipulation [50.01708049531156]
我々は、テキストスタイルの転送とは逆の文書スケールのテキストコンテンツ操作という、新しい実践的なタスクに焦点を当てる。
詳細は、入力は構造化されたレコードと、別のレコードセットを記述するための参照テキストのセットである。
出力は、ソースレコードセットの部分的内容と参照の書き込みスタイルを正確に記述した要約である。
論文 参考訳(メタデータ) (2020-02-24T12:52:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。