論文の概要: Robust Text Line Detection in Historical Documents: Learning and
Evaluation Methods
- arxiv url: http://arxiv.org/abs/2203.12346v1
- Date: Wed, 23 Mar 2022 11:56:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-24 15:21:22.676579
- Title: Robust Text Line Detection in Historical Documents: Learning and
Evaluation Methods
- Title(参考訳): 歴史的文書におけるロバストテキスト行検出:学習と評価法
- Authors: M\'elodie Boillet, Christopher Kermorvant, Thierry Paquet
- Abstract要約: 本稿では,3つの最先端システムDoc-UFCN,dhSegment,ARU-Netを用いて実験を行った。
多様な未確認ページを正確にセグメント化できる,さまざまな履歴文書データセットに基づいてトレーニングされた汎用モデルを構築することが可能であることを示す。
- 参考スコア(独自算出の注目度): 1.9938405188113029
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text line segmentation is one of the key steps in historical document
understanding. It is challenging due to the variety of fonts, contents, writing
styles and the quality of documents that have degraded through the years.
In this paper, we address the limitations that currently prevent people from
building line segmentation models with a high generalization capacity. We
present a study conducted using three state-of-the-art systems Doc-UFCN,
dhSegment and ARU-Net and show that it is possible to build generic models
trained on a wide variety of historical document datasets that can correctly
segment diverse unseen pages. This paper also highlights the importance of the
annotations used during training: each existing dataset is annotated
differently. We present a unification of the annotations and show its positive
impact on the final text recognition results. In this end, we present a
complete evaluation strategy using standard pixel-level metrics, object-level
ones and introducing goal-oriented metrics.
- Abstract(参考訳): テキスト行のセグメンテーションは、歴史的文書理解の重要なステップの1つである。
フォントの多様さ、内容、書風、時代を経た文書の質が問題となっている。
本稿では,現在,高一般化能力のラインセグメンテーションモデルの構築を妨げている限界に対処する。
本稿では,3つの最先端システムであるdoc-ufcn,dhsegment,alru-netを用いて,多種多様な歴史的文書データセット上でトレーニングされた汎用モデルを構築することが可能であることを示す。
本稿では、トレーニング中に使用されるアノテーションの重要性についても強調する。
本稿では,アノテーションの統一化と最終文認識結果への肯定的な影響を示す。
本稿では,標準的なピクセルレベルメトリクス,オブジェクト指向メトリクス,目標指向メトリクスを用いた完全な評価戦略を提案する。
関連論文リスト
- Towards Unified Multi-granularity Text Detection with Interactive Attention [56.79437272168507]
Detect Any Text"は、シーンテキストの検出、レイアウト分析、ドキュメントページの検出を結合的なエンドツーエンドモデルに統合する高度なパラダイムである。
DATにおける重要なイノベーションは、テキストインスタンスの表現学習を大幅に強化する、粒度横断型アテンションモジュールである。
テストによると、DATは様々なテキスト関連ベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-05-30T07:25:23Z) - From Text Segmentation to Smart Chaptering: A Novel Benchmark for
Structuring Video Transcriptions [63.11097464396147]
音声コンテンツに焦点をあてた新しいベンチマークYTSegを導入し、その内容は本質的に非構造的であり、トポロジと構造的にも多様である。
また,高効率な階層分割モデルMiniSegを導入する。
論文 参考訳(メタデータ) (2024-02-27T15:59:37Z) - The Learnable Typewriter: A Generative Approach to Text Analysis [17.355857281085164]
テキスト行中の文字解析と認識に対する生成文書固有のアプローチを提案する。
同様のフォントや手書きのテキスト行を入力として、我々のアプローチは多数の異なる文字を学習することができる。
論文 参考訳(メタデータ) (2023-02-03T11:17:59Z) - Digital Editions as Distant Supervision for Layout Analysis of Printed
Books [76.29918490722902]
本稿では,この意味的マークアップを,レイアウト解析モデルのトレーニングと評価のための遠隔監視として利用する手法について述べる。
DTA(Deutsches Textarchiv)の50万ページにわたるモデルアーキテクチャの実験では、これらの領域レベルの評価手法と画素レベルのメトリクスとワードレベルのメトリクスとの高い相関性を見出した。
自己学習による精度向上の可能性と、DTAで訓練されたモデルが他の歴史書に一般化できる可能性について論じる。
論文 参考訳(メタデータ) (2021-12-23T16:51:53Z) - Automatic Document Sketching: Generating Drafts from Analogous Texts [44.626645471195495]
著者がレビューと修正を行うためのドラフト文書全体を生成する新しいタスクである文書スケッチを導入する。
これらのドラフトは、コンテンツのばらつきながら、形式的に重複するドキュメントのセット - 潜在的に再利用可能なテキストの大きなセグメントを共有する - から作成されます。
本研究は,変圧器を用いた専門家の混合と強化学習の併用を含む,弱教師付き手法の適用について検討する。
論文 参考訳(メタデータ) (2021-06-14T06:46:06Z) - Minimally-Supervised Structure-Rich Text Categorization via Learning on
Text-Rich Networks [61.23408995934415]
テキストリッチネットワークから学習することで,最小限に教師付き分類を行う新しいフレームワークを提案する。
具体的には、テキスト理解のためのテキスト解析モジュールと、クラス差別的でスケーラブルなネットワーク学習のためのネットワーク学習モジュールの2つのモジュールを共同でトレーニングします。
実験の結果,1つのカテゴリに3つのシード文書しか与えられず,その精度は約92%であった。
論文 参考訳(メタデータ) (2021-02-23T04:14:34Z) - Handwriting Classification for the Analysis of Art-Historical Documents [6.918282834668529]
We focus on the analysis of handwriting in scanned document from the art-historic Archive of the WPI。
視覚構造に基づいて抽出されたテキストの断片をラベル付けする手書き分類モデルを提案する。
論文 参考訳(メタデータ) (2020-11-04T13:06:46Z) - Whole page recognition of historical handwriting [1.2183405753834562]
そこで本研究では,手書きページを受信し,その全文を転写するテキストローカライゼーションを伴わないエンドツーエンド推論手法について検討する。
明示的な文字や単語や行のセグメンテーションは推論にかかわらないため、我々はこのアプローチを「セグメンテーションフリー」と呼ぶ。
テキストのローカライゼーションやセグメンテーションを伴わないページ全体の推論手法が競合していると結論付けている。
論文 参考訳(メタデータ) (2020-09-22T15:46:33Z) - A Survey on Text Classification: From Shallow to Deep Learning [83.47804123133719]
過去10年は、ディープラーニングが前例のない成功を収めたために、この分野の研究が急増している。
本稿では,1961年から2021年までの最先端のアプローチを見直し,そのギャップを埋める。
特徴抽出と分類に使用されるテキストとモデルに基づいて,テキスト分類のための分類を作成する。
論文 参考訳(メタデータ) (2020-08-02T00:09:03Z) - Learning to Select Bi-Aspect Information for Document-Scale Text Content
Manipulation [50.01708049531156]
我々は、テキストスタイルの転送とは逆の文書スケールのテキストコンテンツ操作という、新しい実践的なタスクに焦点を当てる。
詳細は、入力は構造化されたレコードと、別のレコードセットを記述するための参照テキストのセットである。
出力は、ソースレコードセットの部分的内容と参照の書き込みスタイルを正確に記述した要約である。
論文 参考訳(メタデータ) (2020-02-24T12:52:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。