論文の概要: Combining OCR Models for Reading Early Modern Printed Books
- arxiv url: http://arxiv.org/abs/2305.07131v1
- Date: Thu, 11 May 2023 20:43:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-15 14:34:24.801222
- Title: Combining OCR Models for Reading Early Modern Printed Books
- Title(参考訳): 近世印刷本を読むためのocrモデルの組み合わせ
- Authors: Mathias Seuret, Janne van der Loop, Nikolaus Weichselbaumer, Martin
Mayr, Janina Molnar, Tatjana Hass, Florian Kordon, Anguelos Nicolau, Vincent
Christlein
- Abstract要約: 我々は,15世紀から18世紀にかけて印刷された書籍において,OCR上でのきめ細かいフォント認識の利用について検討した。
我々はOCRの性能がフォントスタイルに強く影響していることを示し、フォント群認識による微調整モデルの選択は結果に非常に良い影響を与えることを示した。
- 参考スコア(独自算出の注目度): 2.839401411131008
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we investigate the usage of fine-grained font recognition on
OCR for books printed from the 15th to the 18th century. We used a newly
created dataset for OCR of early printed books for which fonts are labeled with
bounding boxes. We know not only the font group used for each character, but
the locations of font changes as well. In books of this period, we frequently
find font group changes mid-line or even mid-word that indicate changes in
language. We consider 8 different font groups present in our corpus and
investigate 13 different subsets: the whole dataset and text lines with a
single font, multiple fonts, Roman fonts, Gothic fonts, and each of the
considered fonts, respectively. We show that OCR performance is strongly
impacted by font style and that selecting fine-tuned models with font group
recognition has a very positive impact on the results. Moreover, we developed a
system using local font group recognition in order to combine the output of
multiple font recognition models, and show that while slower, this approach
performs better not only on text lines composed of multiple fonts but on the
ones containing a single font only as well.
- Abstract(参考訳): 本稿では,15世紀から18世紀にかけて印刷された書籍のocrにおけるきめ細かなフォント認識について検討する。
我々は、フォントにバウンディングボックスをラベル付けした初期印刷書籍のOCRデータセットを新たに作成した。
私たちは各文字に使用されるフォントグループだけでなく、フォントの場所も知っています。
この時代の本では、フォントグループの変化が、言語の変化を示す中・中・単語でしばしば見られる。
我々は、コーパスに存在する8つの異なるフォントグループについて検討し、データセット全体とテキスト行に1つのフォント、複数のフォント、ローマフォント、ゴシックフォント、およびそれぞれのフォントを含む13の異なるサブセットを調査した。
ocrの性能はフォントスタイルの影響を強く受けており,フォントグループ認識による微調整モデルの選択は,結果に非常に肯定的な影響を与えている。
さらに,複数のフォント認識モデルの出力を結合するために,局所フォントグループ認識を用いたシステムを開発した。
関連論文リスト
- VQ-Font: Few-Shot Font Generation with Structure-Aware Enhancement and
Quantization [52.870638830417]
本稿では,VQGANベースのフレームワーク(VQ-Font)を提案する。
具体的には、コードブック内でフォントトークンをカプセル化するために、VQGANを事前訓練する。その後、VQ-Fontは、合成したグリフをコードブックで洗練し、合成されたストロークと実世界のストロークのドメインギャップをなくす。
論文 参考訳(メタデータ) (2023-08-27T06:32:20Z) - CF-Font: Content Fusion for Few-shot Font Generation [63.79915037830131]
本稿では、コンテンツ特徴をベースフォントのコンテンツ特徴によって定義される線形空間に投影するコンテンツ融合モジュール(CFM)を提案する。
提案手法では,参照画像のスタイル表現ベクトルの最適化も可能である。
我々は,6.5k文字の300フォントのデータセットを用いて評価を行った。
論文 参考訳(メタデータ) (2023-03-24T14:18:40Z) - Diff-Font: Diffusion Model for Robust One-Shot Font Generation [110.45944936952309]
Diff-Fontという拡散モデルに基づく新しいワンショットフォント生成手法を提案する。
提案するモデルは,フォントライブラリ全体を生成することを目的として,参照として1つのサンプルのみを与える。
十分に訓練されたDiff-Fontは、フォントギャップやフォントのバリエーションに対して堅牢であるだけでなく、難しい文字生成において有望なパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-12-12T13:51:50Z) - Font Representation Learning via Paired-glyph Matching [15.358456947574913]
本稿では,フォントスタイルを潜在空間に埋め込む新しいフォント表現学習手法を提案する。
フォントを他者から識別的に表現するために,マッチングに基づくフォント表現学習モデルを提案する。
フォント表現学習方式は,既存のフォント表現学習手法よりも優れた一般化性能が得られることを示す。
論文 参考訳(メタデータ) (2022-11-20T12:27:27Z) - Few-Shot Font Generation by Learning Fine-Grained Local Styles [90.39288370855115]
フラッシュショットフォント生成(FFG)は、いくつかの例で新しいフォントを生成することを目的としている。
提案手法は,1)参照からきめ細かな局所スタイルを学習し,2)コンテンツと参照グリフの空間的対応を学習するフォント生成手法である。
論文 参考訳(メタデータ) (2022-05-20T05:07:05Z) - Scalable Font Reconstruction with Dual Latent Manifolds [55.29525824849242]
タイポグラフィー解析とフォント再構成を行う深層生成モデルを提案する。
このアプローチによって、効果的にモデル化できるキャラクタの種類を大規模にスケールアップすることが可能になります。
多くの言語の文字タイプを表す様々なデータセット上でフォント再構成のタスクを評価する。
論文 参考訳(メタデータ) (2021-09-10T20:37:43Z) - A Multi-Implicit Neural Representation for Fonts [79.6123184198301]
エッジやコーナーのようなフォント固有の不連続性は、ニューラルネットワークを使って表現することが難しい。
そこで我々は,フォントを文順に表現するためのtextitmulti-implicitsを導入する。
論文 参考訳(メタデータ) (2021-06-12T21:40:11Z) - AdaptiFont: Increasing Individuals' Reading Speed with a Generative Font
Model and Bayesian Optimization [3.480626767752489]
AdaptiFontは、モニターに表示されるテキストの読みやすさをインタラクティブに向上することを目的とした、ループ内の人間システムである。
我々は,能動的学習によって新しい真型フォントを生成し,新しいフォントでテキストをレンダリングし,個々のユーザの読書速度を測定する。
ユーザ調査の結果,この適応フォント生成システムは,高い読解速度に対応するフォント空間の領域を見出し,これらのフォントが参加者の読解速度を大幅に増加させ,各読者間でフォントが著しく異なることがわかった。
論文 参考訳(メタデータ) (2021-04-21T19:56:28Z) - FONTNET: On-Device Font Understanding and Prediction Pipeline [1.5749416770494706]
フォント検出エンジンとフォント予測エンジンの2つのエンジンを提案する。
画像中のテキストのフォントスタイルを識別する新しいcnnアーキテクチャを開発した。
第2に、与えられたクエリフォントの類似フォントを予測するための新しいアルゴリズムを設計した。
第3に,インスタントメッセージングなどのリアルタイムアプリケーションにおいて,プライバシを確保し,レイテンシを改善するエンジンのオンデバイス全体を最適化し,デプロイしました。
論文 参考訳(メタデータ) (2021-03-30T08:11:24Z) - Few-shot Compositional Font Generation with Dual Memory [16.967987801167514]
我々は、新しいフォント生成フレームワークDual Memory-augmented Font Generation Network (DM-Font)を提案する。
我々は、構成性を活用するために、メモリコンポーネントとグローバルコンテキスト認識をジェネレータに採用する。
韓国手書きフォントとタイ手書きフォントの実験では,本手法が忠実なスタイリングによるサンプルの品質を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2020-05-21T08:13:40Z) - Character-independent font identification [11.86456063377268]
2文字が同一フォントであるか否かを判定する手法を提案する。
我々は様々なフォントイメージペアで訓練された畳み込みニューラルネットワーク(CNN)を用いる。
次に、ネットワークに見つからないフォントの異なるセットでモデルを評価する。
論文 参考訳(メタデータ) (2020-01-24T05:59:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。