論文の概要: Content and Style Aware Generation of Text-line Images for Handwriting
Recognition
- arxiv url: http://arxiv.org/abs/2204.05539v1
- Date: Tue, 12 Apr 2022 05:52:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-13 13:11:50.461529
- Title: Content and Style Aware Generation of Text-line Images for Handwriting
Recognition
- Title(参考訳): 手書き認識のためのテキスト行画像の内容とスタイル認識
- Authors: Lei Kang, Pau Riba, Mar\c{c}al Rusi\~nol, Alicia Forn\'es, Mauricio
Villegas
- Abstract要約: 視覚的外観とテキストコンテンツの両方を条件とした手書きテキストライン画像の生成法を提案する。
本手法では,多彩な手書きスタイルの長いテキストラインサンプルを作成できる。
- 参考スコア(独自算出の注目度): 4.301658883577544
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Handwritten Text Recognition has achieved an impressive performance in public
benchmarks. However, due to the high inter- and intra-class variability between
handwriting styles, such recognizers need to be trained using huge volumes of
manually labeled training data. To alleviate this labor-consuming problem,
synthetic data produced with TrueType fonts has been often used in the training
loop to gain volume and augment the handwriting style variability. However,
there is a significant style bias between synthetic and real data which hinders
the improvement of recognition performance. To deal with such limitations, we
propose a generative method for handwritten text-line images, which is
conditioned on both visual appearance and textual content. Our method is able
to produce long text-line samples with diverse handwriting styles. Once
properly trained, our method can also be adapted to new target data by only
accessing unlabeled text-line images to mimic handwritten styles and produce
images with any textual content. Extensive experiments have been done on making
use of the generated samples to boost Handwritten Text Recognition performance.
Both qualitative and quantitative results demonstrate that the proposed
approach outperforms the current state of the art.
- Abstract(参考訳): 手書きテキスト認識は、公開ベンチマークで素晴らしいパフォーマンスを達成した。
しかし、手書きスタイル間の高いクラス間およびクラス内変動のため、このような認識器は大量の手書きラベル付きトレーニングデータを用いて訓練する必要がある。
この手間の軽減のために、truetypeフォントで生成された合成データはしばしばトレーニングループで使用され、ボリュームを獲得し、手書きスタイルの変化性を高める。
しかし、認識性能の向上を妨げる合成データと実データの間には、重要なスタイルバイアスがある。
このような制約に対処するため,視覚的外観とテキストコンテンツの両方を条件とした手書きテキストライン画像の生成手法を提案する。
本手法では,筆跡の異なる長いテキストラインサンプルを作成できる。
本手法は,手書きのスタイルを模倣し,任意のテキストコンテンツで画像を生成するために,ラベルのないテキストライン画像にのみアクセスすることで,新たなターゲットデータに適応することができる。
生成したサンプルを用いて手書き文字認識性能を向上させる実験が数多く行われている。
定性的かつ定量的な結果は,提案手法が現状よりも優れていることを示している。
関連論文リスト
- DiffusionPen: Towards Controlling the Style of Handwritten Text Generation [7.398476020996681]
DiffusionPen (DiffPen) は遅延拡散モデルに基づく5ショットスタイルの手書きテキスト生成手法である。
提案手法は,文字と文体の特徴の両面を抽出し,現実的な手書きサンプルを生成する。
提案手法は,既存の手法を質的かつ定量的に上回り,その付加データにより手書き文字認識(HTR)システムの性能を向上させることができる。
論文 参考訳(メタデータ) (2024-09-09T20:58:25Z) - Efficiently Leveraging Linguistic Priors for Scene Text Spotting [63.22351047545888]
本稿では,大規模テキストコーパスから言語知識を活用する手法を提案する。
シーンテキストデータセットとよく一致したテキスト分布を生成し、ドメイン内の微調整の必要性を取り除く。
実験結果から,本手法は認識精度を向上するだけでなく,単語のより正確な局所化を可能にすることが示された。
論文 参考訳(メタデータ) (2024-02-27T01:57:09Z) - Seek for Incantations: Towards Accurate Text-to-Image Diffusion
Synthesis through Prompt Engineering [118.53208190209517]
本稿では,拡散モデルの適切なテキスト記述を即時学習により学習するフレームワークを提案する。
提案手法は,入力されたテキストと生成された画像とのマッチングを改善するためのプロンプトを効果的に学習することができる。
論文 参考訳(メタデータ) (2024-01-12T03:46:29Z) - WordStylist: Styled Verbatim Handwritten Text Generation with Latent
Diffusion Models [8.334487584550185]
単語レベルに基づくテキスト・テキスト・コンテンツ・イメージ生成のための遅延拡散に基づく手法を提案する。
提案手法は,異なる書き手スタイルからリアルな単語画像のサンプルを生成することができる。
提案モデルでは,美的満足度の高いサンプルを作成し,テキスト認識性能の向上に寄与し,類似の文字検索スコアを実データとして得られることを示す。
論文 参考訳(メタデータ) (2023-03-29T10:19:26Z) - Boosting Modern and Historical Handwritten Text Recognition with
Deformable Convolutions [52.250269529057014]
自由進化ページにおける手書き文字認識(HTR)は難しい画像理解課題である。
本稿では,手入力に応じて変形し,テキストの幾何学的変化に適応できる変形可能な畳み込みを導入することを提案する。
論文 参考訳(メタデータ) (2022-08-17T06:55:54Z) - Reading and Writing: Discriminative and Generative Modeling for
Self-Supervised Text Recognition [101.60244147302197]
テキスト画像の識別と生成を学習するために,コントラスト学習とマスク付き画像モデリングを導入する。
本手法は,不規則なシーンテキスト認識データセットにおいて,従来の自己教師付きテキスト認識手法を10.2%~20.2%向上させる。
提案したテキスト認識器は,11のベンチマークで平均5.3%の精度で従来のテキスト認識手法を上回り,モデルサイズが類似している。
論文 参考訳(メタデータ) (2022-07-01T03:50:26Z) - SLOGAN: Handwriting Style Synthesis for Arbitrary-Length and
Out-of-Vocabulary Text [35.83345711291558]
本稿では,任意の長文と語彙外文に対して,パラメータ化および制御可能な手書きスタイルを合成する手法を提案する。
我々は、容易に入手可能な印刷スタイルの画像を提供することで、テキストコンテンツを埋め込むことにより、コンテンツの多様性を柔軟に達成することができる。
本手法は,学習語彙に含まれない単語を,様々な新しいスタイルで合成することができる。
論文 参考訳(メタデータ) (2022-02-23T12:13:27Z) - SmartPatch: Improving Handwritten Word Imitation with Patch
Discriminators [67.54204685189255]
本稿では,現在の最先端手法の性能を向上させる新手法であるSmartPatchを提案する。
我々は、よく知られたパッチ損失と、平行訓練された手書きテキスト認識システムから収集された情報を組み合わせる。
これにより、より強化された局所識別器が実現し、より現実的で高品質な手書き文字が生成される。
論文 参考訳(メタデータ) (2021-05-21T18:34:21Z) - One-shot Compositional Data Generation for Low Resource Handwritten Text
Recognition [10.473427493876422]
低リソース手書きテキスト認識は、わずかな注釈付きデータと非常に限られた言語情報のために難しい問題です。
本稿では,ベイズプログラム学習に基づくデータ生成手法を用いてこの問題に対処する。
大量の注釈付き画像を必要とする従来型の手法とは対照的に,各記号のサンプルを1つだけ,所望のアルファベットから生成することが可能である。
論文 参考訳(メタデータ) (2021-05-11T18:53:01Z) - Separating Content from Style Using Adversarial Learning for Recognizing
Text in the Wild [103.51604161298512]
画像中の複数の文字の生成と認識のための逆学習フレームワークを提案する。
我々のフレームワークは、新しい最先端の認識精度を達成するために、最近の認識手法に統合することができる。
論文 参考訳(メタデータ) (2020-01-13T12:41:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。