論文の概要: Handwritten text generation and strikethrough characters augmentation
- arxiv url: http://arxiv.org/abs/2112.07395v1
- Date: Tue, 14 Dec 2021 13:41:10 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-15 16:00:41.152171
- Title: Handwritten text generation and strikethrough characters augmentation
- Title(参考訳): 手書きテキスト生成とストライクスルー文字拡張
- Authors: Alex Shonenkov, Denis Karachev, Max Novopoltsev, Mark Potanin, Denis
Dimitrov, Andrey Chertok
- Abstract要約: 本稿では,Resnet-BiLSTM-CTCネットワークを用いて,単語誤り率(WER)と文字誤り率(CER)を大幅に低減する2つのデータ拡張手法を提案する。
印刷テキスト(StackMix)に基づくストライクテキスト(HandWritten Blots)と手書きテキスト生成をシミュレートする新しい拡張手法を適用する。
10個の手書きテキストデータセットの実験では、HandWritten Blots拡張とStackMixがHTRモデルの品質を大幅に改善した。
- 参考スコア(独自算出の注目度): 0.04893345190925178
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce two data augmentation techniques, which, used with a
Resnet-BiLSTM-CTC network, significantly reduce Word Error Rate (WER) and
Character Error Rate (CER) beyond best-reported results on handwriting text
recognition (HTR) tasks. We apply a novel augmentation that simulates
strikethrough text (HandWritten Blots) and a handwritten text generation method
based on printed text (StackMix), which proved to be very effective in HTR
tasks. StackMix uses weakly-supervised framework to get character boundaries.
Because these data augmentation techniques are independent of the network used,
they could also be applied to enhance the performance of other networks and
approaches to HTR. Extensive experiments on ten handwritten text datasets show
that HandWritten Blots augmentation and StackMix significantly improve the
quality of HTR models
- Abstract(参考訳): 本稿では,Resnet-BiLSTM-CTCネットワークを用いて,文字誤り率(WER)と文字誤り率(CER)を,手書き文字認識(HTR)タスクにおいて最もよく報告された結果よりも大幅に低減する2つのデータ拡張手法を提案する。
本研究では,HTRタスクにおいて非常に有効であることが判明した,ストライクスルーテキスト(HandWritten Blots)と印刷テキスト(StackMix)に基づく手書きテキスト生成手法を適用した。
StackMixは、弱い教師付きフレームワークを使用して文字境界を取得する。
これらのデータ拡張技術は使用されるネットワークとは独立しているため、他のネットワークの性能向上やHTRへのアプローチにも応用できる。
10個の手書きテキストデータセットの大規模な実験により、HandWritten Blots augmentationとStackMixはHTRモデルの品質を大幅に改善した。
関連論文リスト
- DiffusionPen: Towards Controlling the Style of Handwritten Text Generation [7.398476020996681]
DiffusionPen (DiffPen) は遅延拡散モデルに基づく5ショットスタイルの手書きテキスト生成手法である。
提案手法は,文字と文体の特徴の両面を抽出し,現実的な手書きサンプルを生成する。
提案手法は,既存の手法を質的かつ定量的に上回り,その付加データにより手書き文字認識(HTR)システムの性能を向上させることができる。
論文 参考訳(メタデータ) (2024-09-09T20:58:25Z) - Text2Data: Low-Resource Data Generation with Textual Control [104.38011760992637]
自然言語は、人間が機械とシームレスに対話するための共通かつ直接的な制御信号として機能する。
ラベルのないデータを用いて教師なし拡散モデルを用いて基礎となるデータ分布を理解する新しいアプローチであるText2Dataを提案する。
制御性を確保し、破滅的な忘れを効果的に防止する、新しい制約最適化ベースの学習目標を通じて制御可能な微調整を行う。
論文 参考訳(メタデータ) (2024-02-08T03:41:39Z) - Boosting Punctuation Restoration with Data Generation and Reinforcement
Learning [70.26450819702728]
触覚回復は自動音声認識(ASR)における重要な課題である
テキストの句読点とASRテキストとの相違は、ASRテキストの句読点復元システムのトレーニングにおいて、テキストのユーザビリティを制限している。
本稿では,このギャップを埋めるために,話題内テキストを活用した強化学習手法と大規模事前学習型生成言語モデルの最近の進歩を提案する。
論文 参考訳(メタデータ) (2023-07-24T17:22:04Z) - TextDiffuser: Diffusion Models as Text Painters [118.30923824681642]
我々は、背景に忠実な視覚的に魅力的なテキストで画像を生成することに焦点を当てたTextDiffuserを紹介した。
我々は,OCRアノテーションを用いた最初の大規模テキスト画像データセットであるMARIO-10Mに,1000万の画像テキストペアをコントリビュートする。
テキストプロンプトのみまたはテキストテンプレート画像と併用して高品質なテキスト画像を作成し,テキストによる不完全な画像の再構成を行う,テキストディフューザは柔軟かつ制御可能であることを示す。
論文 参考訳(メタデータ) (2023-05-18T10:16:19Z) - StackMix and Blot Augmentations for Handwritten Text Recognition [0.0]
本稿では,ニューラルネットワークのアーキテクチャと,列車データ量を増やすための2つの方法について述べる。
StackMixは、印刷されたテキストに基づいて手書きテキストを編集するスタンドアロンタスクにも適用できる。
論文 参考訳(メタデータ) (2021-08-26T09:28:22Z) - SmartPatch: Improving Handwritten Word Imitation with Patch
Discriminators [67.54204685189255]
本稿では,現在の最先端手法の性能を向上させる新手法であるSmartPatchを提案する。
我々は、よく知られたパッチ損失と、平行訓練された手書きテキスト認識システムから収集された情報を組み合わせる。
これにより、より強化された局所識別器が実現し、より現実的で高品質な手書き文字が生成される。
論文 参考訳(メタデータ) (2021-05-21T18:34:21Z) - PGNet: Real-time Arbitrarily-Shaped Text Spotting with Point Gathering
Network [54.03560668182197]
任意形状のテキストをリアルタイムで読み取るための,完全畳み込み点収集ネットワーク(PGNet)を提案する。
PG-CTCデコーダを用いて2次元空間から高レベル文字分類ベクトルを収集し,NMSやRoI操作を使わずにテキストシンボルに復号する。
実験により,提案手法は競争精度が向上し,走行速度が著しく向上することが確認された。
論文 参考訳(メタデータ) (2021-04-12T13:27:34Z) - Be More with Less: Hypergraph Attention Networks for Inductive Text
Classification [56.98218530073927]
グラフニューラルネットワーク(GNN)は、研究コミュニティで注目され、この標準タスクで有望な結果を実証している。
成功にもかかわらず、それらのパフォーマンスは、単語間の高次相互作用をキャプチャできないため、実際は大部分が危険に晒される可能性がある。
本稿では,テキスト表現学習において,少ない計算量でより表現力の高いハイパーグラフアテンションネットワーク(HyperGAT)を提案する。
論文 参考訳(メタデータ) (2020-11-01T00:21:59Z) - EASTER: Efficient and Scalable Text Recognizer [0.0]
本稿では,機械印刷版と手書き版の両方で光学文字認識を行うための高能率かつスケーラブルなTExt認識器(EASTER)を提案する。
このモデルでは1次元畳み込み層を再帰なく利用し,データ量を大幅に削減した並列トレーニングを実現している。
また、オフライン手書きテキスト認識タスクにおいて、現在の最良の結果よりも改善点を示す。
論文 参考訳(メタデータ) (2020-08-18T10:26:03Z) - ScrabbleGAN: Semi-Supervised Varying Length Handwritten Text Generation [0.9542023122304099]
ScrabbleGANは手書きテキストイメージを半教師付きで合成する手法である。
ScrabbleGANは任意の長さの単語の画像を生成する新しい生成モデルに依存している。
論文 参考訳(メタデータ) (2020-03-23T21:41:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。