論文の概要: Zero-shot Generation of Training Data with Denoising Diffusion
Probabilistic Model for Handwritten Chinese Character Recognition
- arxiv url: http://arxiv.org/abs/2305.15660v1
- Date: Thu, 25 May 2023 02:13:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-26 17:52:45.064624
- Title: Zero-shot Generation of Training Data with Denoising Diffusion
Probabilistic Model for Handwritten Chinese Character Recognition
- Title(参考訳): 手書き漢字認識のための発声拡散確率モデルを用いた訓練データのゼロショット生成
- Authors: Dongnan Gui, Kai Chen, Haisong Ding and Qiang Huo
- Abstract要約: 中国語には8万種類以上あるが、ほとんど使われていない。
高性能な手書き文字認識システムを構築するためには,文字カテゴリ毎に多数のトレーニングサンプルを収集する必要がある。
フォントライブラリから生成した漢字グリフ画像を手書き文字に変換する新しい手法を提案する。
- 参考スコア(独自算出の注目度): 11.186226578337125
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: There are more than 80,000 character categories in Chinese while most of them
are rarely used. To build a high performance handwritten Chinese character
recognition (HCCR) system supporting the full character set with a traditional
approach, many training samples need be collected for each character category,
which is both time-consuming and expensive. In this paper, we propose a novel
approach to transforming Chinese character glyph images generated from font
libraries to handwritten ones with a denoising diffusion probabilistic model
(DDPM). Training from handwritten samples of a small character set, the DDPM is
capable of mapping printed strokes to handwritten ones, which makes it possible
to generate photo-realistic and diverse style handwritten samples of unseen
character categories. Combining DDPM-synthesized samples of unseen categories
with real samples of other categories, we can build an HCCR system to support
the full character set. Experimental results on CASIA-HWDB dataset with 3,755
character categories show that the HCCR systems trained with synthetic samples
perform similarly with the one trained with real samples in terms of
recognition accuracy. The proposed method has the potential to address HCCR
with a larger vocabulary.
- Abstract(参考訳): 中国語には8万以上の文字カテゴリがあるが、ほとんどは滅多に使われない。
従来の手法で全文字集合をサポートする高性能手書き文字認識(HCCR)システムを構築するためには,時間と費用のかかる各文字カテゴリに対して,多くのトレーニングサンプルを収集する必要がある。
本稿では,フォントライブラリから生成した漢字グリフ画像から,denoising diffusion probabilistic model (ddpm) を用いた手書き画像へ変換する新しい手法を提案する。
小さな文字セットの手書きサンプルからトレーニングすると、ddpmは印刷されたストロークを手書きにマッピングできるため、見えない文字カテゴリのフォトリアリスティックで多様な手書きサンプルを生成することができる。
DDPM合成された未確認カテゴリのサンプルと他のカテゴリの実際のサンプルを組み合わせることで、完全な文字集合をサポートするHCCRシステムを構築することができる。
CASIA-HWDBデータセットの3,755文字カテゴリによる実験結果から,合成サンプルで訓練したHCCRシステムは,認識精度の点で実サンプルで訓練したのと同様の性能を示した。
提案手法はHCCRにより大きな語彙で対応できる可能性がある。
関連論文リスト
- Boosting Semi-Supervised Scene Text Recognition via Viewing and Summarizing [71.29488677105127]
既存のシーンテキスト認識(STR)手法は、特に芸術的で歪んだ文字に対して、挑戦的なテキストを認識するのに苦労している。
人的コストを伴わずに、合成データと実際のラベルなしデータを活用して、対照的な学習ベースのSTRフレームワークを提案する。
本手法は,共通ベンチマークとUnion14M-Benchmarkで平均精度94.7%,70.9%のSOTA性能を実現する。
論文 参考訳(メタデータ) (2024-11-23T15:24:47Z) - MetaScript: Few-Shot Handwritten Chinese Content Generation via
Generative Adversarial Networks [15.037121719502606]
漢字のデジタル表現における個人的手書きスタイルの存在感の低下に対処する新しいコンテンツ生成システムであるMetaScriptを提案する。
本手法は,個人固有の手書きスタイルを保ち,デジタルタイピングの効率を維持できる漢字を生成するために,数ショット学習の力を利用する。
論文 参考訳(メタデータ) (2023-12-25T17:31:19Z) - Chinese Text Recognition with A Pre-Trained CLIP-Like Model Through
Image-IDS Aligning [61.34060587461462]
中国語テキスト認識(CTR)のための2段階フレームワークを提案する。
印刷文字画像とIdeographic Description Sequences (IDS) の整列によるCLIP様モデルの事前学習を行う。
この事前学習段階は、漢字を認識する人間をシミュレートし、各文字の標準表現を得る。
学習された表現はCTRモデルを監督するために使用され、従来の単一文字認識はテキストライン認識に改善される。
論文 参考訳(メタデータ) (2023-09-03T05:33:16Z) - Sampling and Ranking for Digital Ink Generation on a tight computational
budget [69.15275423815461]
トレーニングされたデジタルインク生成モデルの出力品質を最大化する方法について検討する。
我々は、デジタルインク領域におけるその種類に関する最初のアブレーション研究において、複数のサンプリングとランキング手法の効果を使用、比較する。
論文 参考訳(メタデータ) (2023-06-02T09:55:15Z) - Improving Handwritten OCR with Training Samples Generated by Glyph
Conditional Denoising Diffusion Probabilistic Model [10.239782333441031]
トレーニングサンプルを生成するための拡散確率モデル(DDPM)を提案する。
このモデルは、印刷された文字と手書き画像のマッピングを作成する。
合成画像は、必ずしもグリフ条件付き画像と一致しない。
本稿では,これらのサンプルをトレーニングセットに高い信頼性で付加するプログレッシブデータフィルタリング手法を提案する。
論文 参考訳(メタデータ) (2023-05-31T04:18:30Z) - Generating More Pertinent Captions by Leveraging Semantics and Style on
Multi-Source Datasets [56.018551958004814]
本稿では,データソースの非一様結合をトレーニングすることで,流動的な記述を生成するタスクに対処する。
ノイズの多い画像とテキストのペアを持つ大規模データセットは、サブ最適の監視源を提供する。
本稿では,検索コンポーネントから抽出したスタイルトークンとキーワードを組み込むことにより,セマンティクスと記述スタイルを活用・分離することを提案する。
論文 参考訳(メタデータ) (2021-11-24T19:00:05Z) - Lexically Aware Semi-Supervised Learning for OCR Post-Correction [90.54336622024299]
世界中の多くの言語における既存の言語データの多くは、非デジタル化された書籍や文書に閉じ込められている。
従来の研究は、あまり良くない言語を認識するためのニューラル・ポスト・コレクション法の有用性を実証してきた。
そこで本研究では,生画像を利用した半教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2021-11-04T04:39:02Z) - Scalable Font Reconstruction with Dual Latent Manifolds [55.29525824849242]
タイポグラフィー解析とフォント再構成を行う深層生成モデルを提案する。
このアプローチによって、効果的にモデル化できるキャラクタの種類を大規模にスケールアップすることが可能になります。
多くの言語の文字タイプを表す様々なデータセット上でフォント再構成のタスクを評価する。
論文 参考訳(メタデータ) (2021-09-10T20:37:43Z) - ZiGAN: Fine-grained Chinese Calligraphy Font Generation via a Few-shot
Style Transfer Approach [7.318027179922774]
ZiGANは、強力なエンドツーエンドの漢字フォント生成フレームワークである。
微粒なターゲットスタイルの文字を生成するために手動操作や冗長な前処理を一切必要としない。
提案手法は,数発の漢字スタイル転送における最先端の一般化能力を有する。
論文 参考訳(メタデータ) (2021-08-08T09:50:20Z) - Offline Handwritten Chinese Text Recognition with Convolutional Neural
Networks [5.984124397831814]
本稿では,畳み込みニューラルネットワークのみを用いてモデルを構築し,CTCを損失関数として利用する。
ICDAR 2013のコンペでは6.81%の文字誤り率(CER)を達成した。
論文 参考訳(メタデータ) (2020-06-28T14:34:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。