論文の概要: Sentence-level Online Handwritten Chinese Character Recognition
- arxiv url: http://arxiv.org/abs/2108.02561v1
- Date: Sun, 4 Jul 2021 14:26:06 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-08 11:00:57.841182
- Title: Sentence-level Online Handwritten Chinese Character Recognition
- Title(参考訳): 文レベルのオンライン手書き文字認識
- Authors: Yunxin Li, Qian Yang, Qingcai Chen, Lin Ma, Baotian Hu, Xiaolong Wang,
Yuxin Ding
- Abstract要約: 単一オンライン手書き文字認識(Single OLHCCR)は顕著な性能を発揮している。
実際のアプリケーションシナリオでは、ユーザは常に複数の漢字を書いて、1つの完全な文を作成します。
本稿では,文レベルのOLHCCRに対処するため,シンプルで簡単な合成ネットワークであるバニラ合成ネットワーク(VCN)を提案する。
また,文レベルOLHCCRのロバスト性を向上させるため,新しい深部時空間融合ネットワーク(DSTFN)を提案する。
- 参考スコア(独自算出の注目度): 36.57575120082676
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Single online handwritten Chinese character recognition~(single OLHCCR) has
achieved prominent performance. However, in real application scenarios, users
always write multiple Chinese characters to form one complete sentence and the
contextual information within these characters holds the significant potential
to improve the accuracy, robustness and efficiency of sentence-level OLHCCR. In
this work, we first propose a simple and straightforward end-to-end network,
namely vanilla compositional network~(VCN) to tackle the sentence-level OLHCCR.
It couples convolutional neural network with sequence modeling architecture to
exploit the handwritten character's previous contextual information. Although
VCN performs much better than the state-of-the-art single OLHCCR model, it
exposes high fragility when confronting with not well written characters such
as sloppy writing, missing or broken strokes. To improve the robustness of
sentence-level OLHCCR, we further propose a novel deep spatial-temporal fusion
network~(DSTFN). It utilizes a pre-trained autoregresssive framework as the
backbone component, which projects each Chinese character into word embeddings,
and integrates the spatial glyph features of handwritten characters and their
contextual information multiple times at multi-layer fusion module. We also
construct a large-scale sentence-level handwriting dataset, named as CSOHD to
evaluate models. Extensive experiment results demonstrate that DSTFN achieves
the state-of-the-art performance, which presents strong robustness compared
with VCN and exiting single OLHCCR models. The in-depth empirical analysis and
case studies indicate that DSTFN can significantly improve the efficiency of
handwriting input, with the handwritten Chinese character with incomplete
strokes being recognized precisely.
- Abstract(参考訳): シングルオンライン手書き漢字認識(single olhccr)は目覚ましい成果を上げている。
しかし、実際のアプリケーションシナリオでは、ユーザは常に複数の漢字を書いて1つの完全文を作成し、それらの文字内の文脈情報は、文レベルのOLHCCRの正確性、堅牢性、効率を向上させる重要な可能性を持っている。
本稿では,まず,文レベルのolhccrに取り組むための,単純で簡単なエンドツーエンドネットワークであるvanilla compositional network~(vcn)を提案する。
手書き文字の以前のコンテキスト情報を活用するために、畳み込みニューラルネットワークとシーケンスモデリングアーキテクチャを結合する。
VCNは最先端の単一OLHCCRモデルよりもはるかにパフォーマンスがよいが、スロッピーな書き込みや欠落、あるいは壊れたストロークといった、あまり書かれていない文字に直面すると、高い脆弱性が生じる。
文レベルOLHCCRのロバスト性を改善するために,新たに深部空間時間融合ネットワーク~(DSTFN)を提案する。
プリトレーニングされた自己回帰フレームワークをバックボーンコンポーネントとして使用し、各漢字を単語埋め込みに投影し、手書き文字の空間的グリフ特徴と文脈情報とを多層融合モジュールで複数回統合する。
また,CSOHDと呼ばれる大規模文レベル手書きデータセットを構築し,モデルの評価を行った。
広範な実験の結果、dstfnは、vcnや単一olhccrモデルと比較して強い堅牢性を示す最先端の性能を達成していることが示された。
深部における経験的分析とケーススタディにより,DSTFNは手書き入力の効率を大幅に向上し,不完全脳梗塞の字が正確に認識されることが示唆された。
関連論文リスト
- Classification of Non-native Handwritten Characters Using Convolutional Neural Network [0.0]
非ネイティブユーザによる英語文字の分類は、カスタマイズされたCNNモデルを提案することによって行われる。
我々はこのCNNを、手書きの独立した英語文字データセットと呼ばれる新しいデータセットでトレーニングする。
5つの畳み込み層と1つの隠蔽層を持つモデルでは、文字認識精度において最先端モデルよりも優れる。
論文 参考訳(メタデータ) (2024-06-06T21:08:07Z) - MetaScript: Few-Shot Handwritten Chinese Content Generation via
Generative Adversarial Networks [15.037121719502606]
漢字のデジタル表現における個人的手書きスタイルの存在感の低下に対処する新しいコンテンツ生成システムであるMetaScriptを提案する。
本手法は,個人固有の手書きスタイルを保ち,デジタルタイピングの効率を維持できる漢字を生成するために,数ショット学習の力を利用する。
論文 参考訳(メタデータ) (2023-12-25T17:31:19Z) - Chinese Text Recognition with A Pre-Trained CLIP-Like Model Through
Image-IDS Aligning [61.34060587461462]
中国語テキスト認識(CTR)のための2段階フレームワークを提案する。
印刷文字画像とIdeographic Description Sequences (IDS) の整列によるCLIP様モデルの事前学習を行う。
この事前学習段階は、漢字を認識する人間をシミュレートし、各文字の標準表現を得る。
学習された表現はCTRモデルを監督するために使用され、従来の単一文字認識はテキストライン認識に改善される。
論文 参考訳(メタデータ) (2023-09-03T05:33:16Z) - Chinese Financial Text Emotion Mining: GCGTS -- A Character
Relationship-based Approach for Simultaneous Aspect-Opinion Pair Extraction [7.484918031250864]
中国の財務文献からのアスペクト・オピニオン・ペア抽出(AOPE)は、微粒テキスト感情分析の専門課題である。
従来の研究は主に、この抽出プロセスを容易にするためにグリッドモデル内のグリッドアノテーションスキームの開発に重点を置いてきた。
我々は、GCGTS(Graph-based Character-level Grid Tagging Scheme)と呼ばれる新しい手法を提案する。
GCGTS法は、グラフ畳み込みネットワーク(GCN)を用いた構文構造を明示的に取り入れ、同じ意味単位(中国語の単語レベル)内で文字の符号化を統一する。
論文 参考訳(メタデータ) (2023-08-04T02:20:56Z) - Cross-modality Data Augmentation for End-to-End Sign Language Translation [66.46877279084083]
エンドツーエンド手話翻訳(SLT)は、手話動画を中間表現なしで直接音声言語テキストに変換することを目的としている。
署名ビデオとテキスト間のモダリティのギャップとラベル付きデータの不足のため、これは難しい課題だった。
本稿では,強力な光沢からテキストへの翻訳機能をエンドツーエンドの手話翻訳に変換するための,新しいクロスモダリティデータ拡張(XmDA)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-18T16:34:18Z) - Continuous Offline Handwriting Recognition using Deep Learning Models [0.0]
手書き文字認識は、自動文書画像解析の分野に大きな関心を持つオープンな問題である。
我々は,畳み込みニューラルネットワーク(CNN)とシーケンス・ツー・シーケンス(seq2seq)という,2種類のディープラーニングアーキテクチャの統合に基づく新しい認識モデルを提案する。
提案した新たなモデルでは,他の確立された方法論と競合する結果が得られる。
論文 参考訳(メタデータ) (2021-12-26T07:31:03Z) - Letter-level Online Writer Identification [86.13203975836556]
我々は文字レベルのオンラインライタIDという新たな問題に焦点をあてる。
主な課題は、しばしば異なるスタイルで手紙を書くことである。
我々はこの問題をオンライン書記スタイルのばらつき(Var-O-Styles)と呼ぶ。
論文 参考訳(メタデータ) (2021-12-06T07:21:53Z) - Lexically Aware Semi-Supervised Learning for OCR Post-Correction [90.54336622024299]
世界中の多くの言語における既存の言語データの多くは、非デジタル化された書籍や文書に閉じ込められている。
従来の研究は、あまり良くない言語を認識するためのニューラル・ポスト・コレクション法の有用性を実証してきた。
そこで本研究では,生画像を利用した半教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2021-11-04T04:39:02Z) - PGNet: Real-time Arbitrarily-Shaped Text Spotting with Point Gathering
Network [54.03560668182197]
任意形状のテキストをリアルタイムで読み取るための,完全畳み込み点収集ネットワーク(PGNet)を提案する。
PG-CTCデコーダを用いて2次元空間から高レベル文字分類ベクトルを収集し,NMSやRoI操作を使わずにテキストシンボルに復号する。
実験により,提案手法は競争精度が向上し,走行速度が著しく向上することが確認された。
論文 参考訳(メタデータ) (2021-04-12T13:27:34Z) - Offline Handwritten Chinese Text Recognition with Convolutional Neural
Networks [5.984124397831814]
本稿では,畳み込みニューラルネットワークのみを用いてモデルを構築し,CTCを損失関数として利用する。
ICDAR 2013のコンペでは6.81%の文字誤り率(CER)を達成した。
論文 参考訳(メタデータ) (2020-06-28T14:34:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。