論文の概要: Sentence-level Online Handwritten Chinese Character Recognition
- arxiv url: http://arxiv.org/abs/2108.02561v1
- Date: Sun, 4 Jul 2021 14:26:06 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-08 11:00:57.841182
- Title: Sentence-level Online Handwritten Chinese Character Recognition
- Title(参考訳): 文レベルのオンライン手書き文字認識
- Authors: Yunxin Li, Qian Yang, Qingcai Chen, Lin Ma, Baotian Hu, Xiaolong Wang,
Yuxin Ding
- Abstract要約: 単一オンライン手書き文字認識(Single OLHCCR)は顕著な性能を発揮している。
実際のアプリケーションシナリオでは、ユーザは常に複数の漢字を書いて、1つの完全な文を作成します。
本稿では,文レベルのOLHCCRに対処するため,シンプルで簡単な合成ネットワークであるバニラ合成ネットワーク(VCN)を提案する。
また,文レベルOLHCCRのロバスト性を向上させるため,新しい深部時空間融合ネットワーク(DSTFN)を提案する。
- 参考スコア(独自算出の注目度): 36.57575120082676
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Single online handwritten Chinese character recognition~(single OLHCCR) has
achieved prominent performance. However, in real application scenarios, users
always write multiple Chinese characters to form one complete sentence and the
contextual information within these characters holds the significant potential
to improve the accuracy, robustness and efficiency of sentence-level OLHCCR. In
this work, we first propose a simple and straightforward end-to-end network,
namely vanilla compositional network~(VCN) to tackle the sentence-level OLHCCR.
It couples convolutional neural network with sequence modeling architecture to
exploit the handwritten character's previous contextual information. Although
VCN performs much better than the state-of-the-art single OLHCCR model, it
exposes high fragility when confronting with not well written characters such
as sloppy writing, missing or broken strokes. To improve the robustness of
sentence-level OLHCCR, we further propose a novel deep spatial-temporal fusion
network~(DSTFN). It utilizes a pre-trained autoregresssive framework as the
backbone component, which projects each Chinese character into word embeddings,
and integrates the spatial glyph features of handwritten characters and their
contextual information multiple times at multi-layer fusion module. We also
construct a large-scale sentence-level handwriting dataset, named as CSOHD to
evaluate models. Extensive experiment results demonstrate that DSTFN achieves
the state-of-the-art performance, which presents strong robustness compared
with VCN and exiting single OLHCCR models. The in-depth empirical analysis and
case studies indicate that DSTFN can significantly improve the efficiency of
handwriting input, with the handwritten Chinese character with incomplete
strokes being recognized precisely.
- Abstract(参考訳): シングルオンライン手書き漢字認識(single olhccr)は目覚ましい成果を上げている。
しかし、実際のアプリケーションシナリオでは、ユーザは常に複数の漢字を書いて1つの完全文を作成し、それらの文字内の文脈情報は、文レベルのOLHCCRの正確性、堅牢性、効率を向上させる重要な可能性を持っている。
本稿では,まず,文レベルのolhccrに取り組むための,単純で簡単なエンドツーエンドネットワークであるvanilla compositional network~(vcn)を提案する。
手書き文字の以前のコンテキスト情報を活用するために、畳み込みニューラルネットワークとシーケンスモデリングアーキテクチャを結合する。
VCNは最先端の単一OLHCCRモデルよりもはるかにパフォーマンスがよいが、スロッピーな書き込みや欠落、あるいは壊れたストロークといった、あまり書かれていない文字に直面すると、高い脆弱性が生じる。
文レベルOLHCCRのロバスト性を改善するために,新たに深部空間時間融合ネットワーク~(DSTFN)を提案する。
プリトレーニングされた自己回帰フレームワークをバックボーンコンポーネントとして使用し、各漢字を単語埋め込みに投影し、手書き文字の空間的グリフ特徴と文脈情報とを多層融合モジュールで複数回統合する。
また,CSOHDと呼ばれる大規模文レベル手書きデータセットを構築し,モデルの評価を行った。
広範な実験の結果、dstfnは、vcnや単一olhccrモデルと比較して強い堅牢性を示す最先端の性能を達成していることが示された。
深部における経験的分析とケーススタディにより,DSTFNは手書き入力の効率を大幅に向上し,不完全脳梗塞の字が正確に認識されることが示唆された。
関連論文リスト
- Detecting Document-level Paraphrased Machine Generated Content: Mimicking Human Writing Style and Involving Discourse Features [57.34477506004105]
機械生成コンテンツは、学術プラジャリズムや誤報の拡散といった課題を提起する。
これらの課題を克服するために、新しい方法論とデータセットを導入します。
人間の筆記スタイルをエミュレートするエンコーダデコーダモデルであるMhBARTを提案する。
また,PDTB前処理による談話解析を統合し,構造的特徴を符号化するモデルであるDTransformerを提案する。
論文 参考訳(メタデータ) (2024-12-17T08:47:41Z) - Online Writer Retrieval with Chinese Handwritten Phrases: A Synergistic Temporal-Frequency Representation Learning Approach [35.50318959678818]
DOLPHINは,相乗的時間周波数解析による手書き表現の向上を目的とした新しい検索モデルである。
OLIWER(OLIWER)は,1,731人から670,000以上の中国語の字句を含む大規模オンライン作家検索データセットである。
本研究は,手書き表現の質向上における点サンプリング周波数と圧力特性の重要性を強調した。
論文 参考訳(メタデータ) (2024-12-16T11:19:22Z) - Classification of Non-native Handwritten Characters Using Convolutional Neural Network [0.0]
非ネイティブユーザによる英語文字の分類は、カスタマイズされたCNNモデルを提案することによって行われる。
我々はこのCNNを、手書きの独立した英語文字データセットと呼ばれる新しいデータセットでトレーニングする。
5つの畳み込み層と1つの隠蔽層を持つモデルでは、文字認識精度において最先端モデルよりも優れる。
論文 参考訳(メタデータ) (2024-06-06T21:08:07Z) - MetaScript: Few-Shot Handwritten Chinese Content Generation via
Generative Adversarial Networks [15.037121719502606]
漢字のデジタル表現における個人的手書きスタイルの存在感の低下に対処する新しいコンテンツ生成システムであるMetaScriptを提案する。
本手法は,個人固有の手書きスタイルを保ち,デジタルタイピングの効率を維持できる漢字を生成するために,数ショット学習の力を利用する。
論文 参考訳(メタデータ) (2023-12-25T17:31:19Z) - Chinese Text Recognition with A Pre-Trained CLIP-Like Model Through
Image-IDS Aligning [61.34060587461462]
中国語テキスト認識(CTR)のための2段階フレームワークを提案する。
印刷文字画像とIdeographic Description Sequences (IDS) の整列によるCLIP様モデルの事前学習を行う。
この事前学習段階は、漢字を認識する人間をシミュレートし、各文字の標準表現を得る。
学習された表現はCTRモデルを監督するために使用され、従来の単一文字認識はテキストライン認識に改善される。
論文 参考訳(メタデータ) (2023-09-03T05:33:16Z) - Chinese Financial Text Emotion Mining: GCGTS -- A Character
Relationship-based Approach for Simultaneous Aspect-Opinion Pair Extraction [7.484918031250864]
中国の財務文献からのアスペクト・オピニオン・ペア抽出(AOPE)は、微粒テキスト感情分析の専門課題である。
従来の研究は主に、この抽出プロセスを容易にするためにグリッドモデル内のグリッドアノテーションスキームの開発に重点を置いてきた。
我々は、GCGTS(Graph-based Character-level Grid Tagging Scheme)と呼ばれる新しい手法を提案する。
GCGTS法は、グラフ畳み込みネットワーク(GCN)を用いた構文構造を明示的に取り入れ、同じ意味単位(中国語の単語レベル)内で文字の符号化を統一する。
論文 参考訳(メタデータ) (2023-08-04T02:20:56Z) - Cross-modality Data Augmentation for End-to-End Sign Language Translation [66.46877279084083]
エンドツーエンド手話翻訳(SLT)は、手話動画を中間表現なしで直接音声言語テキストに変換することを目的としている。
署名ビデオとテキスト間のモダリティのギャップとラベル付きデータの不足のため、これは難しい課題だった。
本稿では,強力な光沢からテキストへの翻訳機能をエンドツーエンドの手話翻訳に変換するための,新しいクロスモダリティデータ拡張(XmDA)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-18T16:34:18Z) - Letter-level Online Writer Identification [86.13203975836556]
我々は文字レベルのオンラインライタIDという新たな問題に焦点をあてる。
主な課題は、しばしば異なるスタイルで手紙を書くことである。
我々はこの問題をオンライン書記スタイルのばらつき(Var-O-Styles)と呼ぶ。
論文 参考訳(メタデータ) (2021-12-06T07:21:53Z) - PGNet: Real-time Arbitrarily-Shaped Text Spotting with Point Gathering
Network [54.03560668182197]
任意形状のテキストをリアルタイムで読み取るための,完全畳み込み点収集ネットワーク(PGNet)を提案する。
PG-CTCデコーダを用いて2次元空間から高レベル文字分類ベクトルを収集し,NMSやRoI操作を使わずにテキストシンボルに復号する。
実験により,提案手法は競争精度が向上し,走行速度が著しく向上することが確認された。
論文 参考訳(メタデータ) (2021-04-12T13:27:34Z) - Offline Handwritten Chinese Text Recognition with Convolutional Neural
Networks [5.984124397831814]
本稿では,畳み込みニューラルネットワークのみを用いてモデルを構築し,CTCを損失関数として利用する。
ICDAR 2013のコンペでは6.81%の文字誤り率(CER)を達成した。
論文 参考訳(メタデータ) (2020-06-28T14:34:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。