Fugu-MT 論文翻訳(概要): Sentence-level Online Handwritten Chinese Character Recognition

論文の概要: Sentence-level Online Handwritten Chinese Character Recognition

arxiv url: http://arxiv.org/abs/2108.02561v1
Date: Sun, 4 Jul 2021 14:26:06 GMT
ステータス: 翻訳完了
システム内更新日: 2021-08-08 11:00:57.841182
Title: Sentence-level Online Handwritten Chinese Character Recognition
Title（参考訳）: 文レベルのオンライン手書き文字認識
Authors: Yunxin Li, Qian Yang, Qingcai Chen, Lin Ma, Baotian Hu, Xiaolong Wang, Yuxin Ding
Abstract要約: 単一オンライン手書き文字認識(Single OLHCCR)は顕著な性能を発揮している。実際のアプリケーションシナリオでは、ユーザは常に複数の漢字を書いて、1つの完全な文を作成します。本稿では,文レベルのOLHCCRに対処するため,シンプルで簡単な合成ネットワークであるバニラ合成ネットワーク(VCN)を提案する。また,文レベルOLHCCRのロバスト性を向上させるため,新しい深部時空間融合ネットワーク(DSTFN)を提案する。
参考スコア（独自算出の注目度）: 36.57575120082676
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Single online handwritten Chinese character recognition~(single OLHCCR) has achieved prominent performance. However, in real application scenarios, users always write multiple Chinese characters to form one complete sentence and the contextual information within these characters holds the significant potential to improve the accuracy, robustness and efficiency of sentence-level OLHCCR. In this work, we first propose a simple and straightforward end-to-end network, namely vanilla compositional network~(VCN) to tackle the sentence-level OLHCCR. It couples convolutional neural network with sequence modeling architecture to exploit the handwritten character's previous contextual information. Although VCN performs much better than the state-of-the-art single OLHCCR model, it exposes high fragility when confronting with not well written characters such as sloppy writing, missing or broken strokes. To improve the robustness of sentence-level OLHCCR, we further propose a novel deep spatial-temporal fusion network~(DSTFN). It utilizes a pre-trained autoregresssive framework as the backbone component, which projects each Chinese character into word embeddings, and integrates the spatial glyph features of handwritten characters and their contextual information multiple times at multi-layer fusion module. We also construct a large-scale sentence-level handwriting dataset, named as CSOHD to evaluate models. Extensive experiment results demonstrate that DSTFN achieves the state-of-the-art performance, which presents strong robustness compared with VCN and exiting single OLHCCR models. The in-depth empirical analysis and case studies indicate that DSTFN can significantly improve the efficiency of handwriting input, with the handwritten Chinese character with incomplete strokes being recognized precisely.
Abstract（参考訳）: シングルオンライン手書き漢字認識(single olhccr)は目覚ましい成果を上げている。しかし、実際のアプリケーションシナリオでは、ユーザは常に複数の漢字を書いて1つの完全文を作成し、それらの文字内の文脈情報は、文レベルのOLHCCRの正確性、堅牢性、効率を向上させる重要な可能性を持っている。本稿では,まず,文レベルのolhccrに取り組むための,単純で簡単なエンドツーエンドネットワークであるvanilla compositional network~(vcn)を提案する。手書き文字の以前のコンテキスト情報を活用するために、畳み込みニューラルネットワークとシーケンスモデリングアーキテクチャを結合する。 VCNは最先端の単一OLHCCRモデルよりもはるかにパフォーマンスがよいが、スロッピーな書き込みや欠落、あるいは壊れたストロークといった、あまり書かれていない文字に直面すると、高い脆弱性が生じる。文レベルOLHCCRのロバスト性を改善するために,新たに深部空間時間融合ネットワーク~(DSTFN)を提案する。プリトレーニングされた自己回帰フレームワークをバックボーンコンポーネントとして使用し、各漢字を単語埋め込みに投影し、手書き文字の空間的グリフ特徴と文脈情報とを多層融合モジュールで複数回統合する。また,CSOHDと呼ばれる大規模文レベル手書きデータセットを構築し,モデルの評価を行った。広範な実験の結果、dstfnは、vcnや単一olhccrモデルと比較して強い堅牢性を示す最先端の性能を達成していることが示された。深部における経験的分析とケーススタディにより,DSTFNは手書き入力の効率を大幅に向上し,不完全脳梗塞の字が正確に認識されることが示唆された。

関連論文リスト

Performance Analysis of Few-Shot Learning Approaches for Bangla Handwritten Character and Digit Recognition [0.9895793818721335]
本研究は,Bangla手書き文字と数字の認識における数ショット学習手法の性能について検討する。本稿では,手書き文字と数字の認識精度を向上させるために設計されたハイブリッドネットワークであるSynergiProtoNetを紹介する。
論文参考訳（メタデータ） (2025-05-31T08:03:10Z)
Zero-Shot Chinese Character Recognition with Hierarchical Multi-Granularity Image-Text Aligning [52.92837273570818]
漢字は独特な構造と構成規則を示しており、表現にきめ細かい意味情報を使用することが可能である。コントラストパラダイムに基づく階層型多言語画像テキストアライニング(Hi-GITA)フレームワークを提案する。提案したHi-GITAは既存のゼロショットCCR法より優れている。
論文参考訳（メタデータ） (2025-05-30T17:39:14Z)
Detecting Document-level Paraphrased Machine Generated Content: Mimicking Human Writing Style and Involving Discourse Features [57.34477506004105]
機械生成コンテンツは、学術プラジャリズムや誤報の拡散といった課題を提起する。これらの課題を克服するために、新しい方法論とデータセットを導入します。人間の筆記スタイルをエミュレートするエンコーダデコーダモデルであるMhBARTを提案する。また,PDTB前処理による談話解析を統合し,構造的特徴を符号化するモデルであるDTransformerを提案する。
論文参考訳（メタデータ） (2024-12-17T08:47:41Z)
Online Writer Retrieval with Chinese Handwritten Phrases: A Synergistic Temporal-Frequency Representation Learning Approach [35.50318959678818]
DOLPHINは,相乗的時間周波数解析による手書き表現の向上を目的とした新しい検索モデルである。 OLIWER(OLIWER)は,1,731人から670,000以上の中国語の字句を含む大規模オンライン作家検索データセットである。本研究は,手書き表現の質向上における点サンプリング周波数と圧力特性の重要性を強調した。
論文参考訳（メタデータ） (2024-12-16T11:19:22Z)
Signs as Tokens: A Retrieval-Enhanced Multilingual Sign Language Generator [55.94334001112357]
テキスト入力から3Dサインアバターを自動回帰的に生成できる多言語手話モデルSigns as Tokens(SOKE)を導入する。単語レベルの正確な記号を提供するために,外部記号辞書を組み込んだ検索強化SLG手法を提案する。
論文参考訳（メタデータ） (2024-11-26T18:28:09Z)
Classification of Non-native Handwritten Characters Using Convolutional Neural Network [0.0]
非ネイティブユーザによる英語文字の分類は、カスタマイズされたCNNモデルを提案することによって行われる。我々はこのCNNを、手書きの独立した英語文字データセットと呼ばれる新しいデータセットでトレーニングする。 5つの畳み込み層と1つの隠蔽層を持つモデルでは、文字認識精度において最先端モデルよりも優れる。
論文参考訳（メタデータ） (2024-06-06T21:08:07Z)
MetaScript: Few-Shot Handwritten Chinese Content Generation via Generative Adversarial Networks [15.037121719502606]
漢字のデジタル表現における個人的手書きスタイルの存在感の低下に対処する新しいコンテンツ生成システムであるMetaScriptを提案する。本手法は,個人固有の手書きスタイルを保ち,デジタルタイピングの効率を維持できる漢字を生成するために,数ショット学習の力を利用する。
論文参考訳（メタデータ） (2023-12-25T17:31:19Z)
Chinese Text Recognition with A Pre-Trained CLIP-Like Model Through Image-IDS Aligning [61.34060587461462]
中国語テキスト認識(CTR)のための2段階フレームワークを提案する。印刷文字画像とIdeographic Description Sequences (IDS) の整列によるCLIP様モデルの事前学習を行う。この事前学習段階は、漢字を認識する人間をシミュレートし、各文字の標準表現を得る。学習された表現はCTRモデルを監督するために使用され、従来の単一文字認識はテキストライン認識に改善される。
論文参考訳（メタデータ） (2023-09-03T05:33:16Z)
Chinese Financial Text Emotion Mining: GCGTS -- A Character Relationship-based Approach for Simultaneous Aspect-Opinion Pair Extraction [7.484918031250864]
中国の財務文献からのアスペクト・オピニオン・ペア抽出(AOPE)は、微粒テキスト感情分析の専門課題である。従来の研究は主に、この抽出プロセスを容易にするためにグリッドモデル内のグリッドアノテーションスキームの開発に重点を置いてきた。我々は、GCGTS(Graph-based Character-level Grid Tagging Scheme)と呼ばれる新しい手法を提案する。 GCGTS法は、グラフ畳み込みネットワーク(GCN)を用いた構文構造を明示的に取り入れ、同じ意味単位(中国語の単語レベル)内で文字の符号化を統一する。
論文参考訳（メタデータ） (2023-08-04T02:20:56Z)
Cross-modality Data Augmentation for End-to-End Sign Language Translation [66.46877279084083]
エンドツーエンド手話翻訳(SLT)は、手話動画を中間表現なしで直接音声言語テキストに変換することを目的としている。署名ビデオとテキスト間のモダリティのギャップとラベル付きデータの不足のため、これは難しい課題だった。本稿では,強力な光沢からテキストへの翻訳機能をエンドツーエンドの手話翻訳に変換するための,新しいクロスモダリティデータ拡張(XmDA)フレームワークを提案する。
論文参考訳（メタデータ） (2023-05-18T16:34:18Z)
Continuous Offline Handwriting Recognition using Deep Learning Models [0.0]
手書き文字認識は、自動文書画像解析の分野に大きな関心を持つオープンな問題である。我々は,畳み込みニューラルネットワーク(CNN)とシーケンス・ツー・シーケンス(seq2seq)という,2種類のディープラーニングアーキテクチャの統合に基づく新しい認識モデルを提案する。提案した新たなモデルでは,他の確立された方法論と競合する結果が得られる。
論文参考訳（メタデータ） (2021-12-26T07:31:03Z)
Letter-level Online Writer Identification [86.13203975836556]
我々は文字レベルのオンラインライタIDという新たな問題に焦点をあてる。主な課題は、しばしば異なるスタイルで手紙を書くことである。我々はこの問題をオンライン書記スタイルのばらつき(Var-O-Styles)と呼ぶ。
論文参考訳（メタデータ） (2021-12-06T07:21:53Z)
Lexically Aware Semi-Supervised Learning for OCR Post-Correction [90.54336622024299]
世界中の多くの言語における既存の言語データの多くは、非デジタル化された書籍や文書に閉じ込められている。従来の研究は、あまり良くない言語を認識するためのニューラル・ポスト・コレクション法の有用性を実証してきた。そこで本研究では,生画像を利用した半教師付き学習手法を提案する。
論文参考訳（メタデータ） (2021-11-04T04:39:02Z)
PGNet: Real-time Arbitrarily-Shaped Text Spotting with Point Gathering Network [54.03560668182197]
任意形状のテキストをリアルタイムで読み取るための,完全畳み込み点収集ネットワーク(PGNet)を提案する。 PG-CTCデコーダを用いて2次元空間から高レベル文字分類ベクトルを収集し,NMSやRoI操作を使わずにテキストシンボルに復号する。実験により,提案手法は競争精度が向上し,走行速度が著しく向上することが確認された。
論文参考訳（メタデータ） (2021-04-12T13:27:34Z)
Offline Handwritten Chinese Text Recognition with Convolutional Neural Networks [5.984124397831814]
本稿では,畳み込みニューラルネットワークのみを用いてモデルを構築し,CTCを損失関数として利用する。 ICDAR 2013のコンペでは6.81%の文字誤り率(CER)を達成した。
論文参考訳（メタデータ） (2020-06-28T14:34:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。