論文の概要: Hippocampus-heuristic Character Recognition Network for Zero-shot
Learning
- arxiv url: http://arxiv.org/abs/2104.02236v1
- Date: Tue, 6 Apr 2021 01:57:20 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-07 14:10:28.669252
- Title: Hippocampus-heuristic Character Recognition Network for Zero-shot
Learning
- Title(参考訳): ゼロショット学習のための海馬ヒューリスティック文字認識ネットワーク
- Authors: Shaowei Wang, Guanjie Huang, Xiangyu Luo
- Abstract要約: 本稿では,Hippocampus-heuristic character Recognition Network (HCRN)を提案する。
HCRNは、急進派の訓練によってのみ、目に見えない漢字(すなわちゼロショット学習)を認識できる。
正確に予測できる漢字は約16,330文字で、500文字しか訓練されていない。
- 参考スコア(独自算出の注目度): 3.720802292070508
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The recognition of Chinese characters has always been a challenging task due
to their huge variety and complex structures. The latest research proves that
such an enormous character set can be decomposed into a collection of about 500
fundamental Chinese radicals, and based on which this problem can be solved
effectively. While with the constant advent of novel Chinese characters, the
number of basic radicals is also expanding. The current methods that entirely
rely on existing radicals are not flexible for identifying these novel
characters and fail to recognize these Chinese characters without learning all
of their radicals in the training stage. To this end, this paper proposes a
novel Hippocampus-heuristic Character Recognition Network (HCRN), which
references the way of hippocampus thinking, and can recognize unseen Chinese
characters (namely zero-shot learning) only by training part of radicals. More
specifically, the network architecture of HCRN is a new pseudo-siamese network
designed by us, which can learn features from pairs of input training character
samples and use them to predict unseen Chinese characters. The experimental
results show that HCRN is robust and effective. It can accurately predict about
16,330 unseen testing Chinese characters relied on only 500 trained Chinese
characters. The recognition accuracy of HCRN outperforms the state-of-the-art
Chinese radical recognition approach by 15% (from 85.1% to 99.9%) for
recognizing unseen Chinese characters.
- Abstract(参考訳): 漢字認識は、その多種多様で複雑な構造のため、常に困難な課題であった。
最新の研究では、このような巨大な文字集合は、およそ500の基本的な中国根基の集合に分解でき、この問題を効果的に解決できることを示した。
新たな漢字が絶え間なく出現する一方で、基本根基の数が増加している。
既存のラジカルに完全に依存する現在の手法は、これらの新しい文字を識別するには柔軟性がなく、訓練段階でこれらの漢字を学習することなく認識することができない。
そこで本研究では,海馬の思考の方法に言及し,過激派の訓練によってのみ知覚されない漢字(いわゆるゼロショット学習)を認識できる新しい海馬・ヒューリスティック文字認識ネットワーク(hcrn)を提案する。
より具体的には、HCRNのネットワークアーキテクチャは、私たちによって設計された新しい擬似テーマネットワークであり、入力トレーニング文字のペアから特徴を学習し、それらを使って未知の漢字を予測することができる。
実験の結果,HCRNは堅牢で有効であることが示唆された。
正確に予測できる漢字は約16,330文字で、500文字しか訓練されていない。
HCRNの認識精度は、現在最先端の中国の急進的認識アプローチ(85.1%から99.9%)よりも15%高い。
関連論文リスト
- Chinese Text Recognition with A Pre-Trained CLIP-Like Model Through
Image-IDS Aligning [61.34060587461462]
中国語テキスト認識(CTR)のための2段階フレームワークを提案する。
印刷文字画像とIdeographic Description Sequences (IDS) の整列によるCLIP様モデルの事前学習を行う。
この事前学習段階は、漢字を認識する人間をシミュレートし、各文字の標準表現を得る。
学習された表現はCTRモデルを監督するために使用され、従来の単一文字認識はテキストライン認識に改善される。
論文 参考訳(メタデータ) (2023-09-03T05:33:16Z) - Shuo Wen Jie Zi: Rethinking Dictionaries and Glyphs for Chinese Language
Pre-training [50.100992353488174]
辞書知識と漢字の構造を持つ中国語PLMの意味理解能力を高める新しい学習パラダイムであるCDBERTを紹介する。
我々はCDBERTの2つの中核モジュールを Shuowen と Jiezi と名付け、そこで Shuowen は中国語辞書から最も適切な意味を取り出す過程を指す。
本パラダイムは,従来の中国語PLMのタスク間における一貫した改善を実証する。
論文 参考訳(メタデータ) (2023-05-30T05:48:36Z) - Chinese Character Recognition with Radical-Structured Stroke Trees [51.8541677234175]
我々は各漢字を,その根本的構造に従って整理されたストロークツリーとして表現する。
本稿では,2段階の分解フレームワークを提案し,特徴-ラディカルデコーダがラジカル構造とラジカル領域を知覚する。
Radical-to-Stroke Decoderはさらに、ラジカル領域の特徴に応じてストロークシーケンスを予測する。
論文 参考訳(メタデータ) (2022-11-24T10:28:55Z) - CSCD-IME: Correcting Spelling Errors Generated by Pinyin IME [50.68300047558986]
本稿では,Pinyin IME(CSCD-IME)によって生成された誤りに対する中国語のスペル補正データセットを提案する。
本研究では,Pinyin IMEを用いて入力をシミュレートすることで,大規模かつ高品質な擬似データを自動構築する手法を提案する。
また、データスケール、データソース、トレーニング戦略など、擬似データを使用するための有用なガイドも提供します。
論文 参考訳(メタデータ) (2022-11-16T09:25:42Z) - Stroke-Based Autoencoders: Self-Supervised Learners for Efficient
Zero-Shot Chinese Character Recognition [4.64065792373245]
我々は漢字の洗練された形態をモデル化するストロークベースのオートエンコーダを開発した。
我々のSAEアーキテクチャは、ゼロショット認識において、他の既存の手法よりも優れています。
論文 参考訳(メタデータ) (2022-07-17T14:39:10Z) - Native Chinese Reader: A Dataset Towards Native-Level Chinese Machine
Reading Comprehension [9.66226932673554]
ネイティブ・チャイニーズ・リーダー(Native Chinese Reader)は、現代中国語と古典中国語の両方で特に長い記事を載せた、新しい機械読解データセットである。
NCRは、中国の高校生の言語習熟度を評価するために設計された、中国の高校の中国語コースの試験質問から収集される。
論文 参考訳(メタデータ) (2021-12-13T09:11:38Z) - ChineseBERT: Chinese Pretraining Enhanced by Glyph and Pinyin
Information [32.70080326854314]
我々は,漢字のグリフとピニイン情報を事前学習に組み込んだ ChineseBERT を提案する。
提案した ChineseBERT モデルは,トレーニングステップの少ないベースラインモデルよりも大幅な性能向上を実現している。
論文 参考訳(メタデータ) (2021-06-30T13:06:00Z) - Zero-Shot Chinese Character Recognition with Stroke-Level Decomposition [37.808021793372504]
本稿では,各文字をストローク列に分解することで,ストロークに基づく手法を提案する。
我々は、予測されたストロークシーケンスを特定の文字に変換するためにマッチングベースの戦略を用いる。
提案手法は、文字をストロークに分解できる他の言語に容易に一般化できる。
論文 参考訳(メタデータ) (2021-06-22T08:49:03Z) - SHUOWEN-JIEZI: Linguistically Informed Tokenizers For Chinese Language
Model Pretraining [48.880840711568425]
事前学習された言語モデルの中国語トークン化に対する3つの要因の影響について検討する。
本稿では,発音に基づくトークン化システムであるSHUOWEN (Talk Word) と,グリフに基づくトークン化システムであるJIEZI (Solve Character) の3種類のトークン化手法を提案する。
SHUOWENとJIEZIは、一般的に従来のシングル文字トークンよりも優れた性能を持つ。
論文 参考訳(メタデータ) (2021-06-01T11:20:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。