論文の概要: Stroke-Based Autoencoders: Self-Supervised Learners for Efficient
Zero-Shot Chinese Character Recognition
- arxiv url: http://arxiv.org/abs/2207.08191v1
- Date: Sun, 17 Jul 2022 14:39:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-20 07:21:28.291298
- Title: Stroke-Based Autoencoders: Self-Supervised Learners for Efficient
Zero-Shot Chinese Character Recognition
- Title(参考訳): ストロークベースオートエンコーダ:効率的なゼロショット漢字認識のための自己教師付き学習者
- Authors: Zongze Chen and Wenxia Yang and Xin Li
- Abstract要約: 我々は漢字の洗練された形態をモデル化するストロークベースのオートエンコーダを開発した。
我々のSAEアーキテクチャは、ゼロショット認識において、他の既存の手法よりも優れています。
- 参考スコア(独自算出の注目度): 4.64065792373245
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Chinese characters carry a wealth of morphological and semantic information;
therefore, the semantic enhancement of the morphology of Chinese characters has
drawn significant attention. The previous methods were intended to directly
extract information from a whole Chinese character image, which usually cannot
capture both global and local information simultaneously. In this paper, we
develop a stroke-based autoencoder(SAE), to model the sophisticated morphology
of Chinese characters with the self-supervised method. Following its canonical
writing order, we first represent a Chinese character as a series of stroke
images with a fixed writing order, and then our SAE model is trained to
reconstruct this stroke image sequence. This pre-trained SAE model can predict
the stroke image series for unseen characters, as long as their strokes or
radicals appeared in the training set. We have designed two contrasting SAE
architectures on different forms of stroke images. One is fine-tuned on
existing stroke-based method for zero-shot recognition of handwritten Chinese
characters, and the other is applied to enrich the Chinese word embeddings from
their morphological features. The experimental results validate that after
pre-training, our SAE architecture outperforms other existing methods in
zero-shot recognition and enhances the representation of Chinese characters
with their abundant morphological and semantic information.
- Abstract(参考訳): 漢字は形態的・意味的情報を豊富に持っているため、意味的に漢字の形態が強化されることが注目されている。
従来の方法では,グローバルとローカルの両方の情報を同時に取得できない漢字画像から直接情報を抽出することを目的としていた。
本稿では,漢字の高度形態を自己教師方式でモデル化する,ストロークベースオートエンコーダ(SAE)を開発した。
その正準文字順に従って、まず、漢字を一定の文字順で一連のストローク画像として表現し、その後、このストローク画像列を再構築するために、我々のsaeモデルを訓練する。
この事前訓練されたSAEモデルは、トレーニングセットにストロークやラジカルが現れる限り、未知文字のストローク画像シリーズを予測することができる。
我々は,異なる形態のストローク画像に基づいて2つの対照的なSAEアーキテクチャを設計した。
手書き漢字のゼロショット認識のための既存のストローク法を微調整し、その形態的特徴から中国語単語の埋め込みを豊かにする。
実験の結果,SAEアーキテクチャは,事前学習後,ゼロショット認識において既存の手法よりも優れており,その形態的・意味的な情報によって漢字の表現が向上していることがわかった。
関連論文リスト
- Empowering Backbone Models for Visual Text Generation with Input Granularity Control and Glyph-Aware Training [68.41837295318152]
拡散に基づくテキスト・ツー・イメージモデルでは、多様性と美学の素晴らしい成果が示されているが、視覚的なテキストで画像を生成するのに苦労している。
既存のバックボーンモデルには、ミススペル、テキスト生成の失敗、中国語テキストのサポートの欠如といった制限がある。
本稿では,英語と中国語の視覚テキスト生成にバックボーンモデルを活用するための一連の手法を提案する。
論文 参考訳(メタデータ) (2024-10-06T10:25:39Z) - Pre-trained Language Models Do Not Help Auto-regressive Text-to-Image Generation [82.5217996570387]
我々は,自動回帰テキスト・画像生成のための事前学習言語モデルを適用した。
事前訓練された言語モデルは限られた助けを提供する。
論文 参考訳(メタデータ) (2023-11-27T07:19:26Z) - Chinese Text Recognition with A Pre-Trained CLIP-Like Model Through
Image-IDS Aligning [61.34060587461462]
中国語テキスト認識(CTR)のための2段階フレームワークを提案する。
印刷文字画像とIdeographic Description Sequences (IDS) の整列によるCLIP様モデルの事前学習を行う。
この事前学習段階は、漢字を認識する人間をシミュレートし、各文字の標準表現を得る。
学習された表現はCTRモデルを監督するために使用され、従来の単一文字認識はテキストライン認識に改善される。
論文 参考訳(メタデータ) (2023-09-03T05:33:16Z) - Orientation-Independent Chinese Text Recognition in Scene Images [61.34060587461462]
本研究は,テキスト画像のコンテンツと方向情報を切り離すことにより,向きに依存しない視覚特徴を抽出する試みである。
具体的には,不整合コンテンツと向き情報を用いて対応する文字イメージを復元する文字画像再構成ネットワーク(CIRN)を提案する。
論文 参考訳(メタデータ) (2023-09-03T05:30:21Z) - Stroke Extraction of Chinese Character Based on Deep Structure
Deformable Image Registration [25.49394055539858]
本稿では,意味的特徴と先行情報を考慮に入れた深層学習に基づく文字ストローク抽出手法を提案する。
本手法は、基準ストロークとターゲットの粗大な登録を事前情報として確立する画像登録ベースストローク登録と、予めターゲットストロークを7つのカテゴリに分けた画像意味セグメンテーションベースのストロークセグメンテーションと、単一ストロークの高精度抽出とからなる。
本研究では, 複雑な構造を持つ文字画像に対して, 単一ストロークの安定な形態を維持しつつ, 構造変形可能な変換を実現する構造変形可能な画像登録ネットワークを提案する。
論文 参考訳(メタデータ) (2023-07-10T04:50:17Z) - Single-Stream Multi-Level Alignment for Vision-Language Pretraining [103.09776737512078]
モーダルを複数のレベルで整列させる単一ストリームモデルを提案する。
対称的相互モダリティ再構築と擬似ラベル付きキーワード予測という2つの新しいタスクを用いてこれを実現する。
我々は、ゼロショット/ファインチューニングされた画像/テキスト検索、参照表現、VQAといった一連の視覚言語タスクにおいて、トップパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-03-27T21:16:10Z) - GlyphCRM: Bidirectional Encoder Representation for Chinese Character
with its Glyph [31.723483415041347]
以前は、漢字のグリフには豊かな意味情報が含まれていることが示唆されていた。
我々は,Glyph CRMという名前の中国語事前学習表現モデルを提案する。
IDベースの文字埋め込みを放棄するが、シーケンシャルな文字画像のみをベースとしている。
論文 参考訳(メタデータ) (2021-07-01T12:14:05Z) - ChineseBERT: Chinese Pretraining Enhanced by Glyph and Pinyin
Information [32.70080326854314]
我々は,漢字のグリフとピニイン情報を事前学習に組み込んだ ChineseBERT を提案する。
提案した ChineseBERT モデルは,トレーニングステップの少ないベースラインモデルよりも大幅な性能向上を実現している。
論文 参考訳(メタデータ) (2021-06-30T13:06:00Z) - SHUOWEN-JIEZI: Linguistically Informed Tokenizers For Chinese Language
Model Pretraining [48.880840711568425]
事前学習された言語モデルの中国語トークン化に対する3つの要因の影響について検討する。
本稿では,発音に基づくトークン化システムであるSHUOWEN (Talk Word) と,グリフに基づくトークン化システムであるJIEZI (Solve Character) の3種類のトークン化手法を提案する。
SHUOWENとJIEZIは、一般的に従来のシングル文字トークンよりも優れた性能を持つ。
論文 参考訳(メタデータ) (2021-06-01T11:20:02Z) - CalliGAN: Style and Structure-aware Chinese Calligraphy Character
Generator [6.440233787863018]
書道(きゅうりょう)とは、筆で行う芸術形式としての漢字の書法である。
近年の研究では、1つのモデルを用いて複数のスタイルのイメージ・ツー・イメージ翻訳によって漢字を生成することができることが示されている。
そこで本研究では,漢字の成分情報をモデルに組み込んだ新しい手法を提案する。
論文 参考訳(メタデータ) (2020-05-26T03:15:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。