論文の概要: Chinese Text Recognition with A Pre-Trained CLIP-Like Model Through
Image-IDS Aligning
- arxiv url: http://arxiv.org/abs/2309.01083v1
- Date: Sun, 3 Sep 2023 05:33:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-06 21:45:02.966814
- Title: Chinese Text Recognition with A Pre-Trained CLIP-Like Model Through
Image-IDS Aligning
- Title(参考訳): 画像IDS調整によるCLIP様モデルの中国語テキスト認識
- Authors: Haiyang Yu, Xiaocong Wang, Bin Li, Xiangyang Xue
- Abstract要約: 中国語テキスト認識(CTR)のための2段階フレームワークを提案する。
印刷文字画像とIdeographic Description Sequences (IDS) の整列によるCLIP様モデルの事前学習を行う。
この事前学習段階は、漢字を認識する人間をシミュレートし、各文字の標準表現を得る。
学習された表現はCTRモデルを監督するために使用され、従来の単一文字認識はテキストライン認識に改善される。
- 参考スコア(独自算出の注目度): 61.34060587461462
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scene text recognition has been studied for decades due to its broad
applications. However, despite Chinese characters possessing different
characteristics from Latin characters, such as complex inner structures and
large categories, few methods have been proposed for Chinese Text Recognition
(CTR). Particularly, the characteristic of large categories poses challenges in
dealing with zero-shot and few-shot Chinese characters. In this paper, inspired
by the way humans recognize Chinese texts, we propose a two-stage framework for
CTR. Firstly, we pre-train a CLIP-like model through aligning printed character
images and Ideographic Description Sequences (IDS). This pre-training stage
simulates humans recognizing Chinese characters and obtains the canonical
representation of each character. Subsequently, the learned representations are
employed to supervise the CTR model, such that traditional single-character
recognition can be improved to text-line recognition through image-IDS
matching. To evaluate the effectiveness of the proposed method, we conduct
extensive experiments on both Chinese character recognition (CCR) and CTR. The
experimental results demonstrate that the proposed method performs best in CCR
and outperforms previous methods in most scenarios of the CTR benchmark. It is
worth noting that the proposed method can recognize zero-shot Chinese
characters in text images without fine-tuning, whereas previous methods require
fine-tuning when new classes appear. The code is available at
https://github.com/FudanVI/FudanOCR/tree/main/image-ids-CTR.
- Abstract(参考訳): シーンテキスト認識は、その幅広い応用のために何十年も研究されてきた。
しかし、複雑な内部構造や大きなカテゴリなど、ラテン文字とは異なる特徴を持つ漢字であっても、中国語テキスト認識(CTR)にはほとんど方法が提案されていない。
特に、大きなカテゴリの特徴は、ゼロショットと少数ショットの漢字を扱う上で問題となる。
本稿では,人間が漢文を認識する方法に触発されて,CTRの2段階フレームワークを提案する。
まず、印刷された文字画像とIdeographic Description Sequences (IDS)を調整してCLIPのようなモデルを事前訓練する。
この事前学習段階は、漢字を認識する人間をシミュレートし、各文字の標準表現を得る。
その後、学習した表現を用いてCTRモデルを監督し、従来の単一文字認識を画像-IDSマッチングによるテキストライン認識に改善する。
提案手法の有効性を評価するため,中国語の文字認識(CCR)とCTRの両方について広範な実験を行った。
実験の結果,提案手法はCCRにおいて最良であり,CTRベンチマークのほとんどのシナリオにおいて先行手法よりも優れていた。
提案手法はテキスト画像中のゼロショット漢字を微調整なしで認識できるが,従来の手法では新しいクラスが現れると微調整が必要であった。
コードはhttps://github.com/FudanVI/FudanOCR/tree/main/image-ids-CTRで公開されている。
関連論文リスト
- Decoder Pre-Training with only Text for Scene Text Recognition [54.93037783663204]
シーンテキスト認識(STR)事前学習法は,主に合成データセットに依存し,顕著な進歩を遂げている。
STR(DPTR)用テキストのみを用いたDecoder Pre-trainingという新しい手法を提案する。
DPTRはCLIPテキストエンコーダが生成したテキスト埋め込みを擬似視覚埋め込みとして扱い、デコーダの事前訓練に使用する。
論文 参考訳(メタデータ) (2024-08-11T06:36:42Z) - HierCode: A Lightweight Hierarchical Codebook for Zero-shot Chinese Text Recognition [47.86479271322264]
我々は,漢字の自然的階層性を利用した,新規で軽量なコードブックであるHierCodeを提案する。
HierCodeは階層的なバイナリツリーエンコーディングとプロトタイプ学習を活用して、各文字に特徴的な情報表現を生成するマルチホットエンコーディング戦略を採用している。
このアプローチは、共有ラジカルと構造を利用してOOV文字のゼロショット認識を促進するだけでなく、視覚的特徴と類似性を計算することでラインレベルの認識タスクも優れている。
論文 参考訳(メタデータ) (2024-03-20T17:20:48Z) - Orientation-Independent Chinese Text Recognition in Scene Images [61.34060587461462]
本研究は,テキスト画像のコンテンツと方向情報を切り離すことにより,向きに依存しない視覚特徴を抽出する試みである。
具体的には,不整合コンテンツと向き情報を用いて対応する文字イメージを復元する文字画像再構成ネットワーク(CIRN)を提案する。
論文 参考訳(メタデータ) (2023-09-03T05:30:21Z) - Zero-shot Generation of Training Data with Denoising Diffusion
Probabilistic Model for Handwritten Chinese Character Recognition [11.186226578337125]
中国語には8万種類以上あるが、ほとんど使われていない。
高性能な手書き文字認識システムを構築するためには,文字カテゴリ毎に多数のトレーニングサンプルを収集する必要がある。
フォントライブラリから生成した漢字グリフ画像を手書き文字に変換する新しい手法を提案する。
論文 参考訳(メタデータ) (2023-05-25T02:13:37Z) - Stroke-Based Autoencoders: Self-Supervised Learners for Efficient
Zero-Shot Chinese Character Recognition [4.64065792373245]
我々は漢字の洗練された形態をモデル化するストロークベースのオートエンコーダを開発した。
我々のSAEアーキテクチャは、ゼロショット認識において、他の既存の手法よりも優れています。
論文 参考訳(メタデータ) (2022-07-17T14:39:10Z) - SVTR: Scene Text Recognition with a Single Visual Model [44.26135584093631]
パッチワイド画像トークン化フレームワークにおいて,シーンテキスト認識のための単一ビジュアルモデルを提案する。
SVTRと呼ばれるこの方法は、まずイメージテキストを小さなパッチに分解する。
英語と中国語の両方のシーンテキスト認識タスクの実験結果から,SVTRの有効性が示された。
論文 参考訳(メタデータ) (2022-04-30T04:37:01Z) - CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。
CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。
提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-11-30T07:29:08Z) - TextScanner: Reading Characters in Order for Robust Scene Text
Recognition [60.04267660533966]
TextScannerはシーンテキスト認識の代替手法である。
文字クラス、位置、順序に対する画素単位のマルチチャネルセグメンテーションマップを生成する。
また、コンテキストモデリングにRNNを採用し、文字の位置とクラスを並列で予測する。
論文 参考訳(メタデータ) (2019-12-28T07:52:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。