論文の概要: HierCode: A Lightweight Hierarchical Codebook for Zero-shot Chinese Text Recognition
- arxiv url: http://arxiv.org/abs/2403.13761v1
- Date: Wed, 20 Mar 2024 17:20:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-21 15:58:55.823221
- Title: HierCode: A Lightweight Hierarchical Codebook for Zero-shot Chinese Text Recognition
- Title(参考訳): HierCode: ゼロショット中国語テキスト認識のための軽量階層型コードブック
- Authors: Yuyi Zhang, Yuanzhi Zhu, Dezhi Peng, Peirong Zhang, Zhenhua Yang, Zhibo Yang, Cong Yao, Lianwen Jin,
- Abstract要約: 我々は,漢字の自然的階層性を利用した,新規で軽量なコードブックであるHierCodeを提案する。
HierCodeは階層的なバイナリツリーエンコーディングとプロトタイプ学習を活用して、各文字に特徴的な情報表現を生成するマルチホットエンコーディング戦略を採用している。
このアプローチは、共有ラジカルと構造を利用してOOV文字のゼロショット認識を促進するだけでなく、視覚的特徴と類似性を計算することでラインレベルの認識タスクも優れている。
- 参考スコア(独自算出の注目度): 47.86479271322264
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text recognition, especially for complex scripts like Chinese, faces unique challenges due to its intricate character structures and vast vocabulary. Traditional one-hot encoding methods struggle with the representation of hierarchical radicals, recognition of Out-Of-Vocabulary (OOV) characters, and on-device deployment due to their computational intensity. To address these challenges, we propose HierCode, a novel and lightweight codebook that exploits the innate hierarchical nature of Chinese characters. HierCode employs a multi-hot encoding strategy, leveraging hierarchical binary tree encoding and prototype learning to create distinctive, informative representations for each character. This approach not only facilitates zero-shot recognition of OOV characters by utilizing shared radicals and structures but also excels in line-level recognition tasks by computing similarity with visual features, a notable advantage over existing methods. Extensive experiments across diverse benchmarks, including handwritten, scene, document, web, and ancient text, have showcased HierCode's superiority for both conventional and zero-shot Chinese character or text recognition, exhibiting state-of-the-art performance with significantly fewer parameters and fast inference speed.
- Abstract(参考訳): 特に中国語のような複雑な文字に対するテキスト認識は、複雑な文字構造と膨大な語彙のために、独特な課題に直面している。
従来のワンホット符号化法は、階層的根基の表現、Of-Vocabulary(OOV)文字の認識、計算強度によるデバイス上の展開に苦慮している。
これらの課題に対処するために,漢字の自然的階層性を利用した新鮮で軽量なコードブックであるHierCodeを提案する。
HierCodeは階層的なバイナリツリーエンコーディングとプロトタイプ学習を活用して、各文字に特徴的な情報表現を生成するマルチホットエンコーディング戦略を採用している。
このアプローチは、共有ラジカルと構造を利用することでOOV文字のゼロショット認識を促進するだけでなく、視覚的特徴との類似性を計算することでラインレベルの認識タスクも優れている。
手書き、シーン、ドキュメント、ウェブ、古代のテキストを含む様々なベンチマークにわたる広範な実験は、従来の文字認識とゼロショットの文字認識の両方において、HierCodeの優位性を示し、パラメータが大幅に少なく、推論速度が速い最先端のパフォーマンスを示した。
関連論文リスト
- Chinese Text Recognition with A Pre-Trained CLIP-Like Model Through
Image-IDS Aligning [61.34060587461462]
中国語テキスト認識(CTR)のための2段階フレームワークを提案する。
印刷文字画像とIdeographic Description Sequences (IDS) の整列によるCLIP様モデルの事前学習を行う。
この事前学習段階は、漢字を認識する人間をシミュレートし、各文字の標準表現を得る。
学習された表現はCTRモデルを監督するために使用され、従来の単一文字認識はテキストライン認識に改善される。
論文 参考訳(メタデータ) (2023-09-03T05:33:16Z) - DTrOCR: Decoder-only Transformer for Optical Character Recognition [0.0]
我々は,光文字認識用デコーダのみ変換器(DTrOCR)と呼ばれる,テキスト認識のためのよりシンプルで効果的な方法を提案する。
この方法は、デコーダのみのトランスフォーマーを使用して、大きなコーパスで事前訓練された生成言語モデルを活用する。
我々の実験では、DTrOCRは、英語と中国語の両方で印刷、手書き、シーンテキストの認識において、最先端の手法よりもはるかに優れていることを示した。
論文 参考訳(メタデータ) (2023-08-30T12:37:03Z) - Learning Generative Structure Prior for Blind Text Image
Super-resolution [153.05759524358467]
我々は、キャラクター構造にもっと焦点をあてた小説を提示する。
StyleGANの生成空間を制限するため、各文字の離散的な特徴をコードブックに格納する。
提案した構造は, 従来より強い文字特異的指導を行い, 指定された文字の忠実で正確なストロークを復元する。
論文 参考訳(メタデータ) (2023-03-26T13:54:28Z) - Enhancing Indic Handwritten Text Recognition Using Global Semantic
Information [36.01828106385858]
Indicの手書きテキストを認識するために,グローバルな意味情報を抽出するために,エンコーダ・デコーダフレームワークのセマンティックモジュールを使用する。
提案するフレームワークは、10のIndic言語で書かれた手書きテキストに対して最先端の結果を得る。
論文 参考訳(メタデータ) (2022-12-15T12:53:26Z) - MaskOCR: Text Recognition with Masked Encoder-Decoder Pretraining [68.05105411320842]
本稿では,従来のエンコーダ・デコーダ認識フレームワークにおいて,視覚と言語を事前学習するための新しいアプローチであるMaskOCRを提案する。
マスク付き画像モデリング手法を用いて、未ラベルのテキスト画像の集合を用いて特徴エンコーダを事前学習する。
テキストデータを合成されたテキスト画像に変換し、視覚と言語のデータモダリティを統一し、シーケンスデコーダの言語モデリング能力を向上する。
論文 参考訳(メタデータ) (2022-06-01T08:27:19Z) - Dual Encoding for Video Retrieval by Text [49.34356217787656]
本稿では,ビデオやクエリを独自の高密度表現に符号化する2つのディープエンコーディングネットワークを提案する。
まず、特定のシングルレベルエンコーダを利用する先行技術と異なり、提案するネットワークはマルチレベルエンコーダを実行する。
第2に、概念ベースまたは潜在空間ベースのいずれかである従来の共通空間学習アルゴリズムとは異なり、ハイブリッド空間学習を導入する。
論文 参考訳(メタデータ) (2020-09-10T15:49:39Z) - Neural Computing for Online Arabic Handwriting Character Recognition
using Hard Stroke Features Mining [0.0]
オンラインアラビア文字認識における書字ストローク特徴の垂直方向と水平方向から所望の臨界点を検出する方法を提案する。
バックプロパゲーション学習アルゴリズムと修正シグモイド関数に基づくアクティベーション関数を備えた多層パーセプトロンを用いて、文字の分類のためにこれらのトークンから最小の特徴セットを抽出する。
提案手法は,文字認識技術に匹敵する98.6%の平均精度を実現する。
論文 参考訳(メタデータ) (2020-05-02T23:17:08Z) - Separating Content from Style Using Adversarial Learning for Recognizing
Text in the Wild [103.51604161298512]
画像中の複数の文字の生成と認識のための逆学習フレームワークを提案する。
我々のフレームワークは、新しい最先端の認識精度を達成するために、最近の認識手法に統合することができる。
論文 参考訳(メタデータ) (2020-01-13T12:41:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。