論文の概要: Multi-Modal Character Localization and Extraction for Chinese Text Recognition
- arxiv url: http://arxiv.org/abs/2603.13886v1
- Date: Sat, 14 Mar 2026 10:53:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:35.468738
- Title: Multi-Modal Character Localization and Extraction for Chinese Text Recognition
- Title(参考訳): 中国語テキスト認識のためのマルチモーダル文字の局所化と抽出
- Authors: Qilong Li, Chongsheng Zhang,
- Abstract要約: 本稿では,各文字を明示的に分離し,文字を独立に認識するLERという新しい手法を提案する。
LERは、中国語の複雑な内部構造を考慮し、テキスト予測結果を提供する。
6つの英語のベンチマークとUnion14Mベンチマークで実施された実験は、LERによる英語のテキスト認識において印象的な結果を示した。
- 参考スコア(独自算出の注目度): 2.9818717410831392
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Scene text recognition (STR) methods have demonstrated their excellent capability in English text images. However, due to the complex inner structures of Chinese and the extensive character categories, it poses challenges for recognizing Chinese text in images. Recently, studies have shown that the methods designed for English text recognition encounter an accuracy bottleneck when recognizing Chinese text images. This raises the question: Is it appropriate to apply the model developed for English to the Chinese STR task? To explore this issue, we propose a novel method named LER, which explicitly decouples each character and independently recognizes characters while taking into account the complex inner structures of Chinese. LER consists of three modules: Localization, Extraction, and Recognition. Firstly, the localization module utilizes multimodal information to determine the character's position precisely. Then, the extraction module dissociates all characters in parallel. Finally, the recognition module considers the unique inner structures of Chinese to provide the text prediction results. Extensive experiments conducted on large-scale Chinese benchmarks indicate that our method significantly outperforms existing methods. Furthermore, extensive experiments conducted on six English benchmarks and the Union14M benchmark show impressive results in English text recognition by LER. Code is available at https://github.com/Pandarenlql/LER.
- Abstract(参考訳): Scene Text Recognition (STR) 法は、英語のテキスト画像において、その優れた能力を実証している。
しかし、中国語の複雑な内部構造と広範囲の文字カテゴリーにより、画像中の中国語の文字を認識する上での課題が生じる。
近年,中国語のテキスト画像を認識する際に,英語のテキスト認識のための手法が精度のボトルネックに直面していることが研究で示されている。
これは、中国語のSTRタスクに英語で開発されたモデルを適用するのが適切か、という疑問を提起する。
そこで本研究では,中国語の複雑な内部構造を考慮しつつ,各文字を明示的に分離し,文字を独立に認識するLERという手法を提案する。
LERは、ローカライゼーション、抽出、認識の3つのモジュールで構成されている。
まず、ローカライゼーションモジュールはマルチモーダル情報を用いて文字の位置を正確に決定する。
そして、抽出モジュールは、すべての文字を並列に解離する。
最後に、認識モジュールは中国語の独特の内部構造を考慮し、テキスト予測結果を提供する。
大規模な中国のベンチマークで行った大規模な実験から,本手法は既存手法よりも大幅に優れていたことが示唆された。
さらに、6つの英語のベンチマークとUnion14Mベンチマークで実施された広範な実験は、LERによる英語のテキスト認識において印象的な結果を示している。
コードはhttps://github.com/Pandarenlql/LERで入手できる。
関連論文リスト
- Beyond Cropped Regions: New Benchmark and Corresponding Baseline for Chinese Scene Text Retrieval in Diverse Layouts [2.9100667158464035]
中国語のシーンテキスト検索は,中国語のクェリテキストの視覚的な例を含む画像の検索を目的とした実践的なタスクである。
現在の努力は、英語のシーンテキスト検索のソリューションを継承する傾向にあり、十分な性能を達成できなかった。
我々は,グローバルな視覚情報と多粒性アライメントトレーニングを統合する新しいモデルである中国語シーンテキスト検索CLIP(CSTR-CLIP)を提案する。
論文 参考訳(メタデータ) (2025-06-05T13:10:17Z) - Zero-Shot Chinese Character Recognition with Hierarchical Multi-Granularity Image-Text Aligning [52.92837273570818]
漢字は独特な構造と構成規則を示しており、表現にきめ細かい意味情報を使用することが可能である。
コントラストパラダイムに基づく階層型多言語画像テキストアライニング(Hi-GITA)フレームワークを提案する。
提案したHi-GITAは既存のゼロショットCCR法より優れている。
論文 参考訳(メタデータ) (2025-05-30T17:39:14Z) - Decomposed Prompting: Probing Multilingual Linguistic Structure Knowledge in Large Language Models [54.58989938395976]
本稿では,シーケンスラベリングタスクに対する分割プロンプト手法を提案する。
提案手法は,38言語を対象としたUniversal Dependencies part-of-speech Taggedについて検証する。
論文 参考訳(メタデータ) (2024-02-28T15:15:39Z) - Chinese Text Recognition with A Pre-Trained CLIP-Like Model Through
Image-IDS Aligning [61.34060587461462]
中国語テキスト認識(CTR)のための2段階フレームワークを提案する。
印刷文字画像とIdeographic Description Sequences (IDS) の整列によるCLIP様モデルの事前学習を行う。
この事前学習段階は、漢字を認識する人間をシミュレートし、各文字の標準表現を得る。
学習された表現はCTRモデルを監督するために使用され、従来の単一文字認識はテキストライン認識に改善される。
論文 参考訳(メタデータ) (2023-09-03T05:33:16Z) - Orientation-Independent Chinese Text Recognition in Scene Images [61.34060587461462]
本研究は,テキスト画像のコンテンツと方向情報を切り離すことにより,向きに依存しない視覚特徴を抽出する試みである。
具体的には,不整合コンテンツと向き情報を用いて対応する文字イメージを復元する文字画像再構成ネットワーク(CIRN)を提案する。
論文 参考訳(メタデータ) (2023-09-03T05:30:21Z) - A Benchmark for Chinese-English Scene Text Image Super-resolution [15.042152725255171]
Scene Text Image Super- resolution (STISR) は、低解像度(LR)入力から視覚的に快適で読みやすいテキストコンテンツで高解像度(HR)のテキストイメージを復元することを目的としている。
現存する作品の多くは、比較的単純な文字構造を持つ英語のテキストの復元に重点を置いている。
我々は,STISRのタスクに対して,実世界の中国語と英語のベンチマークデータセットであるReal-CEを提案する。
論文 参考訳(メタデータ) (2023-08-07T02:57:48Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - Benchmarking Chinese Text Recognition: Datasets, Baselines, and an
Empirical Study [25.609450020149637]
既存のテキスト認識法は主に英語のテキスト用であるが、中国語のテキストの重要な役割は無視されている。
公開のコンペ、プロジェクト、論文から中国語のテキストデータセットを手作業で収集し、それらをシーン、Web、ドキュメント、手書きデータセットの4つのカテゴリに分けます。
実験結果を解析することにより、中国語のシナリオにおいて、英語のテキストを認識するための最先端のベースラインがうまく機能しないことを驚くほど観察する。
論文 参考訳(メタデータ) (2021-12-30T15:30:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。