論文の概要: Focus on the Whole Character: Discriminative Character Modeling for Scene Text Recognition
- arxiv url: http://arxiv.org/abs/2407.05562v1
- Date: Mon, 8 Jul 2024 02:33:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-09 17:19:52.463194
- Title: Focus on the Whole Character: Discriminative Character Modeling for Scene Text Recognition
- Title(参考訳): 全文字に焦点をあてて:シーンテキスト認識のための識別的文字モデリング
- Authors: Bangbang Zhou, Yadong Qu, Zixiao Wang, Zicheng Li, Boqiang Zhang, Hongtao Xie,
- Abstract要約: 文字の特徴を豊かにし,文字の識別性を向上する手法を提案する。
CACEは各ブロックに崩壊行列を導入し、各トークンの注意領域を明示的に案内する。
I2CLは、各文字カテゴリの長期記憶ユニットを学習することで、特徴の非ネイティブ性を改善する。
- 参考スコア(独自算出の注目度): 28.93482989766411
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, scene text recognition (STR) models have shown significant performance improvements. However, existing models still encounter difficulties in recognizing challenging texts that involve factors such as severely distorted and perspective characters. These challenging texts mainly cause two problems: (1) Large Intra-Class Variance. (2) Small Inter-Class Variance. An extremely distorted character may prominently differ visually from other characters within the same category, while the variance between characters from different classes is relatively small. To address the above issues, we propose a novel method that enriches the character features to enhance the discriminability of characters. Firstly, we propose the Character-Aware Constraint Encoder (CACE) with multiple blocks stacked. CACE introduces a decay matrix in each block to explicitly guide the attention region for each token. By continuously employing the decay matrix, CACE enables tokens to perceive morphological information at the character level. Secondly, an Intra-Inter Consistency Loss (I^2CL) is introduced to consider intra-class compactness and inter-class separability at feature space. I^2CL improves the discriminative capability of features by learning a long-term memory unit for each character category. Trained with synthetic data, our model achieves state-of-the-art performance on common benchmarks (94.1% accuracy) and Union14M-Benchmark (61.6% accuracy). Code is available at https://github.com/bang123-box/CFE.
- Abstract(参考訳): 近年,シーンテキスト認識(STR)モデルの性能が大幅に向上している。
しかし、既存のモデルは深刻な歪曲や視点文字などの要因を含む難解なテキストを認識するのに依然として困難に直面している。
これらの挑戦的なテキストは、主に2つの問題を引き起こしている。
(2)小規模クラス間分散。
非常に歪んだキャラクタは同じカテゴリ内の他のキャラクタと視覚的に異なる場合があるが、異なるクラスのキャラクタ間のばらつきは比較的小さい。
上記の課題に対処するため,文字の識別性を高めるために,文字の特徴を充実させる手法を提案する。
まず,複数のブロックを積み重ねた文字認識制約エンコーダ(CACE)を提案する。
CACEは各ブロックに崩壊行列を導入し、各トークンの注意領域を明示的に案内する。
崩壊行列を連続的に利用することにより、CACEはトークンが文字レベルで形態情報を知覚することを可能にする。
第2に、クラス内コンパクト性と特徴空間におけるクラス間分離性を検討するために、I^2CL(Inter-Inter Consistency Loss)を導入する。
I^2CLは、各文字カテゴリの長期記憶ユニットを学習することにより、特徴の識別能力を向上させる。
合成データを用いて学習し、一般的なベンチマーク(94.1%の精度)とUnion14M-Benchmark(61.6%の精度)で最先端のパフォーマンスを達成する。
コードはhttps://github.com/bang123-box/CFEで入手できる。
関連論文リスト
- Boosting Semi-Supervised Scene Text Recognition via Viewing and Summarizing [71.29488677105127]
既存のシーンテキスト認識(STR)手法は、特に芸術的で歪んだ文字に対して、挑戦的なテキストを認識するのに苦労している。
人的コストを伴わずに、合成データと実際のラベルなしデータを活用して、対照的な学習ベースのSTRフレームワークを提案する。
本手法は,共通ベンチマークとUnion14M-Benchmarkで平均精度94.7%,70.9%のSOTA性能を実現する。
論文 参考訳(メタデータ) (2024-11-23T15:24:47Z) - KNN Transformer with Pyramid Prompts for Few-Shot Learning [52.735070934075736]
Few-Shot Learningはラベル付きデータで新しいクラスを認識することを目的としている。
近年の研究では、視覚的特徴を調節するためのテキストプロンプトを用いたまれなサンプルの課題に対処しようと試みている。
論文 参考訳(メタデータ) (2024-10-14T07:39:30Z) - Finetuning CLIP to Reason about Pairwise Differences [52.028073305958074]
本稿では,CLIPのような視覚言語モデルの学習手法を提案する。
我々はまず,ある属性による画像のランク付け能力を大幅に向上させることを実証した。
また、得られる埋め込みは埋め込み空間においてより大きな幾何学的性質に従うことを示す。
論文 参考訳(メタデータ) (2024-09-15T13:02:14Z) - MARS: Paying more attention to visual attributes for text-based person search [6.438244172631555]
本稿ではMARS(Mae-Attribute-Relation-Sensitive)という新しいTBPSアーキテクチャを提案する。
ビジュアルレコンストラクションロスと属性ロスという2つの重要なコンポーネントを導入することで、現在の最先端モデルを強化する。
CUHK-PEDES、ICFG-PEDES、RSTPReidの3つの一般的なデータセットの実験では、パフォーマンス改善が報告されている。
論文 参考訳(メタデータ) (2024-07-05T06:44:43Z) - C-LLM: Learn to Check Chinese Spelling Errors Character by Character [61.53865964535705]
本稿では,C-LLMを提案する。C-LLMは,文字による誤り文字のチェックを学習する中国語のスペルチェック手法である。
C-LLMは既存の方法よりも平均10%改善する。
論文 参考訳(メタデータ) (2024-06-24T11:16:31Z) - Deep Learning-Driven Approach for Handwritten Chinese Character Classification [0.0]
手書き文字認識は、機械学習研究者にとって難しい問題である。
多数のユニークな文字クラスが存在するため、ロジカルスクリプトや中韓文字シーケンスのようなデータによっては、HCR問題に新たな複雑さをもたらす。
本稿では、モデルアーキテクチャ、データ前処理ステップ、設計手順のテストを導入し、詳細な文字画像分類のための高度にスケーラブルなアプローチを提案する。
論文 参考訳(メタデータ) (2024-01-30T15:29:32Z) - SEER-ZSL: Semantic Encoder-Enhanced Representations for Generalized
Zero-Shot Learning [0.7420433640907689]
一般化ゼロショット学習(GZSL)は、見知らぬクラスから知識を伝達することで、目に見えないクラスを認識する。
本稿では,一般化ギャップに対処するための二重戦略を提案する。
論文 参考訳(メタデータ) (2023-12-20T15:18:51Z) - TagCLIP: Improving Discrimination Ability of Open-Vocabulary Semantic Segmentation [53.974228542090046]
対照的に、CLIP(Contrastive Language- Image Pre-Training)は、最近、ピクセルレベルのゼロショット学習タスクにおいて大きな可能性を示している。
CLIPのテキストとパッチの埋め込みを利用してセマンティックマスクを生成する既存のアプローチは、しばしば目に見えないクラスから入力ピクセルを誤識別する。
この問題に対処するためにTagCLIP(Trusty-aware guideed CLIP)を提案する。
論文 参考訳(メタデータ) (2023-04-15T12:52:23Z) - CDistNet: Perceiving Multi-Domain Character Distance for Robust Text
Recognition [87.3894423816705]
本稿では,MDCDP (Multi-Domain Character Distance Perception) と呼ばれる新しいモジュールを提案する。
MDCDPは位置埋め込みを使用して、クロスアテンションメカニズムに従って視覚的特徴と意味的特徴の両方を問合せする。
我々は、複数のMDCDPを積み重ねたCDistNetを開発し、徐々に正確な距離モデリングをガイドする。
論文 参考訳(メタデータ) (2021-11-22T06:27:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。