論文の概要: Class-Aware Mask-Guided Feature Refinement for Scene Text Recognition
- arxiv url: http://arxiv.org/abs/2402.13643v1
- Date: Wed, 21 Feb 2024 09:22:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-22 16:08:01.339755
- Title: Class-Aware Mask-Guided Feature Refinement for Scene Text Recognition
- Title(参考訳): シーンテキスト認識のためのクラス対応マスクガイド機能強化
- Authors: Mingkun Yang, Biao Yang, Minghui Liao, Yingying Zhu, Xiang Bai
- Abstract要約: CAM(Class-Aware Mask-Guided Feature refinement)と呼ばれる新しい手法を提案する。
本手法では,背景およびテキストスタイルのノイズを抑制するために,標準クラス対応グリフマスクを導入している。
標準マスク特徴とテキスト特徴とのアライメントを強化することにより、モジュールはより効果的な融合を保証する。
- 参考スコア(独自算出の注目度): 56.968108142307976
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scene text recognition is a rapidly developing field that faces numerous
challenges due to the complexity and diversity of scene text, including complex
backgrounds, diverse fonts, flexible arrangements, and accidental occlusions.
In this paper, we propose a novel approach called Class-Aware Mask-guided
feature refinement (CAM) to address these challenges. Our approach introduces
canonical class-aware glyph masks generated from a standard font to effectively
suppress background and text style noise, thereby enhancing feature
discrimination. Additionally, we design a feature alignment and fusion module
to incorporate the canonical mask guidance for further feature refinement for
text recognition. By enhancing the alignment between the canonical mask feature
and the text feature, the module ensures more effective fusion, ultimately
leading to improved recognition performance. We first evaluate CAM on six
standard text recognition benchmarks to demonstrate its effectiveness.
Furthermore, CAM exhibits superiority over the state-of-the-art method by an
average performance gain of 4.1% across six more challenging datasets, despite
utilizing a smaller model size. Our study highlights the importance of
incorporating canonical mask guidance and aligned feature refinement techniques
for robust scene text recognition. The code is available at
https://github.com/MelosY/CAM.
- Abstract(参考訳): シーンテキスト認識は、複雑な背景、多様なフォント、柔軟な配置、偶発的な閉塞など、シーンテキストの複雑さと多様性のために多くの課題に直面している。
本稿では,これらの課題に対処するために,CAM(Class-Aware Mask-guided Feature refinement)と呼ばれる新しいアプローチを提案する。
提案手法では,標準フォントから生成した標準クラス対応グリフマスクを導入し,背景およびテキストスタイルのノイズを効果的に抑制し,特徴識別を向上する。
さらに,テキスト認識のための機能改良のために,正準マスクガイダンスを組み込む機能アライメントと融合モジュールを設計した。
標準マスク機能とテキスト機能とのアライメントを強化することで、モジュールはより効果的な融合を保証し、最終的に認識性能が向上する。
CAMを6つの標準テキスト認識ベンチマークで評価し,その有効性を実証した。
さらに、CAMはモデルサイズが小さいにもかかわらず、6つの挑戦的なデータセットに対して平均4.1%の性能向上による最先端手法よりも優れている。
本研究は,ロバストなシーンテキスト認識のための標準マスクガイダンスと機能改良手法を取り入れることの重要性を強調する。
コードはhttps://github.com/MelosY/CAMで公開されている。
関連論文リスト
- TextMaster: Universal Controllable Text Edit [5.7173370525015095]
本研究では,任意のシナリオや画像領域において,テキストを高いリアリズムと適切なレイアウトで正確に編集できるTextMasterを提案する。
本手法では,トレーニングの指導として適応標準文字スペーシングを用い,テキスト位置やサイズ情報の漏洩を防止するために適応マスクブースティングを用いる。
テキスト編集領域に高解像度の標準フォント情報を注入し,知覚的損失を付与することにより,テキストのレンダリング精度と忠実度をさらに向上する。
論文 参考訳(メタデータ) (2024-10-13T15:39:39Z) - Text-Guided Video Masked Autoencoder [12.321239366215426]
本稿では,ペア字幕に高い対応で映像領域をマスキングする新しいテキスト誘導マスキングアルゴリズム(TGM)を提案する。
既存のマスキングアルゴリズム、統一MAE、マスキングビデオテキストコントラスト学習により、純粋なMAEと比較して下流性能が向上することを示す。
論文 参考訳(メタデータ) (2024-08-01T17:58:19Z) - MTA-CLIP: Language-Guided Semantic Segmentation with Mask-Text Alignment [53.235290505274676]
CLIPのような大規模視覚言語モデルはセマンティックセグメンテーションのパフォーマンスを向上させることができる。
マスクレベルの視覚言語アライメントを利用した新しいフレームワークであるMTA-CLIPを紹介する。
MTA-CLIPは最先端を達成し、ベンチマークデータセットで平均2.8%と1.3%の先行研究を上回っている。
論文 参考訳(メタデータ) (2024-07-31T14:56:42Z) - Improving Face Recognition from Caption Supervision with Multi-Granular
Contextual Feature Aggregation [0.0]
我々は,COTS(Commercial-off-the-Shelf)顔認識システムの性能向上のための新しいフレームワークとして,キャプション誘導顔認識(CGFR)を導入した。
本稿では,2つの顔認識モデル(ArcFaceとAdaFace)にCGFRフレームワークを実装し,その性能をマルチモーダルCelebA-HQデータセットで評価した。
論文 参考訳(メタデータ) (2023-08-13T23:52:15Z) - TextDiff: Mask-Guided Residual Diffusion Models for Scene Text Image
Super-Resolution [18.73348268987249]
TextDiffは、シーンテキストイメージの超解像度に適した拡散ベースのフレームワークである。
公開ベンチマークデータセット上での最先端(SOTA)パフォーマンスを実現する。
提案するMDDモジュールは,SOTA法により生成されたテキストエッジを効果的にシャープするプラグイン・アンド・プレイである。
論文 参考訳(メタデータ) (2023-08-13T11:02:16Z) - Towards Robust Scene Text Image Super-resolution via Explicit Location
Enhancement [59.66539728681453]
シーンテキスト画像スーパーレゾリューション(STISR)は、下流のシーンテキスト認識精度を高めながら画質を向上させることを目的としている。
既存の手法のほとんどは、前景(文字領域)と背景(非文字領域)を前方プロセスで等しく扱う。
超解像のための高レベルテキスト特異的ガイダンスを生成するために,文字領域を明示的にモデル化する新しい手法 LEMMA を提案する。
論文 参考訳(メタデータ) (2023-07-19T05:08:47Z) - Mask to reconstruct: Cooperative Semantics Completion for Video-text
Retrieval [19.61947785487129]
Mask for Semantics Completion (MASCOT) - 意味に基づくマスキングモデル。
我々のMASCOTは4つの主要なテキストビデオ検索ベンチマークで最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2023-05-13T12:31:37Z) - MaskOCR: Text Recognition with Masked Encoder-Decoder Pretraining [68.05105411320842]
本稿では,従来のエンコーダ・デコーダ認識フレームワークにおいて,視覚と言語を事前学習するための新しいアプローチであるMaskOCRを提案する。
マスク付き画像モデリング手法を用いて、未ラベルのテキスト画像の集合を用いて特徴エンコーダを事前学習する。
テキストデータを合成されたテキスト画像に変換し、視覚と言語のデータモダリティを統一し、シーケンスデコーダの言語モデリング能力を向上する。
論文 参考訳(メタデータ) (2022-06-01T08:27:19Z) - Make-A-Scene: Scene-Based Text-to-Image Generation with Human Priors [58.71128866226768]
近年のテキスト・ツー・イメージ生成手法は、生成した画像の忠実度とテキスト関連性を漸進的に改善している。
i)シーンの形式でテキストを補完する単純な制御機構を実現することで,これらのギャップに対処する新しいテキスト・ツー・イメージ手法を提案する。
このモデルにより,512×512ピクセルの解像度で高忠実度画像を生成することができる。
論文 参考訳(メタデータ) (2022-03-24T15:44:50Z) - Open-Vocabulary Instance Segmentation via Robust Cross-Modal
Pseudo-Labeling [61.03262873980619]
Open-vocabularyのインスタンスセグメンテーションは、マスクアノテーションなしで新しいクラスをセグメンテーションすることを目的としている。
本研究では,字幕内の単語の意味を画像中のオブジェクトマスクの視覚的特徴と整合させることで,擬似マスクの訓練を行うクロスモーダルな擬似ラベルフレームワークを提案する。
我々のフレームワークは、生徒の自己学習のための単語意味論を通じて、キャプションに新しいクラスをラベル付けすることができる。
論文 参考訳(メタデータ) (2021-11-24T18:50:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。