論文の概要: Self-supervised Character-to-Character Distillation for Text Recognition
- arxiv url: http://arxiv.org/abs/2211.00288v4
- Date: Fri, 18 Aug 2023 14:34:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-22 01:18:48.660325
- Title: Self-supervised Character-to-Character Distillation for Text Recognition
- Title(参考訳): テキスト認識のための自己教師付き文字対文字蒸留
- Authors: Tongkun Guan, Wei Shen, Xue Yang, Qi Feng, Zekun Jiang, Xiaokang Yang
- Abstract要約: そこで本研究では,テキスト表現学習を容易にする汎用的な拡張を可能にする,自己教師型文字-文字-文字間蒸留法CCDを提案する。
CCDは、テキスト認識の1.38%、テキストセグメンテーションの1.7%、PSNRの0.24dB、超解像の0.0321(SSIM)で、最先端の結果を達成する。
- 参考スコア(独自算出の注目度): 54.12490492265583
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: When handling complicated text images (e.g., irregular structures, low
resolution, heavy occlusion, and uneven illumination), existing supervised text
recognition methods are data-hungry. Although these methods employ large-scale
synthetic text images to reduce the dependence on annotated real images, the
domain gap still limits the recognition performance. Therefore, exploring the
robust text feature representations on unlabeled real images by self-supervised
learning is a good solution. However, existing self-supervised text recognition
methods conduct sequence-to-sequence representation learning by roughly
splitting the visual features along the horizontal axis, which limits the
flexibility of the augmentations, as large geometric-based augmentations may
lead to sequence-to-sequence feature inconsistency. Motivated by this, we
propose a novel self-supervised Character-to-Character Distillation method,
CCD, which enables versatile augmentations to facilitate general text
representation learning. Specifically, we delineate the character structures of
unlabeled real images by designing a self-supervised character segmentation
module. Following this, CCD easily enriches the diversity of local characters
while keeping their pairwise alignment under flexible augmentations, using the
transformation matrix between two augmented views from images. Experiments
demonstrate that CCD achieves state-of-the-art results, with average
performance gains of 1.38% in text recognition, 1.7% in text segmentation, 0.24
dB (PSNR) and 0.0321 (SSIM) in text super-resolution. Code is available at
https://github.com/TongkunGuan/CCD.
- Abstract(参考訳): 複雑なテキスト画像(不規則な構造、低い解像度、重い咬合、不均一な照明など)を扱う場合、既存の教師付きテキスト認識手法はデータ格納型である。
これらの手法は、注釈付き実画像への依存を減らすために大規模な合成テキスト画像を用いるが、ドメインギャップは認識性能に制限がある。
したがって、自己教師付き学習によるラベルのない実画像上のロバストテキスト特徴表現の探索は良い解である。
しかし、既存の自己教師付きテキスト認識法は、水平軸に沿って視覚的な特徴を大まかに分割してシーケンスからシーケンスへの表現学習を行い、拡張の柔軟性を制限している。
そこで本研究では,汎用的な補修により汎用的なテキスト表現学習が容易な自己教師付き文字対文字蒸留法であるccdを提案する。
具体的には,自己教師付き文字セグメンテーションモジュールの設計により,ラベルなし実画像のキャラクタ構造を記述する。
これに続いて、CCDは、画像からの2つの拡張ビュー間の変換行列を用いて、フレキシブルな拡張の下でペアのアライメントを維持しながら、局所的な文字の多様性を容易に向上する。
実験の結果、CCDはテキスト認識では1.38%、テキストセグメンテーションでは1.7%、テキスト超解像では0.24dB、SSIMでは0.0321となっている。
コードはhttps://github.com/TongkunGuan/CCDで入手できる。
関連論文リスト
- Decoder Pre-Training with only Text for Scene Text Recognition [54.93037783663204]
シーンテキスト認識(STR)事前学習法は,主に合成データセットに依存し,顕著な進歩を遂げている。
STR(DPTR)用テキストのみを用いたDecoder Pre-trainingという新しい手法を提案する。
DPTRはCLIPテキストエンコーダが生成したテキスト埋め込みを擬似視覚埋め込みとして扱い、デコーダの事前訓練に使用する。
論文 参考訳(メタデータ) (2024-08-11T06:36:42Z) - Scene Text Image Super-Resolution via Content Perceptual Loss and
Criss-Cross Transformer Blocks [48.81850740907517]
テキスト対応のテキスト・スーパー・リゾリューション・フレームワークであるTATSRについて述べる。
Criss-Cross Transformer Blocks (CCTBs) と新しい Content Perceptual (CP) Loss を用いて、ユニークなテキスト特性を効果的に学習する。
認識精度と人間の知覚の両方の観点から、最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2022-10-13T11:48:45Z) - Reading and Writing: Discriminative and Generative Modeling for
Self-Supervised Text Recognition [101.60244147302197]
テキスト画像の識別と生成を学習するために,コントラスト学習とマスク付き画像モデリングを導入する。
本手法は,不規則なシーンテキスト認識データセットにおいて,従来の自己教師付きテキスト認識手法を10.2%~20.2%向上させる。
提案したテキスト認識器は,11のベンチマークで平均5.3%の精度で従来のテキスト認識手法を上回り,モデルサイズが類似している。
論文 参考訳(メタデータ) (2022-07-01T03:50:26Z) - Language Matters: A Weakly Supervised Pre-training Approach for Scene
Text Detection and Spotting [69.77701325270047]
本稿では,シーンテキストを効果的に表現できる弱教師付き事前学習手法を提案する。
本ネットワークは,画像エンコーダと文字認識型テキストエンコーダから構成され,視覚的特徴とテキスト的特徴を抽出する。
実験により、事前訓練されたモデルは、重みを他のテキスト検出やスポッティングネットワークに転送しながら、Fスコアを+2.5%、+4.8%改善することが示された。
論文 参考訳(メタデータ) (2022-03-08T08:10:45Z) - CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。
CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。
提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-11-30T07:29:08Z) - Implicit Feature Alignment: Learn to Convert Text Recognizer to Text
Spotter [38.4211220941874]
我々はIFA(Implicit Feature Alignment)と呼ばれるシンプルでエレガントで効果的なパラダイムを提案する。
IFAは、現在のテキスト認識器に容易に統合でき、その結果、IFA推論と呼ばれる新しい推論機構が生まれる。
IFAは、エンドツーエンドの文書認識タスクにおいて最先端のパフォーマンスを達成することを実験的に実証した。
論文 参考訳(メタデータ) (2021-06-10T17:06:28Z) - Sequence-to-Sequence Contrastive Learning for Text Recognition [29.576864819760498]
本稿では,視覚表現のシーケンス間コントラスト学習(seqclr)のためのフレームワークを提案する。
手書きテキストとシーンテキストの実験では,学習した表現に基づいてテキストデコーダを訓練すると,非逐次コントラスト法よりも優れることを示す。
論文 参考訳(メタデータ) (2020-12-20T09:07:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。