論文の概要: Self-supervised Character-to-Character Distillation
- arxiv url: http://arxiv.org/abs/2211.00288v1
- Date: Tue, 1 Nov 2022 05:48:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-02 14:00:00.729110
- Title: Self-supervised Character-to-Character Distillation
- Title(参考訳): 自己監督型キャラクタ-キャラクタ-キャラクタ蒸留
- Authors: Tongkun Guan, Wei Shen
- Abstract要約: そこで本研究では, 自己監督型キャラクタ-キャラクタ蒸留法CCDを提案する。
CDHCは、公開されているテキスト認識ベンチマークで最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 5.163352740570406
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Handling complicated text images (e.g., irregular structures, low resolution,
heavy occlusion, and even illumination), existing supervised text recognition
methods are data-hungry. Although these methods employ large-scale synthetic
text images to reduce the dependence on annotated real images, the domain gap
limits the recognition performance. Therefore, exploring the robust text
feature representation on unlabeled real images by self-supervised learning is
a good solution. However, existing self-supervised text recognition methods
only execute sequence-to-sequence representation learning by roughly splitting
the visual features along the horizontal axis, which will damage the character
structures. Besides, these sequential-level self-learning methods limit the
availability of geometric-based data augmentation, as large-scale geometry
augmentation leads to sequence-to-sequence inconsistency. To address the
above-mentioned issues, we proposed a novel self-supervised
character-to-character distillation method, CCD. Specifically, we delineate the
character structures of unlabeled real images by designing a self-supervised
character segmentation module, and further apply the segmentation results to
build character-level representation learning.
CCD differs from prior works in that we propose a character-level pretext
task to learn more fine-grained feature representations. Besides, compared with
the inflexible augmentations of sequence-to-sequence models, our work satisfies
character-to-character representation consistency, across various
transformations (e.g., geometry and colour), to generate robust text features
in the representative space. Experiments demonstrate that CCD achieves
state-of-the-art performance on publicly available text recognition benchmarks.
- Abstract(参考訳): 複雑なテキスト画像(不規則な構造、低い解像度、重い咬合、さらには照明など)を扱うため、既存の教師付きテキスト認識手法はデータ格納型である。
これらの方法は、注釈付き実画像への依存を減らすために大規模な合成テキスト画像を用いるが、ドメインギャップは認識性能を制限する。
したがって、自己教師付き学習によるラベルのない実画像上のロバストテキスト特徴表現の探索は良い解である。
しかし、既存の自己教師付きテキスト認識手法は、水平軸に沿って視覚特徴を大まかに分割することで文字構造を損なうことにより、シーケンスからシーケンスへの表現学習のみを実行する。
さらに、これらのシーケンシャルレベルの自己学習手法は、大規模な幾何学的拡張がシーケンス対シーケンスの不整合をもたらすため、幾何ベースのデータ拡張の可用性を制限する。
以上の課題に対処するため, 自己監督型キャラクタ蒸留法CCDを提案した。
具体的には、自己教師付き文字セグメンテーションモジュールの設計により、ラベルなし実画像のキャラクタ構造を記述し、さらに、セグメンテーション結果をキャラクタレベル表現学習の構築に適用する。
CCDは、よりきめ細かい特徴表現を学習するための文字レベルのプリテキストタスクを提案するという点で、以前の研究とは異なる。
さらに,シーケンス・ツー・シーケンスモデルの柔軟性に欠ける拡張と比較して,様々な変換(幾何学や色など)をまたいだ文字対キャラクタ表現一貫性を満足し,代表的な空間において頑健なテキスト特徴を生成する。
実験により、CCDは、公開されているテキスト認識ベンチマークで最先端のパフォーマンスを達成することが示された。
関連論文リスト
- Decoder Pre-Training with only Text for Scene Text Recognition [54.93037783663204]
シーンテキスト認識(STR)事前学習法は,主に合成データセットに依存し,顕著な進歩を遂げている。
STR(DPTR)用テキストのみを用いたDecoder Pre-trainingという新しい手法を提案する。
DPTRはCLIPテキストエンコーダが生成したテキスト埋め込みを擬似視覚埋め込みとして扱い、デコーダの事前訓練に使用する。
論文 参考訳(メタデータ) (2024-08-11T06:36:42Z) - Scene Text Image Super-Resolution via Content Perceptual Loss and
Criss-Cross Transformer Blocks [48.81850740907517]
テキスト対応のテキスト・スーパー・リゾリューション・フレームワークであるTATSRについて述べる。
Criss-Cross Transformer Blocks (CCTBs) と新しい Content Perceptual (CP) Loss を用いて、ユニークなテキスト特性を効果的に学習する。
認識精度と人間の知覚の両方の観点から、最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2022-10-13T11:48:45Z) - Reading and Writing: Discriminative and Generative Modeling for
Self-Supervised Text Recognition [101.60244147302197]
テキスト画像の識別と生成を学習するために,コントラスト学習とマスク付き画像モデリングを導入する。
本手法は,不規則なシーンテキスト認識データセットにおいて,従来の自己教師付きテキスト認識手法を10.2%~20.2%向上させる。
提案したテキスト認識器は,11のベンチマークで平均5.3%の精度で従来のテキスト認識手法を上回り,モデルサイズが類似している。
論文 参考訳(メタデータ) (2022-07-01T03:50:26Z) - Language Matters: A Weakly Supervised Pre-training Approach for Scene
Text Detection and Spotting [69.77701325270047]
本稿では,シーンテキストを効果的に表現できる弱教師付き事前学習手法を提案する。
本ネットワークは,画像エンコーダと文字認識型テキストエンコーダから構成され,視覚的特徴とテキスト的特徴を抽出する。
実験により、事前訓練されたモデルは、重みを他のテキスト検出やスポッティングネットワークに転送しながら、Fスコアを+2.5%、+4.8%改善することが示された。
論文 参考訳(メタデータ) (2022-03-08T08:10:45Z) - CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。
CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。
提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-11-30T07:29:08Z) - Implicit Feature Alignment: Learn to Convert Text Recognizer to Text
Spotter [38.4211220941874]
我々はIFA(Implicit Feature Alignment)と呼ばれるシンプルでエレガントで効果的なパラダイムを提案する。
IFAは、現在のテキスト認識器に容易に統合でき、その結果、IFA推論と呼ばれる新しい推論機構が生まれる。
IFAは、エンドツーエンドの文書認識タスクにおいて最先端のパフォーマンスを達成することを実験的に実証した。
論文 参考訳(メタデータ) (2021-06-10T17:06:28Z) - Sequence-to-Sequence Contrastive Learning for Text Recognition [29.576864819760498]
本稿では,視覚表現のシーケンス間コントラスト学習(seqclr)のためのフレームワークを提案する。
手書きテキストとシーンテキストの実験では,学習した表現に基づいてテキストデコーダを訓練すると,非逐次コントラスト法よりも優れることを示す。
論文 参考訳(メタデータ) (2020-12-20T09:07:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。