論文の概要: Separating Content from Style Using Adversarial Learning for Recognizing
Text in the Wild
- arxiv url: http://arxiv.org/abs/2001.04189v3
- Date: Sat, 12 Dec 2020 08:11:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-11 23:14:26.567160
- Title: Separating Content from Style Using Adversarial Learning for Recognizing
Text in the Wild
- Title(参考訳): ワイルドテキスト認識のための逆学習を用いたスタイルからのコンテンツ分離
- Authors: Canjie Luo, Qingxiang Lin, Yuliang Liu, Lianwen Jin, Chunhua Shen
- Abstract要約: 画像中の複数の文字の生成と認識のための逆学習フレームワークを提案する。
我々のフレームワークは、新しい最先端の認識精度を達成するために、最近の認識手法に統合することができる。
- 参考スコア(独自算出の注目度): 103.51604161298512
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose to improve text recognition from a new perspective by separating
the text content from complex backgrounds. As vanilla GANs are not sufficiently
robust to generate sequence-like characters in natural images, we propose an
adversarial learning framework for the generation and recognition of multiple
characters in an image. The proposed framework consists of an attention-based
recognizer and a generative adversarial architecture. Furthermore, to tackle
the issue of lacking paired training samples, we design an interactive joint
training scheme, which shares attention masks from the recognizer to the
discriminator, and enables the discriminator to extract the features of each
character for further adversarial training. Benefiting from the character-level
adversarial training, our framework requires only unpaired simple data for
style supervision. Each target style sample containing only one randomly chosen
character can be simply synthesized online during the training. This is
significant as the training does not require costly paired samples or
character-level annotations. Thus, only the input images and corresponding text
labels are needed. In addition to the style normalization of the backgrounds,
we refine character patterns to ease the recognition task. A feedback mechanism
is proposed to bridge the gap between the discriminator and the recognizer.
Therefore, the discriminator can guide the generator according to the confusion
of the recognizer, so that the generated patterns are clearer for recognition.
Experiments on various benchmarks, including both regular and irregular text,
demonstrate that our method significantly reduces the difficulty of
recognition. Our framework can be integrated into recent recognition methods to
achieve new state-of-the-art recognition accuracy.
- Abstract(参考訳): 本稿では,テキストコンテンツを複雑な背景から分離することで,新たな視点からテキスト認識を改善することを提案する。
バニラガンは自然画像においてシーケンス状文字を生成するのに十分な頑健ではないため,画像中の複数の文字を生成・認識するための逆学習フレームワークを提案する。
提案するフレームワークは注意に基づく認識器と生成的な敵対的アーキテクチャで構成されている。
さらに,ペアトレーニングサンプルの欠如に対処するために,認識者から識別者へ注目マスクを共有する対話型共同訓練方式を設計し,識別者が各文字の特徴を抽出し,さらに敵対的な訓練を行う。
キャラクタレベルの対人訓練から恩恵を受けるため、我々のフレームワークは、スタイルの監視のために、欠落した単純なデータのみを必要とする。
ランダムに選択された文字のみを含むターゲットスタイルのサンプルは、トレーニング中にオンラインで簡単に合成できる。
トレーニングにはコストのかかるペアリングされたサンプルや文字レベルのアノテーションが必要ないため、これは重要なことです。
したがって、入力画像と対応するテキストラベルのみが必要である。
背景のスタイル正規化に加えて,認識作業を容易にするために文字パターンを洗練する。
識別器と認識器のギャップを埋めるためにフィードバック機構を提案する。
したがって、識別器は、認識者の混乱に応じてジェネレータを誘導することができるので、生成されたパターンが認識しやすい。
正規テキストと不規則テキストの両方を含む様々なベンチマーク実験により,本手法は認識の難易度を著しく低減することを示した。
新たな認識精度を実現するために,近年の認識手法に組み込むことができる。
関連論文リスト
- Boosting Semi-Supervised Scene Text Recognition via Viewing and Summarizing [71.29488677105127]
既存のシーンテキスト認識(STR)手法は、特に芸術的で歪んだ文字に対して、挑戦的なテキストを認識するのに苦労している。
人的コストを伴わずに、合成データと実際のラベルなしデータを活用して、対照的な学習ベースのSTRフレームワークを提案する。
本手法は,共通ベンチマークとUnion14M-Benchmarkで平均精度94.7%,70.9%のSOTA性能を実現する。
論文 参考訳(メタデータ) (2024-11-23T15:24:47Z) - Instruction-Guided Scene Text Recognition [51.853730414264625]
本稿では、STRを命令学習問題として定式化する命令誘導シーンテキスト認識(IGTR)パラダイムを提案する。
我々は,テキストイメージ理解をガイドする軽量な命令エンコーダ,クロスモーダル機能融合モジュール,マルチタスク応答ヘッドを開発した。
IGTRは、小さなモデルサイズと効率的な推論速度を維持しながら、既存のモデルをかなりの差で上回っている。
論文 参考訳(メタデータ) (2024-01-31T14:13:01Z) - CAPro: Webly Supervised Learning with Cross-Modality Aligned Prototypes [93.71909293023663]
クロスモダリティ・アライテッド・プロトタイプ(CAPro)は、視覚表現を正しい意味論で学習する統合コントラスト学習フレームワークである。
CAProは、新しい最先端のパフォーマンスを実現し、オープンセット認識に対する堅牢性を示す。
論文 参考訳(メタデータ) (2023-10-15T07:20:22Z) - DualCoOp++: Fast and Effective Adaptation to Multi-Label Recognition
with Limited Annotations [79.433122872973]
低ラベル体制における多ラベル画像認識は、大きな課題と実践的重要性の課題である。
我々は、何百万もの補助的な画像テキストペアで事前訓練されたテキストと視覚的特徴の強力なアライメントを活用する。
Evidence-guided Dual Context Optimization (DualCoOp++) という,効率的かつ効果的なフレームワークを導入する。
論文 参考訳(メタデータ) (2023-08-03T17:33:20Z) - CoReFace: Sample-Guided Contrastive Regularization for Deep Face
Recognition [3.1677775852317085]
特徴表現学習に画像レベルの正規化を適用するために,CoReFace(Contrastive Regularization for Face Recognition)を提案する。
具体的には、サンプル誘導型コントラスト学習を用いて、画像と画像の関係を直接調整する。
コントラスト学習を顔認識に統合するため,画像の画質劣化を回避するために,画像の代わりに埋め込みを拡大する。
論文 参考訳(メタデータ) (2023-04-23T14:33:24Z) - Reading and Writing: Discriminative and Generative Modeling for
Self-Supervised Text Recognition [101.60244147302197]
テキスト画像の識別と生成を学習するために,コントラスト学習とマスク付き画像モデリングを導入する。
本手法は,不規則なシーンテキスト認識データセットにおいて,従来の自己教師付きテキスト認識手法を10.2%~20.2%向上させる。
提案したテキスト認識器は,11のベンチマークで平均5.3%の精度で従来のテキスト認識手法を上回り,モデルサイズが類似している。
論文 参考訳(メタデータ) (2022-07-01T03:50:26Z) - Towards Open-Set Text Recognition via Label-to-Prototype Learning [18.06730376866086]
モデルを再学習することなく,新しい文字を扱えるラベルとプロトタイプの学習フレームワークを提案する。
多くの実験により,提案手法は様々なゼロショット,クローズセット,オープンセットのテキスト認識データセット上で有望な性能を達成できることが示されている。
論文 参考訳(メタデータ) (2022-03-10T06:22:51Z) - Pay Attention to What You Read: Non-recurrent Handwritten Text-Line
Recognition [4.301658883577544]
変換器モデルを用いて手書きテキストを認識する非反復的手法を提案する。
我々は文字認識に取り組み、復号化すべき文字列の言語関連依存関係を学習することができる。
論文 参考訳(メタデータ) (2020-05-26T21:15:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。