論文の概要: Sequence-to-Sequence Contrastive Learning for Text Recognition
- arxiv url: http://arxiv.org/abs/2012.10873v1
- Date: Sun, 20 Dec 2020 09:07:41 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-01 04:42:20.301777
- Title: Sequence-to-Sequence Contrastive Learning for Text Recognition
- Title(参考訳): テキスト認識のためのシーケンスからシーケンスまでのコントラスト学習
- Authors: Aviad Aberdam, Ron Litman, Shahar Tsiper, Oron Anschel, Ron Slossberg,
Shai Mazor, R. Manmatha, Pietro Perona
- Abstract要約: 本稿では,視覚表現のシーケンス間コントラスト学習(seqclr)のためのフレームワークを提案する。
手書きテキストとシーンテキストの実験では,学習した表現に基づいてテキストデコーダを訓練すると,非逐次コントラスト法よりも優れることを示す。
- 参考スコア(独自算出の注目度): 29.576864819760498
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a framework for sequence-to-sequence contrastive learning (SeqCLR)
of visual representations, which we apply to text recognition. To account for
the sequence-to-sequence structure, each feature map is divided into different
instances over which the contrastive loss is computed. This operation enables
us to contrast in a sub-word level, where from each image we extract several
positive pairs and multiple negative examples. To yield effective visual
representations for text recognition, we further suggest novel augmentation
heuristics, different encoder architectures and custom projection heads.
Experiments on handwritten text and on scene text show that when a text decoder
is trained on the learned representations, our method outperforms
non-sequential contrastive methods. In addition, when the amount of supervision
is reduced, SeqCLR significantly improves performance compared with supervised
training, and when fine-tuned with 100% of the labels, our method achieves
state-of-the-art results on standard handwritten text recognition benchmarks.
- Abstract(参考訳): 本稿では,テキスト認識に適用する視覚表現のシーケンス・ツー・シーケンスコントラスト学習(seqclr)フレームワークを提案する。
シーケンス対シーケンス構造を考慮するために、各特徴マップは、コントラスト損失が計算される異なるインスタンスに分割される。
この操作はサブワードレベルでのコントラストを可能にし、各画像から複数の正のペアと複数の負の例を抽出する。
テキスト認識に有効な視覚表現を与えるために,新たな拡張ヒューリスティック,異なるエンコーダアーキテクチャ,カスタムプロジェクションヘッドを提案する。
手書きテキストとシーンテキストの実験では,学習した表現に基づいてテキストデコーダを訓練すると,非逐次コントラスト法よりも優れることを示す。
さらに, 教師付きトレーニングと比較して, 監督の量を減らすと, SeqCLR は性能を著しく向上し, ラベルの100%を微調整すると, 標準的な手書きテキスト認識ベンチマークの最先端結果が得られる。
関連論文リスト
- Decoder Pre-Training with only Text for Scene Text Recognition [54.93037783663204]
シーンテキスト認識(STR)事前学習法は,主に合成データセットに依存し,顕著な進歩を遂げている。
STR(DPTR)用テキストのみを用いたDecoder Pre-trainingという新しい手法を提案する。
DPTRはCLIPテキストエンコーダが生成したテキスト埋め込みを擬似視覚埋め込みとして扱い、デコーダの事前訓練に使用する。
論文 参考訳(メタデータ) (2024-08-11T06:36:42Z) - Out of Length Text Recognition with Sub-String Matching [54.63761108308825]
本稿では,このタスクをOOL(Out of Length)テキスト認識と呼ぶ。
サブ文字列マッチング(SMTR)を用いたOOLテキスト認識手法を提案する。
SMTRは2つのクロスアテンションベースのモジュールから構成される: 1つは複数の文字を含むサブストリングを次のクエリと前のクエリにエンコードし、もう1つは画像の特徴に対応するためにクエリを使用する。
論文 参考訳(メタデータ) (2024-07-17T05:02:17Z) - Efficiently Leveraging Linguistic Priors for Scene Text Spotting [63.22351047545888]
本稿では,大規模テキストコーパスから言語知識を活用する手法を提案する。
シーンテキストデータセットとよく一致したテキスト分布を生成し、ドメイン内の微調整の必要性を取り除く。
実験結果から,本手法は認識精度を向上するだけでなく,単語のより正確な局所化を可能にすることが示された。
論文 参考訳(メタデータ) (2024-02-27T01:57:09Z) - Self-supervised Character-to-Character Distillation for Text Recognition [54.12490492265583]
そこで本研究では,テキスト表現学習を容易にする汎用的な拡張を可能にする,自己教師型文字-文字-文字間蒸留法CCDを提案する。
CCDは、テキスト認識の1.38%、テキストセグメンテーションの1.7%、PSNRの0.24dB、超解像の0.0321(SSIM)で、最先端の結果を達成する。
論文 参考訳(メタデータ) (2022-11-01T05:48:18Z) - Vision-Language Pre-Training for Boosting Scene Text Detectors [57.08046351495244]
シーンテキスト検出に視覚言語を用いた共同学習を特に応用する。
本稿では,視覚言語による事前学習を通して,文脈化された共同表現を学習することを提案する。
事前訓練されたモデルは、よりリッチなセマンティクスでより情報的な表現を生成することができる。
論文 参考訳(メタデータ) (2022-04-29T03:53:54Z) - CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。
CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。
提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-11-30T07:29:08Z) - Enhanced Seq2Seq Autoencoder via Contrastive Learning for Abstractive
Text Summarization [15.367455931848252]
抽象テキスト要約のためのコントラスト学習によるシーケンス・ツー・シーケンス(seq2seq)オートエンコーダを提案する。
本モデルは,多層双方向エンコーダと自動回帰デコーダを備えた標準トランスフォーマーアーキテクチャを採用する。
2つのデータセットで実験を行い、我々のモデルが既存のベンチマークより優れていることを示す。
論文 参考訳(メタデータ) (2021-08-26T18:45:13Z) - Primitive Representation Learning for Scene Text Recognition [7.818765015637802]
本研究では,シーンテキスト画像の固有表現を活用した原始表現学習手法を提案する。
プリミティブ表現学習ネットワーク(PREN)は、並列デコードに視覚テキスト表現を使用するために構築される。
また,注意に基づく手法における不整合問題を軽減するために PREN2D というフレームワークを提案する。
論文 参考訳(メタデータ) (2021-05-10T11:54:49Z) - SCATTER: Selective Context Attentional Scene Text Recognizer [16.311256552979835]
Scene Text Recognition (STR) は複雑な画像背景に対してテキストを認識するタスクである。
現在のSOTA(State-of-the-art)メソッドは、任意の形で書かれたテキストを認識するのに依然として苦労している。
Selective Context Attentional Text Recognizer (SCATTER) というSTRの新しいアーキテクチャを導入する。
論文 参考訳(メタデータ) (2020-03-25T09:20:28Z) - ScrabbleGAN: Semi-Supervised Varying Length Handwritten Text Generation [0.9542023122304099]
ScrabbleGANは手書きテキストイメージを半教師付きで合成する手法である。
ScrabbleGANは任意の長さの単語の画像を生成する新しい生成モデルに依存している。
論文 参考訳(メタデータ) (2020-03-23T21:41:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。