論文の概要: Primitive Representation Learning for Scene Text Recognition
- arxiv url: http://arxiv.org/abs/2105.04286v1
- Date: Mon, 10 May 2021 11:54:49 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-11 14:51:05.395485
- Title: Primitive Representation Learning for Scene Text Recognition
- Title(参考訳): シーンテキスト認識のための原始表現学習
- Authors: Ruijie Yan, Liangrui Peng, Shanyu Xiao, Gang Yao
- Abstract要約: 本研究では,シーンテキスト画像の固有表現を活用した原始表現学習手法を提案する。
プリミティブ表現学習ネットワーク(PREN)は、並列デコードに視覚テキスト表現を使用するために構築される。
また,注意に基づく手法における不整合問題を軽減するために PREN2D というフレームワークを提案する。
- 参考スコア(独自算出の注目度): 7.818765015637802
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Scene text recognition is a challenging task due to diverse variations of
text instances in natural scene images. Conventional methods based on
CNN-RNN-CTC or encoder-decoder with attention mechanism may not fully
investigate stable and efficient feature representations for multi-oriented
scene texts. In this paper, we propose a primitive representation learning
method that aims to exploit intrinsic representations of scene text images. We
model elements in feature maps as the nodes of an undirected graph. A pooling
aggregator and a weighted aggregator are proposed to learn primitive
representations, which are transformed into high-level visual text
representations by graph convolutional networks. A Primitive REpresentation
learning Network (PREN) is constructed to use the visual text representations
for parallel decoding. Furthermore, by integrating visual text representations
into an encoder-decoder model with the 2D attention mechanism, we propose a
framework called PREN2D to alleviate the misalignment problem in
attention-based methods. Experimental results on both English and Chinese scene
text recognition tasks demonstrate that PREN keeps a balance between accuracy
and efficiency, while PREN2D achieves state-of-the-art performance.
- Abstract(参考訳): シーンテキスト認識は、自然のシーン画像におけるテキストインスタンスの多様性のために難しい課題である。
注意機構を有するcnn-rnn-ctcやエンコーダ-デコーダに基づく従来の手法では、マルチ指向シーンテキストの安定かつ効率的な特徴表現を完全には検討できない。
本論文では,シーンテキスト画像の本質的な表現を活用することを目的とした,原始表現学習手法を提案する。
特徴マップの要素を無向グラフのノードとしてモデル化する。
プールアグリゲータと重み付けアグリゲータはプリミティブ表現を学習するために提案され、グラフ畳み込みネットワークによって高レベルなビジュアルテキスト表現に変換される。
プリミティブ表現学習ネットワーク(PREN)は、並列デコードに視覚テキスト表現を使用するために構築される。
さらに,2次元注意機構を持つエンコーダ・デコーダモデルにビジュアルテキスト表現を統合することで,注意に基づく手法における不一致問題を緩和するpren2dというフレームワークを提案する。
英語と中国語のテキスト認識タスクにおける実験結果は、pren2dが最先端のパフォーマンスを達成しているのに対して、prenは正確性と効率のバランスを保っていることを示している。
関連論文リスト
- Decoder Pre-Training with only Text for Scene Text Recognition [54.93037783663204]
シーンテキスト認識(STR)事前学習法は,主に合成データセットに依存し,顕著な進歩を遂げている。
STR(DPTR)用テキストのみを用いたDecoder Pre-trainingという新しい手法を提案する。
DPTRはCLIPテキストエンコーダが生成したテキスト埋め込みを擬似視覚埋め込みとして扱い、デコーダの事前訓練に使用する。
論文 参考訳(メタデータ) (2024-08-11T06:36:42Z) - Synchronizing Vision and Language: Bidirectional Token-Masking
AutoEncoder for Referring Image Segmentation [26.262887028563163]
Referring Image (RIS)は、自然言語で表現されたターゲットオブジェクトをピクセルレベルのシーン内でセグメントすることを目的としている。
マスク付きオートエンコーダ(MAE)に触発された新しい双方向トークンマスキングオートエンコーダ(BTMAE)を提案する。
BTMAEは、画像と言語の両方に欠けている機能をトークンレベルで再構築することで、画像から言語、言語へのイメージのコンテキストを学習する。
論文 参考訳(メタデータ) (2023-11-29T07:33:38Z) - MaskOCR: Text Recognition with Masked Encoder-Decoder Pretraining [68.05105411320842]
本稿では,従来のエンコーダ・デコーダ認識フレームワークにおいて,視覚と言語を事前学習するための新しいアプローチであるMaskOCRを提案する。
マスク付き画像モデリング手法を用いて、未ラベルのテキスト画像の集合を用いて特徴エンコーダを事前学習する。
テキストデータを合成されたテキスト画像に変換し、視覚と言語のデータモダリティを統一し、シーケンスデコーダの言語モデリング能力を向上する。
論文 参考訳(メタデータ) (2022-06-01T08:27:19Z) - Vision-Language Pre-Training for Boosting Scene Text Detectors [57.08046351495244]
シーンテキスト検出に視覚言語を用いた共同学習を特に応用する。
本稿では,視覚言語による事前学習を通して,文脈化された共同表現を学習することを提案する。
事前訓練されたモデルは、よりリッチなセマンティクスでより情報的な表現を生成することができる。
論文 参考訳(メタデータ) (2022-04-29T03:53:54Z) - Language Matters: A Weakly Supervised Pre-training Approach for Scene
Text Detection and Spotting [69.77701325270047]
本稿では,シーンテキストを効果的に表現できる弱教師付き事前学習手法を提案する。
本ネットワークは,画像エンコーダと文字認識型テキストエンコーダから構成され,視覚的特徴とテキスト的特徴を抽出する。
実験により、事前訓練されたモデルは、重みを他のテキスト検出やスポッティングネットワークに転送しながら、Fスコアを+2.5%、+4.8%改善することが示された。
論文 参考訳(メタデータ) (2022-03-08T08:10:45Z) - CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。
CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。
提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-11-30T07:29:08Z) - Text to Image Generation with Semantic-Spatial Aware GAN [41.73685713621705]
テキストから画像生成(T2I)モデルは、テキスト記述と意味的に一致するフォトリアリズム画像を生成することを目的としている。
本稿では,テキストエンコーダがより良いテキスト情報を活用できるように,エンドツーエンドで訓練された新しいフレームワークSemantic-Spatial Aware GANを提案する。
論文 参考訳(メタデータ) (2021-04-01T15:48:01Z) - Scene Text Synthesis for Efficient and Effective Deep Network Training [62.631176120557136]
我々は,背景画像に前景オブジェクトを埋め込むことで,注釈付き訓練画像を構成する革新的な画像合成技術を開発した。
提案手法は,ディープネットワークトレーニングにおける合成画像の有用性を高める2つの重要な要素から構成される。
複数の公開データセットに対する実験により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2019-01-26T10:15:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。