論文の概要: Self-Supervised Pre-training with Symmetric Superimposition Modeling for Scene Text Recognition
- arxiv url: http://arxiv.org/abs/2405.05841v1
- Date: Thu, 9 May 2024 15:23:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-10 13:02:50.684422
- Title: Self-Supervised Pre-training with Symmetric Superimposition Modeling for Scene Text Recognition
- Title(参考訳): シンメトリ重畳モデルによるシーンテキスト認識のための自己教師付き事前学習
- Authors: Zuan Gao, Yuxin Wang, Yadong Qu, Boqiang Zhang, Zixiao Wang, Jianjun Xu, Hongtao Xie,
- Abstract要約: テキスト画像中の局所的特徴と言語情報を同時に捉えるための対称性重畳モデルを提案する。
画素レベルでは、原画像と逆画像の再構成を行い、文字の形状やテクスチャレベルの言語的文脈を捉える。
特徴レベルでは、意味レベルの言語文脈と局所的文字識別をモデル化するために、異なる拡張で同一の原画像と逆画像の特徴を再構築する。
- 参考スコア(独自算出の注目度): 43.61569815081384
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In text recognition, self-supervised pre-training emerges as a good solution to reduce dependence on expansive annotated real data. Previous studies primarily focus on local visual representation by leveraging mask image modeling or sequence contrastive learning. However, they omit modeling the linguistic information in text images, which is crucial for recognizing text. To simultaneously capture local character features and linguistic information in visual space, we propose Symmetric Superimposition Modeling (SSM). The objective of SSM is to reconstruct the direction-specific pixel and feature signals from the symmetrically superimposed input. Specifically, we add the original image with its inverted views to create the symmetrically superimposed inputs. At the pixel level, we reconstruct the original and inverted images to capture character shapes and texture-level linguistic context. At the feature level, we reconstruct the feature of the same original image and inverted image with different augmentations to model the semantic-level linguistic context and the local character discrimination. In our design, we disrupt the character shape and linguistic rules. Consequently, the dual-level reconstruction facilitates understanding character shapes and linguistic information from the perspective of visual texture and feature semantics. Experiments on various text recognition benchmarks demonstrate the effectiveness and generality of SSM, with 4.1% average performance gains and 86.6% new state-of-the-art average word accuracy on Union14M benchmarks.
- Abstract(参考訳): テキスト認識において、自己教師付き事前学習は、拡張的な注釈付き実データへの依存を減らすための良い解決策として現れる。
これまでの研究は主に、マスク画像モデリングやシーケンスコントラスト学習を活用して、局所的な視覚表現に焦点を当ててきた。
しかし,テキスト認識にとって重要なテキスト画像における言語情報のモデル化は省略されている。
視覚空間における局所的特徴と言語情報を同時に捉えるために,SSM(Symmetric Superimposition Modeling)を提案する。
SSMの目的は、対称的に重畳された入力から方向特定画素と特徴信号を再構成することである。
具体的には、元の画像を逆ビューで追加し、対称的に重畳された入力を生成する。
画素レベルでは、原画像と逆画像の再構成を行い、文字の形状やテクスチャレベルの言語的文脈を捉える。
特徴レベルでは、意味レベルの言語文脈と局所的文字識別をモデル化するために、異なる拡張で同一の原画像と逆画像の特徴を再構築する。
私たちのデザインでは、キャラクタの形状と言語規則を混乱させます。
これにより、視覚的テクスチャや特徴的意味論の観点から、文字の形状や言語情報の理解が容易になる。
様々なテキスト認識ベンチマークの実験は、SSMの有効性と一般性を示し、4.1%の平均的なパフォーマンス向上と86.6%の新しい最先端の平均単語精度をUnion14Mベンチマークで示した。
関連論文リスト
- CLIP-SCGI: Synthesized Caption-Guided Inversion for Person Re-Identification [9.996589403019675]
person re-identification (ReID) は Contrastive Language-Image Pre-Training (CLIP) のような大規模な事前訓練された視覚言語モデルの恩恵を受けている。
本稿では、既存の画像キャプションモデルを利用して人物画像の擬似キャプションを生成する方法を提案する。
CLIP-SCGI(CLIP-SCGI)は、合成キャプションを利用して、差別的・堅牢な表現の学習をガイドするフレームワークである。
論文 参考訳(メタデータ) (2024-10-12T06:24:33Z) - Language-Oriented Semantic Latent Representation for Image Transmission [38.62941652189033]
意味コミュニケーション(SC)の新しいパラダイムは、ビットの背後にある意味の提供に焦点を当てている。
データ・テキスト・モデルの最近の進歩は言語指向のSCを促進する。
テキストと圧縮画像の埋め込みの両方を通信する新しいSCフレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-16T10:41:31Z) - FINEMATCH: Aspect-based Fine-grained Image and Text Mismatch Detection and Correction [66.98008357232428]
我々は新しいアスペクトベースのきめ細かいテキストと画像マッチングベンチマークであるFineMatchを提案する。
FineMatchはテキストと画像のミスマッチの検出と修正に焦点を当てている。
FineMatchで訓練されたモデルは、きめ細かいテキストや画像のミスマッチを検出する能力の向上を示す。
論文 参考訳(メタデータ) (2024-04-23T03:42:14Z) - Improving Cross-modal Alignment with Synthetic Pairs for Text-only Image
Captioning [13.357749288588039]
以前の作業では、教師なし設定下でのテキスト情報のみに依存して、画像キャプションのためのCLIPのクロスモーダルアソシエーション機能を活用していた。
本稿では,合成画像とテキストのペアを組み込むことにより,これらの問題に対処する新しい手法を提案する。
テキストデータに対応する画像を得るために、事前訓練されたテキスト・ツー・イメージモデルが配置され、CLIP埋め込み空間の実際の画像に対して、生成された画像の擬似特徴を最適化する。
論文 参考訳(メタデータ) (2023-12-14T12:39:29Z) - Augment the Pairs: Semantics-Preserving Image-Caption Pair Augmentation
for Grounding-Based Vision and Language Models [16.4010094165575]
テキスト条件付きおよびテキスト条件付きデータ拡張で訓練されたロバストな句接頭辞モデルを提案する。
近年のマスク信号再構成に着想を得て,新しいデータ拡張形式としてピクセルレベルのマスキングを提案する。
提案手法は,各種メトリクスを用いた最先端技術に対する高度な性能を示す。
論文 参考訳(メタデータ) (2023-11-05T01:14:02Z) - Improving Generalization of Image Captioning with Unsupervised Prompt
Learning [63.26197177542422]
画像キャプションの一般化(GeneIC)は、アノテーション付きデータを必要とせずに、ターゲットドメインのドメイン固有のプロンプトベクトルを学習する。
GeneICは、学習済みのContrastive Language-Image Pre-Training (CLIP)モデルと視覚的および言語的モダリティを一致させる。
論文 参考訳(メタデータ) (2023-08-05T12:27:01Z) - CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。
CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。
提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-11-30T07:29:08Z) - Improving Generation and Evaluation of Visual Stories via Semantic
Consistency [72.00815192668193]
一連の自然言語キャプションが与えられた場合、エージェントはキャプションに対応する一連の画像を生成する必要がある。
それまでの作業では、このタスクで合成テキスト・画像モデルより優れた繰り返し生成モデルを導入してきた。
従来のモデリング手法には、デュアルラーニングフレームワークの追加など、いくつかの改善点を提示する。
論文 参考訳(メタデータ) (2021-05-20T20:42:42Z) - Primitive Representation Learning for Scene Text Recognition [7.818765015637802]
本研究では,シーンテキスト画像の固有表現を活用した原始表現学習手法を提案する。
プリミティブ表現学習ネットワーク(PREN)は、並列デコードに視覚テキスト表現を使用するために構築される。
また,注意に基づく手法における不整合問題を軽減するために PREN2D というフレームワークを提案する。
論文 参考訳(メタデータ) (2021-05-10T11:54:49Z) - Enhanced Modality Transition for Image Captioning [51.72997126838352]
MTM(Modality Transition Module)を構築し、言語モデルに転送する前に視覚的機能をセマンティック表現に転送します。
トレーニング段階では、モダリティ遷移ネットワークは提案されたモダリティ損失によって最適化される。
提案手法の有効性を示すMS-COCOデータセットを用いて実験を行った。
論文 参考訳(メタデータ) (2021-02-23T07:20:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。