論文の概要: Relational Contrastive Learning and Masked Image Modeling for Scene Text Recognition
- arxiv url: http://arxiv.org/abs/2411.11219v1
- Date: Mon, 18 Nov 2024 01:11:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-19 14:33:08.946510
- Title: Relational Contrastive Learning and Masked Image Modeling for Scene Text Recognition
- Title(参考訳): シーンテキスト認識のための関係コントラスト学習とマスク画像モデリング
- Authors: Tiancheng Lin, Jinglei Zhang, Yi Xu, Kai Chen, Rui Zhang, Chang-Wen Chen,
- Abstract要約: 本稿では,STRのためのコントラスト学習とマスド画像モデリングの統一フレームワークを提案する。
提案したRCMSTRは、STR関連下流タスクにおいて優れた性能を示し、既存の最先端の自己教師型STR技術よりも優れた性能を示す。
- 参考スコア(独自算出の注目度): 36.59116507158687
- License:
- Abstract: Context-aware methods have achieved remarkable advancements in supervised scene text recognition by leveraging semantic priors from words. Considering the heterogeneity of text and background in STR, we propose that such contextual priors can be reinterpreted as the relations between textual elements, serving as effective self-supervised labels for representation learning. However, textual relations are restricted to the finite size of the dataset due to lexical dependencies, which causes over-fitting problem, thus compromising the representation quality. To address this, our work introduces a unified framework of Relational Contrastive Learning and Masked Image Modeling for STR (RCMSTR), which explicitly models the enriched textual relations. For the RCL branch, we first introduce the relational rearrangement module to cultivate new relations on the fly. Based on this, we further conduct relational contrastive learning to model the intra- and inter-hierarchical relations for frames, sub-words and words.On the other hand, MIM can naturally boost the context information via masking, where we find that the block masking strategy is more effective for STR. For the effective integration of RCL and MIM, we also introduce a novel decoupling design aimed at mitigating the impact of masked images on contrastive learning. Additionally, to enhance the compatibility of MIM with CNNs, we propose the adoption of sparse convolutions and directly sharing the weights with dense convolutions in training. The proposed RCMSTR demonstrates superior performance in various evaluation protocols for different STR-related downstream tasks, outperforming the existing state-of-the-art self-supervised STR techniques. Ablation studies and qualitative experimental results further validate the effectiveness of our method.The code and pre-trained models will be available at https://github.com/ThunderVVV/RCMSTR .
- Abstract(参考訳): 文脈認識手法は、単語のセマンティックな先行情報を活用することによって、教師付きシーンテキスト認識において顕著な進歩を遂げた。
STRにおけるテキストと背景の不均一性を考慮すると、このような文脈的事前はテキスト要素間の関係として解釈でき、表現学習のための効果的な自己教師付きラベルとして機能する。
しかし、テキスト関係は語彙依存によるデータセットの有限サイズに制限されるため、過度に適合する問題が発生し、表現品質が損なわれる。
そこで本研究では,リッチなテキスト関係を明示的にモデル化する,RCMSTR(Relational Contrastive Learning and Masked Image Modeling for STR)の統一フレームワークを提案する。
RCL分岐では、まず、ハエの新たな関係を育むために、リレーショナル再構成モジュールを導入する。
これに基づいて, フレーム, サブワード, 単語の階層内および階層間関係をモデル化するリレーショナル・コントラクティブ・ラーニングを行い, その一方でMIMはマスキングによってコンテキスト情報を自然に向上させることができる。
また、RCLとMIMを効果的に統合するために、マスクされた画像がコントラスト学習に与える影響を緩和する新しいデカップリング設計を導入する。
さらに,MIMとCNNとの互換性を高めるために,スパース畳み込みの導入を提案し,トレーニングにおいて重み付けを直接共有する。
提案したRCMSTRは、様々なSTR関連下流タスクの評価プロトコルにおいて、既存の最先端の自己教師型STR技術よりも優れた性能を示す。
コードおよび事前訓練されたモデルは、https://github.com/ThunderVVV/RCMSTRで利用可能である。
関連論文リスト
- Sequential Visual and Semantic Consistency for Semi-supervised Text
Recognition [56.968108142307976]
Scene Text Recognition (STR) は、大規模なアノテートデータを必要とする課題である。
既存のSTR法の多くは、STRモデルの性能を低下させ、ドメイン差を生じさせる合成データに頼っている。
本稿では,視覚的・意味的両面から単語レベルの整合性正則化を取り入れたSTRの半教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2024-02-24T13:00:54Z) - Prompt-based Logical Semantics Enhancement for Implicit Discourse
Relation Recognition [4.7938839332508945]
Inlicit Discourse Relation Recognition (IDRR) のための Prompt-based Logical Semantics Enhancement (PLSE) 法を提案する。
提案手法は,事前学習した言語モデルに対する対話関係に関する知識を,素早い接続予測によってシームレスに注入する。
PDTB 2.0 と CoNLL16 データセットによる実験結果から,本手法は現状の最先端モデルに対して優れた一貫した性能を発揮することが示された。
論文 参考訳(メタデータ) (2023-11-01T08:38:08Z) - Grounded Image Text Matching with Mismatched Relation Reasoning [39.524420144738684]
GITM-MR(Gunded Image Text Matching with Mismatched Relation)は,新しい視覚言語共同作業である。
GITM-MRは、式が画像を記述するかどうかを最初に決定するためにモデルを必要とし、次に参照オブジェクトをローカライズするか、テキストのミスマッチ部分をグラウンドする。
本稿では、双方向メッセージ伝搬による関係認識推論を組み込んだRCRN(Relation-sensitive Cor correspondence Reasoning Network)を提案する。
論文 参考訳(メタデータ) (2023-08-02T15:44:36Z) - Relational Contrastive Learning for Scene Text Recognition [22.131554868199782]
従来の文脈情報は、異種テキストや背景から、テキストプリミティブの関係と解釈できると論じる。
本稿では,再構成,階層化,インタラクションによるテキスト関係の強化と,RCLSTR: Contrastive Learning for Scene Text Recognitionと呼ばれる統合フレームワークの設計を提案する。
論文 参考訳(メタデータ) (2023-08-01T12:46:58Z) - MA2CL:Masked Attentive Contrastive Learning for Multi-Agent
Reinforcement Learning [128.19212716007794]
我々はtextbfMulti-textbfAgent textbfMasked textbfAttentive textbfContrastive textbfLearning (MA2CL) という効果的なフレームワークを提案する。
MA2CLは、潜伏空間におけるマスクされたエージェント観察を再構築することにより、時間的およびエージェントレベルの予測の両方の学習表現を奨励する。
提案手法は,様々なMARLアルゴリズムの性能とサンプル効率を大幅に向上させ,様々な視覚的,状態的シナリオにおいて,他の手法よりも優れる。
論文 参考訳(メタデータ) (2023-06-03T05:32:19Z) - Structure-CLIP: Towards Scene Graph Knowledge to Enhance Multi-modal
Structured Representations [70.41385310930846]
マルチモーダルな構造表現を強化するためのエンドツーエンドフレームワークであるStructure-CLIPを提案する。
シーングラフを用いてセマンティックなネガティブな例の構築をガイドし、その結果、構造化された表現の学習に重点を置いている。
知識エンハンス(KEE)は、SGKを入力として活用し、構造化表現をさらに強化するために提案される。
論文 参考訳(メタデータ) (2023-05-06T03:57:05Z) - KELM: Knowledge Enhanced Pre-Trained Language Representations with
Message Passing on Hierarchical Relational Graphs [26.557447199727758]
本稿では,微調整プロセスに基づく知識認識型言語モデルフレームワークを提案する。
我々のモデルは、KGからの世界知識をBERTのような既存の言語モデルに効率的に組み込むことができる。
論文 参考訳(メタデータ) (2021-09-09T12:39:17Z) - Imposing Relation Structure in Language-Model Embeddings Using
Contrastive Learning [30.00047118880045]
グラフ構造における関係をエンコードするために文埋め込みを訓練する新しいコントラスト学習フレームワークを提案する。
結果として得られた関係認識文の埋め込みは、関係抽出タスクにおける最先端の結果を得る。
論文 参考訳(メタデータ) (2021-09-02T10:58:27Z) - Learning Relation Alignment for Calibrated Cross-modal Retrieval [52.760541762871505]
言語的・視覚的関係のセマンティックな距離を計測し,関係の一貫性を定量化するための新しい指標ISD(Intra-modal Self-attention Distance)を提案する。
ISDを最適化し、モダル間アライメントを介してモダル内アライメントを相互に調整するための正規化訓練法である、モダル内アライメント(IAIS)について述べる。
論文 参考訳(メタデータ) (2021-05-28T14:25:49Z) - A Dependency Syntactic Knowledge Augmented Interactive Architecture for
End-to-End Aspect-based Sentiment Analysis [73.74885246830611]
エンドツーエンドABSAのためのマルチタスク学習を用いた対話型アーキテクチャを新たに提案する。
このモデルは、よく設計された依存性関係埋め込みグラフ畳み込みネットワーク(DreGcn)を活用することで、構文知識(依存性関係と型)を完全に活用することができる。
3つのベンチマークデータセットの大規模な実験結果から,本手法の有効性が示された。
論文 参考訳(メタデータ) (2020-04-04T14:59:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。