論文の概要: Relational Contrastive Learning for Scene Text Recognition
- arxiv url: http://arxiv.org/abs/2308.00508v1
- Date: Tue, 1 Aug 2023 12:46:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-02 14:12:20.486258
- Title: Relational Contrastive Learning for Scene Text Recognition
- Title(参考訳): シーンテキスト認識のための関係コントラスト学習
- Authors: Jinglei Zhang, Tiancheng Lin, Yi Xu, Kai Chen, Rui Zhang
- Abstract要約: 従来の文脈情報は、異種テキストや背景から、テキストプリミティブの関係と解釈できると論じる。
本稿では,再構成,階層化,インタラクションによるテキスト関係の強化と,RCLSTR: Contrastive Learning for Scene Text Recognitionと呼ばれる統合フレームワークの設計を提案する。
- 参考スコア(独自算出の注目度): 22.131554868199782
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Context-aware methods achieved great success in supervised scene text
recognition via incorporating semantic priors from words. We argue that such
prior contextual information can be interpreted as the relations of textual
primitives due to the heterogeneous text and background, which can provide
effective self-supervised labels for representation learning. However, textual
relations are restricted to the finite size of dataset due to lexical
dependencies, which causes the problem of over-fitting and compromises
representation robustness. To this end, we propose to enrich the textual
relations via rearrangement, hierarchy and interaction, and design a unified
framework called RCLSTR: Relational Contrastive Learning for Scene Text
Recognition. Based on causality, we theoretically explain that three modules
suppress the bias caused by the contextual prior and thus guarantee
representation robustness. Experiments on representation quality show that our
method outperforms state-of-the-art self-supervised STR methods. Code is
available at https://github.com/ThunderVVV/RCLSTR.
- Abstract(参考訳): 文脈認識手法は、単語から意味的前処理を取り入れることで、教師付きテキスト認識において大きな成功を収めた。
このような事前の文脈情報は、異種テキストと背景からテキストプリミティブの関係と解釈でき、表現学習に効果的な自己教師付きラベルを提供することができると論じる。
しかし、テキスト関係は語彙依存によるデータセットの有限サイズに限定されており、過剰な適合と表現の堅牢性の妥協の問題を引き起こす。
そこで本研究では,rclstr:relation contrastive learning for scene text recognition という統一フレームワークを設計,再編成,階層化,相互作用を通じてテキスト関係を充実させる。
因果性に基づいて,3つのモジュールが文脈先行によるバイアスを抑制し,表現ロバスト性を保証することを理論的に説明する。
表現品質実験により,本手法は最先端の自己教師型STR法よりも優れていた。
コードはhttps://github.com/ThunderVVV/RCLSTRで公開されている。
関連論文リスト
- Relational Contrastive Learning and Masked Image Modeling for Scene Text Recognition [36.59116507158687]
STR(RCMSTR)のためのコントラスト学習とマスケ画像モデリングの統合フレームワークを提案する。
提案したRCMSTRは、STR関連下流タスクにおいて優れた性能を示し、既存の最先端の自己教師型STR技術よりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-11-18T01:11:47Z) - Efficiently Leveraging Linguistic Priors for Scene Text Spotting [63.22351047545888]
本稿では,大規模テキストコーパスから言語知識を活用する手法を提案する。
シーンテキストデータセットとよく一致したテキスト分布を生成し、ドメイン内の微調整の必要性を取り除く。
実験結果から,本手法は認識精度を向上するだけでなく,単語のより正確な局所化を可能にすることが示された。
論文 参考訳(メタデータ) (2024-02-27T01:57:09Z) - Sequential Visual and Semantic Consistency for Semi-supervised Text
Recognition [56.968108142307976]
Scene Text Recognition (STR) は、大規模なアノテートデータを必要とする課題である。
既存のSTR法の多くは、STRモデルの性能を低下させ、ドメイン差を生じさせる合成データに頼っている。
本稿では,視覚的・意味的両面から単語レベルの整合性正則化を取り入れたSTRの半教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2024-02-24T13:00:54Z) - Text-guided Image Restoration and Semantic Enhancement for Text-to-Image Person Retrieval [11.798006331912056]
テキスト・ツー・イメージ・パーソナリティ検索(TIPR)の目的は、与えられたテキスト記述に従って特定の人物画像を取得することである。
本稿では,人物画像と対応するテキスト間のきめ細かいインタラクションとアライメントを構築するための新しいTIPRフレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-18T08:23:46Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。
CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。
提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-11-30T07:29:08Z) - Imposing Relation Structure in Language-Model Embeddings Using
Contrastive Learning [30.00047118880045]
グラフ構造における関係をエンコードするために文埋め込みを訓練する新しいコントラスト学習フレームワークを提案する。
結果として得られた関係認識文の埋め込みは、関係抽出タスクにおける最先端の結果を得る。
論文 参考訳(メタデータ) (2021-09-02T10:58:27Z) - Text is Text, No Matter What: Unifying Text Recognition using Knowledge
Distillation [41.43280922432707]
私たちは、2つの最先端のSTRモデルとHTRモデルと好適に競合できる単一のモデルを目指しています。
まず、STRモデルとHTRモデルの相互利用が、それらの固有の課題の違いにより、大幅な性能低下を引き起こすことを示す。
次に、知識蒸留(KD)に基づく枠組みを導入することで、彼らの連合に取り組みます。
論文 参考訳(メタデータ) (2021-07-26T10:10:34Z) - Consensus-Aware Visual-Semantic Embedding for Image-Text Matching [69.34076386926984]
画像テキストマッチングは、視覚と言語をブリッジする上で中心的な役割を果たす。
既存のアプローチのほとんどは、表現を学ぶためにイメージテキストインスタンスペアのみに依存しています。
コンセンサスを意識したビジュアル・セマンティック・エンベディングモデルを提案し,コンセンサス情報を組み込む。
論文 参考訳(メタデータ) (2020-07-17T10:22:57Z) - Towards Accurate Scene Text Recognition with Semantic Reasoning Networks [52.86058031919856]
本稿では,シーンテキスト認識のための意味推論ネットワーク(SRN)という,エンドツーエンドのトレーニング可能な新しいフレームワークを提案する。
GSRMはマルチウェイ並列伝送によってグローバルセマンティックコンテキストをキャプチャするために導入された。
正規テキスト,不規則テキスト,非ラテン語長文を含む7つの公開ベンチマークの結果,提案手法の有効性とロバスト性を検証した。
論文 参考訳(メタデータ) (2020-03-27T09:19:25Z) - SCATTER: Selective Context Attentional Scene Text Recognizer [16.311256552979835]
Scene Text Recognition (STR) は複雑な画像背景に対してテキストを認識するタスクである。
現在のSOTA(State-of-the-art)メソッドは、任意の形で書かれたテキストを認識するのに依然として苦労している。
Selective Context Attentional Text Recognizer (SCATTER) というSTRの新しいアーキテクチャを導入する。
論文 参考訳(メタデータ) (2020-03-25T09:20:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。