Fugu-MT 論文翻訳(概要): Relational Contrastive Learning for Scene Text Recognition

論文の概要: Relational Contrastive Learning for Scene Text Recognition

arxiv url: http://arxiv.org/abs/2308.00508v1
Date: Tue, 1 Aug 2023 12:46:58 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-02 14:12:20.486258
Title: Relational Contrastive Learning for Scene Text Recognition
Title（参考訳）: シーンテキスト認識のための関係コントラスト学習
Authors: Jinglei Zhang, Tiancheng Lin, Yi Xu, Kai Chen, Rui Zhang
Abstract要約: 従来の文脈情報は、異種テキストや背景から、テキストプリミティブの関係と解釈できると論じる。本稿では,再構成,階層化,インタラクションによるテキスト関係の強化と,RCLSTR: Contrastive Learning for Scene Text Recognitionと呼ばれる統合フレームワークの設計を提案する。
参考スコア（独自算出の注目度）: 22.131554868199782
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Context-aware methods achieved great success in supervised scene text recognition via incorporating semantic priors from words. We argue that such prior contextual information can be interpreted as the relations of textual primitives due to the heterogeneous text and background, which can provide effective self-supervised labels for representation learning. However, textual relations are restricted to the finite size of dataset due to lexical dependencies, which causes the problem of over-fitting and compromises representation robustness. To this end, we propose to enrich the textual relations via rearrangement, hierarchy and interaction, and design a unified framework called RCLSTR: Relational Contrastive Learning for Scene Text Recognition. Based on causality, we theoretically explain that three modules suppress the bias caused by the contextual prior and thus guarantee representation robustness. Experiments on representation quality show that our method outperforms state-of-the-art self-supervised STR methods. Code is available at https://github.com/ThunderVVV/RCLSTR.
Abstract（参考訳）: 文脈認識手法は、単語から意味的前処理を取り入れることで、教師付きテキスト認識において大きな成功を収めた。このような事前の文脈情報は、異種テキストと背景からテキストプリミティブの関係と解釈でき、表現学習に効果的な自己教師付きラベルを提供することができると論じる。しかし、テキスト関係は語彙依存によるデータセットの有限サイズに限定されており、過剰な適合と表現の堅牢性の妥協の問題を引き起こす。そこで本研究では,rclstr:relation contrastive learning for scene text recognition という統一フレームワークを設計,再編成,階層化,相互作用を通じてテキスト関係を充実させる。因果性に基づいて,3つのモジュールが文脈先行によるバイアスを抑制し,表現ロバスト性を保証することを理論的に説明する。表現品質実験により,本手法は最先端の自己教師型STR法よりも優れていた。コードはhttps://github.com/ThunderVVV/RCLSTRで公開されている。

関連論文リスト

SE-GCL: An Event-Based Simple and Effective Graph Contrastive Learning for Text Representation [23.60337935010744]
テキスト表現のためのイベントベース,シンプル,効果的なグラフコントラスト学習(SE-GCL)を提案する。正確には、テキストからイベントブロックを抽出し、意味的相互接続を表す内部関係グラフを構築する。特に、コア表現セマンティクスのためのイベントスケルトンの概念を導入し、典型的には複雑なデータ拡張テクニックを単純化する。
論文参考訳（メタデータ） (2024-12-16T10:53:24Z)
Relational Contrastive Learning and Masked Image Modeling for Scene Text Recognition [36.59116507158687]
STR(RCMSTR)のためのコントラスト学習とマスケ画像モデリングの統合フレームワークを提案する。提案したRCMSTRは、STR関連下流タスクにおいて優れた性能を示し、既存の最先端の自己教師型STR技術よりも優れた性能を示す。
論文参考訳（メタデータ） (2024-11-18T01:11:47Z)
Efficiently Leveraging Linguistic Priors for Scene Text Spotting [63.22351047545888]
本稿では,大規模テキストコーパスから言語知識を活用する手法を提案する。シーンテキストデータセットとよく一致したテキスト分布を生成し、ドメイン内の微調整の必要性を取り除く。実験結果から,本手法は認識精度を向上するだけでなく,単語のより正確な局所化を可能にすることが示された。
論文参考訳（メタデータ） (2024-02-27T01:57:09Z)
Sequential Visual and Semantic Consistency for Semi-supervised Text Recognition [56.968108142307976]
Scene Text Recognition (STR) は、大規模なアノテートデータを必要とする課題である。既存のSTR法の多くは、STRモデルの性能を低下させ、ドメイン差を生じさせる合成データに頼っている。本稿では,視覚的・意味的両面から単語レベルの整合性正則化を取り入れたSTRの半教師付き学習手法を提案する。
論文参考訳（メタデータ） (2024-02-24T13:00:54Z)
Text-guided Image Restoration and Semantic Enhancement for Text-to-Image Person Retrieval [11.798006331912056]
テキスト・ツー・イメージ・パーソナリティ検索(TIPR)の目的は、与えられたテキスト記述に従って特定の人物画像を取得することである。本稿では,人物画像と対応するテキスト間のきめ細かいインタラクションとアライメントを構築するための新しいTIPRフレームワークを提案する。
論文参考訳（メタデータ） (2023-07-18T08:23:46Z)
TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。 TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文参考訳（メタデータ） (2023-06-06T03:37:41Z)
CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。 CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文参考訳（メタデータ） (2021-11-30T07:29:08Z)
Imposing Relation Structure in Language-Model Embeddings Using Contrastive Learning [30.00047118880045]
グラフ構造における関係をエンコードするために文埋め込みを訓練する新しいコントラスト学習フレームワークを提案する。結果として得られた関係認識文の埋め込みは、関係抽出タスクにおける最先端の結果を得る。
論文参考訳（メタデータ） (2021-09-02T10:58:27Z)
Text is Text, No Matter What: Unifying Text Recognition using Knowledge Distillation [41.43280922432707]
私たちは、2つの最先端のSTRモデルとHTRモデルと好適に競合できる単一のモデルを目指しています。まず、STRモデルとHTRモデルの相互利用が、それらの固有の課題の違いにより、大幅な性能低下を引き起こすことを示す。次に、知識蒸留(KD)に基づく枠組みを導入することで、彼らの連合に取り組みます。
論文参考訳（メタデータ） (2021-07-26T10:10:34Z)
Consensus-Aware Visual-Semantic Embedding for Image-Text Matching [69.34076386926984]
画像テキストマッチングは、視覚と言語をブリッジする上で中心的な役割を果たす。既存のアプローチのほとんどは、表現を学ぶためにイメージテキストインスタンスペアのみに依存しています。コンセンサスを意識したビジュアル・セマンティック・エンベディングモデルを提案し,コンセンサス情報を組み込む。
論文参考訳（メタデータ） (2020-07-17T10:22:57Z)
Towards Accurate Scene Text Recognition with Semantic Reasoning Networks [52.86058031919856]
本稿では,シーンテキスト認識のための意味推論ネットワーク(SRN)という,エンドツーエンドのトレーニング可能な新しいフレームワークを提案する。 GSRMはマルチウェイ並列伝送によってグローバルセマンティックコンテキストをキャプチャするために導入された。正規テキスト,不規則テキスト,非ラテン語長文を含む7つの公開ベンチマークの結果,提案手法の有効性とロバスト性を検証した。
論文参考訳（メタデータ） (2020-03-27T09:19:25Z)
SCATTER: Selective Context Attentional Scene Text Recognizer [16.311256552979835]
Scene Text Recognition (STR) は複雑な画像背景に対してテキストを認識するタスクである。現在のSOTA(State-of-the-art)メソッドは、任意の形で書かれたテキストを認識するのに依然として苦労している。 Selective Context Attentional Text Recognizer (SCATTER) というSTRの新しいアーキテクチャを導入する。
論文参考訳（メタデータ） (2020-03-25T09:20:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。