Fugu-MT 論文翻訳(概要): Relational Contrastive Learning and Masked Image Modeling for Scene Text Recognition

論文の概要: Relational Contrastive Learning and Masked Image Modeling for Scene Text Recognition

arxiv url: http://arxiv.org/abs/2411.11219v1
Date: Mon, 18 Nov 2024 01:11:47 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:48.562725
Title: Relational Contrastive Learning and Masked Image Modeling for Scene Text Recognition
Title（参考訳）: シーンテキスト認識のための関係コントラスト学習とマスク画像モデリング
Authors: Tiancheng Lin, Jinglei Zhang, Yi Xu, Kai Chen, Rui Zhang, Chang-Wen Chen,
Abstract要約: 本稿では,STRのためのコントラスト学習とマスド画像モデリングの統一フレームワークを提案する。提案したRCMSTRは、STR関連下流タスクにおいて優れた性能を示し、既存の最先端の自己教師型STR技術よりも優れた性能を示す。
参考スコア（独自算出の注目度）: 36.59116507158687
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Context-aware methods have achieved remarkable advancements in supervised scene text recognition by leveraging semantic priors from words. Considering the heterogeneity of text and background in STR, we propose that such contextual priors can be reinterpreted as the relations between textual elements, serving as effective self-supervised labels for representation learning. However, textual relations are restricted to the finite size of the dataset due to lexical dependencies, which causes over-fitting problem, thus compromising the representation quality. To address this, our work introduces a unified framework of Relational Contrastive Learning and Masked Image Modeling for STR (RCMSTR), which explicitly models the enriched textual relations. For the RCL branch, we first introduce the relational rearrangement module to cultivate new relations on the fly. Based on this, we further conduct relational contrastive learning to model the intra- and inter-hierarchical relations for frames, sub-words and words.On the other hand, MIM can naturally boost the context information via masking, where we find that the block masking strategy is more effective for STR. For the effective integration of RCL and MIM, we also introduce a novel decoupling design aimed at mitigating the impact of masked images on contrastive learning. Additionally, to enhance the compatibility of MIM with CNNs, we propose the adoption of sparse convolutions and directly sharing the weights with dense convolutions in training. The proposed RCMSTR demonstrates superior performance in various evaluation protocols for different STR-related downstream tasks, outperforming the existing state-of-the-art self-supervised STR techniques. Ablation studies and qualitative experimental results further validate the effectiveness of our method.The code and pre-trained models will be available at https://github.com/ThunderVVV/RCMSTR .
Abstract（参考訳）: 文脈認識手法は、単語のセマンティックな先行情報を活用することによって、教師付きシーンテキスト認識において顕著な進歩を遂げた。 STRにおけるテキストと背景の不均一性を考慮すると、このような文脈的事前はテキスト要素間の関係として解釈でき、表現学習のための効果的な自己教師付きラベルとして機能する。しかし、テキスト関係は語彙依存によるデータセットの有限サイズに制限されるため、過度に適合する問題が発生し、表現品質が損なわれる。そこで本研究では,リッチなテキスト関係を明示的にモデル化する,RCMSTR(Relational Contrastive Learning and Masked Image Modeling for STR)の統一フレームワークを提案する。 RCL分岐では、まず、ハエの新たな関係を育むために、リレーショナル再構成モジュールを導入する。これに基づいて, フレーム, サブワード, 単語の階層内および階層間関係をモデル化するリレーショナル・コントラクティブ・ラーニングを行い, その一方でMIMはマスキングによってコンテキスト情報を自然に向上させることができる。また、RCLとMIMを効果的に統合するために、マスクされた画像がコントラスト学習に与える影響を緩和する新しいデカップリング設計を導入する。さらに,MIMとCNNとの互換性を高めるために,スパース畳み込みの導入を提案し,トレーニングにおいて重み付けを直接共有する。提案したRCMSTRは、様々なSTR関連下流タスクの評価プロトコルにおいて、既存の最先端の自己教師型STR技術よりも優れた性能を示す。コードおよび事前訓練されたモデルは、https://github.com/ThunderVVV/RCMSTRで利用可能である。

関連論文リスト

CoT Referring: Improving Referring Expression Tasks with Grounded Reasoning [67.18702329644526]
CoT Referringは、構造化されたチェーン・オブ・シークレット・トレーニングデータ構造を通じて、モデル推論をモダリティにわたって強化する。トレーニングデータを再構築して、新たな出力フォームを実行し、既存のデータセットに新たなアノテーションを提供します。また、検出とセグメント化機能を統合MLLMフレームワークに統合し、新しい適応重み付き損失で学習して性能を最適化する。
論文参考訳（メタデータ） (2025-10-03T08:50:21Z)
Towards Explainable Job Title Matching: Leveraging Semantic Textual Relatedness and Knowledge Graphs [0.19116784879310025]
本研究では,ジョブタイトルマッチングの文脈における意味的テキスト関連性(STR)について検討する。本稿では,密文埋め込みとドメイン固有の知識グラフを組み合わせた自己教師型ハイブリッドアーキテクチャを提案する。 KGを付加した細調整SBERTモデルが高STR領域で一貫した改善をもたらすことを示す。
論文参考訳（メタデータ） (2025-09-11T15:02:54Z)
Knowledge Graph Completion with Relation-Aware Anchor Enhancement [50.50944396454757]
関係認識型アンカー強化知識グラフ補完法(RAA-KGC)を提案する。まず、ヘッダーのリレーショナル・アウェア・エリア内でアンカー・エンティティを生成します。次に、アンカーの近傍に埋め込まれたクエリを引っ張ることで、ターゲットのエンティティマッチングに対してより差別的になるように調整する。
論文参考訳（メタデータ） (2025-04-08T15:22:08Z)
Sequential Visual and Semantic Consistency for Semi-supervised Text Recognition [56.968108142307976]
Scene Text Recognition (STR) は、大規模なアノテートデータを必要とする課題である。既存のSTR法の多くは、STRモデルの性能を低下させ、ドメイン差を生じさせる合成データに頼っている。本稿では,視覚的・意味的両面から単語レベルの整合性正則化を取り入れたSTRの半教師付き学習手法を提案する。
論文参考訳（メタデータ） (2024-02-24T13:00:54Z)
Prompt-based Logical Semantics Enhancement for Implicit Discourse Relation Recognition [4.7938839332508945]
Inlicit Discourse Relation Recognition (IDRR) のための Prompt-based Logical Semantics Enhancement (PLSE) 法を提案する。提案手法は,事前学習した言語モデルに対する対話関係に関する知識を,素早い接続予測によってシームレスに注入する。 PDTB 2.0 と CoNLL16 データセットによる実験結果から,本手法は現状の最先端モデルに対して優れた一貫した性能を発揮することが示された。
論文参考訳（メタデータ） (2023-11-01T08:38:08Z)
Relational Contrastive Learning for Scene Text Recognition [22.131554868199782]
従来の文脈情報は、異種テキストや背景から、テキストプリミティブの関係と解釈できると論じる。本稿では,再構成,階層化,インタラクションによるテキスト関係の強化と,RCLSTR: Contrastive Learning for Scene Text Recognitionと呼ばれる統合フレームワークの設計を提案する。
論文参考訳（メタデータ） (2023-08-01T12:46:58Z)
MA2CL:Masked Attentive Contrastive Learning for Multi-Agent Reinforcement Learning [128.19212716007794]
我々はtextbfMulti-textbfAgent textbfMasked textbfAttentive textbfContrastive textbfLearning (MA2CL) という効果的なフレームワークを提案する。 MA2CLは、潜伏空間におけるマスクされたエージェント観察を再構築することにより、時間的およびエージェントレベルの予測の両方の学習表現を奨励する。提案手法は,様々なMARLアルゴリズムの性能とサンプル効率を大幅に向上させ,様々な視覚的,状態的シナリオにおいて,他の手法よりも優れる。
論文参考訳（メタデータ） (2023-06-03T05:32:19Z)
Structure-CLIP: Towards Scene Graph Knowledge to Enhance Multi-modal Structured Representations [70.41385310930846]
マルチモーダルな構造表現を強化するためのエンドツーエンドフレームワークであるStructure-CLIPを提案する。シーングラフを用いてセマンティックなネガティブな例の構築をガイドし、その結果、構造化された表現の学習に重点を置いている。知識エンハンス(KEE)は、SGKを入力として活用し、構造化表現をさらに強化するために提案される。
論文参考訳（メタデータ） (2023-05-06T03:57:05Z)
KELM: Knowledge Enhanced Pre-Trained Language Representations with Message Passing on Hierarchical Relational Graphs [26.557447199727758]
本稿では,微調整プロセスに基づく知識認識型言語モデルフレームワークを提案する。我々のモデルは、KGからの世界知識をBERTのような既存の言語モデルに効率的に組み込むことができる。
論文参考訳（メタデータ） (2021-09-09T12:39:17Z)
Imposing Relation Structure in Language-Model Embeddings Using Contrastive Learning [30.00047118880045]
グラフ構造における関係をエンコードするために文埋め込みを訓練する新しいコントラスト学習フレームワークを提案する。結果として得られた関係認識文の埋め込みは、関係抽出タスクにおける最先端の結果を得る。
論文参考訳（メタデータ） (2021-09-02T10:58:27Z)
Learning Relation Alignment for Calibrated Cross-modal Retrieval [52.760541762871505]
言語的・視覚的関係のセマンティックな距離を計測し,関係の一貫性を定量化するための新しい指標ISD(Intra-modal Self-attention Distance)を提案する。 ISDを最適化し、モダル間アライメントを介してモダル内アライメントを相互に調整するための正規化訓練法である、モダル内アライメント(IAIS)について述べる。
論文参考訳（メタデータ） (2021-05-28T14:25:49Z)
A Dependency Syntactic Knowledge Augmented Interactive Architecture for End-to-End Aspect-based Sentiment Analysis [73.74885246830611]
エンドツーエンドABSAのためのマルチタスク学習を用いた対話型アーキテクチャを新たに提案する。このモデルは、よく設計された依存性関係埋め込みグラフ畳み込みネットワーク(DreGcn)を活用することで、構文知識(依存性関係と型)を完全に活用することができる。 3つのベンチマークデータセットの大規模な実験結果から,本手法の有効性が示された。
論文参考訳（メタデータ） (2020-04-04T14:59:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。