論文の概要: LEGO: Self-Supervised Representation Learning for Scene Text Images
- arxiv url: http://arxiv.org/abs/2408.02036v1
- Date: Sun, 4 Aug 2024 14:07:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-06 15:25:25.481638
- Title: LEGO: Self-Supervised Representation Learning for Scene Text Images
- Title(参考訳): LEGO: シーンテキスト画像のための自己監督型表現学習
- Authors: Yujin Ren, Jiaxin Zhang, Lianwen Jin,
- Abstract要約: 本研究では,シーンテキスト画像に対する局所的・グローバル的順序対応型自己教師型表現学習手法を提案する。
単語を学習する人間の認知プロセスにインスパイアされて、LEGOのシーケンシャル、セマンティック、構造的特徴をモデル化するための3つの新しいプレテキストタスクを提案する。
LEGO認識器は、6つのベンチマーク上での最先端のシーンテキスト認識方法よりも優れた、あるいは同等のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 32.21085469233465
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, significant progress has been made in scene text recognition by data-driven methods. However, due to the scarcity of annotated real-world data, the training of these methods predominantly relies on synthetic data. The distribution gap between synthetic and real data constrains the further performance improvement of these methods in real-world applications. To tackle this problem, a highly promising approach is to utilize massive amounts of unlabeled real data for self-supervised training, which has been widely proven effective in many NLP and CV tasks. Nevertheless, generic self-supervised methods are unsuitable for scene text images due to their sequential nature. To address this issue, we propose a Local Explicit and Global Order-aware self-supervised representation learning method (LEGO) that accounts for the characteristics of scene text images. Inspired by the human cognitive process of learning words, which involves spelling, reading, and writing, we propose three novel pre-text tasks for LEGO to model sequential, semantic, and structural features, respectively. The entire pre-training process is optimized by using a consistent Text Knowledge Codebook. Extensive experiments validate that LEGO outperforms previous scene text self-supervised methods. The recognizer incorporated with our pre-trained model achieves superior or comparable performance compared to state-of-the-art scene text recognition methods on six benchmarks. Furthermore, we demonstrate that LEGO can achieve superior performance in other text-related tasks.
- Abstract(参考訳): 近年,データ駆動方式によるシーンテキスト認識において,顕著な進歩がみられた。
しかし、注釈付き実世界のデータが不足しているため、これらの手法の訓練は主に合成データに依存している。
合成データと実データの間の分配ギャップは、実世界のアプリケーションにおけるこれらの手法のさらなる性能向上を妨げている。
この問題に対処するために、多くのNLPおよびCVタスクで広く有効な自己教師付きトレーニングに大量のラベルのない実データを活用するという、非常に有望なアプローチが提案されている。
それでも、汎用的な自己管理手法は、シーンのテキスト画像にそのシーケンシャルな性質から適さない。
この問題に対処するために,シーンテキスト画像の特徴を考慮に入れたローカル・エクスプリシット・グローバル・オーダー対応自己教師型表現学習法(LEGO)を提案する。
単語の綴り、読み、書きを含む人間の認知プロセスに触発され、レゴがそれぞれシーケンシャル、セマンティック、構造的特徴をモデル化するための3つの新しいプレテキストタスクを提案する。
事前学習プロセス全体は、一貫したテキスト知識コードブックを使用して最適化される。
広範囲にわたる実験により、LEGOは以前のシーンテキストの自己管理方法よりも優れていることが確認された。
事前学習モデルに組み込んだ認識器は,6つのベンチマークにおいて,最先端のシーンテキスト認識手法と比較して,優れた,あるいは同等のパフォーマンスを実現する。
さらに,LEGOは他のテキスト関連タスクにおいて優れたパフォーマンスを実現することができることを示す。
関連論文リスト
- VLLMs Provide Better Context for Emotion Understanding Through Common Sense Reasoning [66.23296689828152]
我々は、視覚・言語モデルの機能を活用し、文脈内感情分類を強化する。
第1段階では、VLLMが対象者の明らかな感情の自然言語で記述を生成できるように促すことを提案する。
第2段階では、記述を文脈情報として使用し、画像入力とともに、トランスフォーマーベースのアーキテクチャのトレーニングに使用する。
論文 参考訳(メタデータ) (2024-04-10T15:09:15Z) - Efficiently Leveraging Linguistic Priors for Scene Text Spotting [63.22351047545888]
本稿では,大規模テキストコーパスから言語知識を活用する手法を提案する。
シーンテキストデータセットとよく一致したテキスト分布を生成し、ドメイン内の微調整の必要性を取り除く。
実験結果から,本手法は認識精度を向上するだけでなく,単語のより正確な局所化を可能にすることが示された。
論文 参考訳(メタデータ) (2024-02-27T01:57:09Z) - SCOB: Universal Text Understanding via Character-wise Supervised
Contrastive Learning with Online Text Rendering for Bridging Domain Gap [10.011953474950744]
そこで本稿では,オンラインテキストレンダリングによる文字の教師付きコントラスト学習を活用したSCOBという新しい事前学習手法を提案する。
SCOBは弱い教師付き学習を可能にし、アノテーションのコストを大幅に削減する。
以上の結果から,SCOBは読み取り型事前学習法に有効である可能性が示唆された。
論文 参考訳(メタデータ) (2023-09-21T15:06:08Z) - Text-Only Training for Visual Storytelling [107.19873669536523]
視覚条件付きストーリー生成問題として視覚的ストーリーテリングを定式化する。
本稿では,モダリティ間のアライメントとストーリー生成の学習を分離するテキストのみのトレーニング手法を提案する。
論文 参考訳(メタデータ) (2023-08-17T09:32:17Z) - CSSL-MHTR: Continual Self-Supervised Learning for Scalable Multi-script Handwritten Text Recognition [16.987008461171065]
我々は,手書き文字認識における破滅的な忘れの問題を軽減するために,連続的な自己指導型学習の可能性を探究する。
提案手法は,各タスクにアダプタと呼ばれる中間層を追加し,現在のタスクを学習しながら,前モデルからの知識を効率的に抽出する。
私たちは英語、イタリア語、ロシア語のスクリプトで最先端のパフォーマンスを達成しましたが、タスクごとにいくつかのパラメータしか追加していません。
論文 参考訳(メタデータ) (2023-03-16T14:27:45Z) - Fine-Grained Semantically Aligned Vision-Language Pre-Training [151.7372197904064]
大規模な視覚言語による事前学習は、幅広い下流タスクにおいて顕著な進歩を見せている。
既存の手法は主に、画像とテキストのグローバルな表現の類似性によって、モーダル間のアライメントをモデル化する。
ゲーム理論的相互作用の新たな視点から, 微粒なセマンティックアライメントを学習する, 微粒なセマンティックなvisiOn-langUage PrEトレーニングフレームワークであるLOを導入する。
論文 参考訳(メタデータ) (2022-08-04T07:51:48Z) - Reading and Writing: Discriminative and Generative Modeling for
Self-Supervised Text Recognition [101.60244147302197]
テキスト画像の識別と生成を学習するために,コントラスト学習とマスク付き画像モデリングを導入する。
本手法は,不規則なシーンテキスト認識データセットにおいて,従来の自己教師付きテキスト認識手法を10.2%~20.2%向上させる。
提案したテキスト認識器は,11のベンチマークで平均5.3%の精度で従来のテキスト認識手法を上回り,モデルサイズが類似している。
論文 参考訳(メタデータ) (2022-07-01T03:50:26Z) - Multimodal Semi-Supervised Learning for Text Recognition [10.33262222726707]
本稿では,モダリティ学習の各段階におけるラベルなしデータを活用する多モーダルテキスト認識器(SemiMTR)について半教師付き学習を行う。
我々のアルゴリズムは、教師あり学習と自己教師あり学習を一体化する一段階の訓練を通して、視覚モデルを事前訓練することから始まる。
新たなセットアップでは、各モダリティに個別に一貫性が強制される。
論文 参考訳(メタデータ) (2022-05-08T13:55:30Z) - Language Matters: A Weakly Supervised Pre-training Approach for Scene
Text Detection and Spotting [69.77701325270047]
本稿では,シーンテキストを効果的に表現できる弱教師付き事前学習手法を提案する。
本ネットワークは,画像エンコーダと文字認識型テキストエンコーダから構成され,視覚的特徴とテキスト的特徴を抽出する。
実験により、事前訓練されたモデルは、重みを他のテキスト検出やスポッティングネットワークに転送しながら、Fスコアを+2.5%、+4.8%改善することが示された。
論文 参考訳(メタデータ) (2022-03-08T08:10:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。