論文の概要: Vision-Language Pre-Training for Boosting Scene Text Detectors
- arxiv url: http://arxiv.org/abs/2204.13867v1
- Date: Fri, 29 Apr 2022 03:53:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-02 12:52:12.868496
- Title: Vision-Language Pre-Training for Boosting Scene Text Detectors
- Title(参考訳): シーンテキスト検出のための視覚言語事前学習
- Authors: Sibo Song, Jianqiang Wan, Zhibo Yang, Jun Tang, Wenqing Cheng, Xiang
Bai, Cong Yao
- Abstract要約: シーンテキスト検出に視覚言語を用いた共同学習を特に応用する。
本稿では,視覚言語による事前学習を通して,文脈化された共同表現を学習することを提案する。
事前訓練されたモデルは、よりリッチなセマンティクスでより情報的な表現を生成することができる。
- 参考スコア(独自算出の注目度): 57.08046351495244
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, vision-language joint representation learning has proven to be
highly effective in various scenarios. In this paper, we specifically adapt
vision-language joint learning for scene text detection, a task that
intrinsically involves cross-modal interaction between the two modalities:
vision and language, since text is the written form of language. Concretely, we
propose to learn contextualized, joint representations through vision-language
pre-training, for the sake of enhancing the performance of scene text
detectors. Towards this end, we devise a pre-training architecture with an
image encoder, a text encoder and a cross-modal encoder, as well as three
pretext tasks: image-text contrastive learning (ITC), masked language modeling
(MLM) and word-in-image prediction (WIP). The pre-trained model is able to
produce more informative representations with richer semantics, which could
readily benefit existing scene text detectors (such as EAST and PSENet) in the
down-stream text detection task. Extensive experiments on standard benchmarks
demonstrate that the proposed paradigm can significantly improve the
performance of various representative text detectors, outperforming previous
pre-training approaches. The code and pre-trained models will be publicly
released.
- Abstract(参考訳): 近年,視覚言語共同表現学習は様々なシナリオにおいて非常に効果的であることが証明されている。
本稿では,視覚と言語という2つのモダリティの相互的相互作用に関わるタスクであるシーンテキスト検出に視覚-言語共同学習を応用する。
具体的には,シーンテキスト検出器の性能向上のために,視覚言語事前学習を通して文脈化された共同表現を学ぶことを提案する。
この目的に向けて,画像エンコーダ,テキストエンコーダ,クロスモーダルエンコーダを用いた事前学習アーキテクチャと,画像テキストコントラスト学習(itc),マスク言語モデリング(mlm),word-in-image prediction(wip)という3つのプリテキストタスクを考案する。
事前訓練されたモデルは、よりリッチなセマンティクスでより情報的な表現を生成することができ、下流のテキスト検出タスクにおいて既存のシーンテキスト検出器(EASTやPSENetなど)に容易に利益をもたらすことができる。
標準ベンチマークによる大規模な実験により,提案手法は各種テキスト検出器の性能を大幅に向上し,従来の事前学習手法よりも優れていた。
コードと事前訓練されたモデルは公開される。
関連論文リスト
- On the Difference of BERT-style and CLIP-style Text Encoders [21.276382551459847]
Masked Language Modeling (MLM)は、自然言語処理において最も人気のある事前学習レシピの一つである。
最近のコントラスト言語画像事前学習(CLIP)も注目されている。
論文 参考訳(メタデータ) (2023-06-06T13:41:09Z) - Fine-Grained Semantically Aligned Vision-Language Pre-Training [151.7372197904064]
大規模な視覚言語による事前学習は、幅広い下流タスクにおいて顕著な進歩を見せている。
既存の手法は主に、画像とテキストのグローバルな表現の類似性によって、モーダル間のアライメントをモデル化する。
ゲーム理論的相互作用の新たな視点から, 微粒なセマンティックアライメントを学習する, 微粒なセマンティックなvisiOn-langUage PrEトレーニングフレームワークであるLOを導入する。
論文 参考訳(メタデータ) (2022-08-04T07:51:48Z) - MaskOCR: Text Recognition with Masked Encoder-Decoder Pretraining [68.05105411320842]
本稿では,従来のエンコーダ・デコーダ認識フレームワークにおいて,視覚と言語を事前学習するための新しいアプローチであるMaskOCRを提案する。
マスク付き画像モデリング手法を用いて、未ラベルのテキスト画像の集合を用いて特徴エンコーダを事前学習する。
テキストデータを合成されたテキスト画像に変換し、視覚と言語のデータモダリティを統一し、シーケンスデコーダの言語モデリング能力を向上する。
論文 参考訳(メタデータ) (2022-06-01T08:27:19Z) - Language Matters: A Weakly Supervised Pre-training Approach for Scene
Text Detection and Spotting [69.77701325270047]
本稿では,シーンテキストを効果的に表現できる弱教師付き事前学習手法を提案する。
本ネットワークは,画像エンコーダと文字認識型テキストエンコーダから構成され,視覚的特徴とテキスト的特徴を抽出する。
実験により、事前訓練されたモデルは、重みを他のテキスト検出やスポッティングネットワークに転送しながら、Fスコアを+2.5%、+4.8%改善することが示された。
論文 参考訳(メタデータ) (2022-03-08T08:10:45Z) - CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。
CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。
提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-11-30T07:29:08Z) - E2E-VLP: End-to-End Vision-Language Pre-training Enhanced by Visual
Learning [31.622393984150314]
本稿では,V+L理解と生成のための視覚言語事前学習モデルを提案する。
視覚表現と画像とテキスト間のセマンティックアライメントを共同で学習するための統合トランスフォーマーフレームワークを構築した。
論文 参考訳(メタデータ) (2021-06-03T12:50:26Z) - Primitive Representation Learning for Scene Text Recognition [7.818765015637802]
本研究では,シーンテキスト画像の固有表現を活用した原始表現学習手法を提案する。
プリミティブ表現学習ネットワーク(PREN)は、並列デコードに視覚テキスト表現を使用するために構築される。
また,注意に基づく手法における不整合問題を軽減するために PREN2D というフレームワークを提案する。
論文 参考訳(メタデータ) (2021-05-10T11:54:49Z) - Enhanced Modality Transition for Image Captioning [51.72997126838352]
MTM(Modality Transition Module)を構築し、言語モデルに転送する前に視覚的機能をセマンティック表現に転送します。
トレーニング段階では、モダリティ遷移ネットワークは提案されたモダリティ損失によって最適化される。
提案手法の有効性を示すMS-COCOデータセットを用いて実験を行った。
論文 参考訳(メタデータ) (2021-02-23T07:20:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。