論文の概要: CLIP4STR: A Simple Baseline for Scene Text Recognition with Pre-trained
Vision-Language Model
- arxiv url: http://arxiv.org/abs/2305.14014v1
- Date: Tue, 23 May 2023 12:51:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-24 16:31:13.751364
- Title: CLIP4STR: A Simple Baseline for Scene Text Recognition with Pre-trained
Vision-Language Model
- Title(参考訳): CLIP4STR: 事前学習型視覚言語モデルによるシーンテキスト認識のための簡易ベースライン
- Authors: Shuai Zhao, Xiaohan Wang, Linchao Zhu, Yi Yang
- Abstract要約: CLIP4STRは,CLIPの画像エンコーダとテキストエンコーダ上に構築された,シンプルで効果的なシーンテキスト認識手法である。
CLIP4STRは11のSTRベンチマークで新しい最先端のパフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 67.21528544724546
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Pre-trained vision-language models are the de-facto foundation models for
various downstream tasks. However, this trend has not extended to the field of
scene text recognition (STR), despite the potential of CLIP to serve as a
powerful scene text reader. CLIP can robustly identify regular (horizontal) and
irregular (rotated, curved, blurred, or occluded) text in natural images. With
such merits, we introduce CLIP4STR, a simple yet effective STR method built
upon image and text encoders of CLIP. It has two encoder-decoder branches: a
visual branch and a cross-modal branch. The visual branch provides an initial
prediction based on the visual feature, and the cross-modal branch refines this
prediction by addressing the discrepancy between the visual feature and text
semantics. To fully leverage the capabilities of both branches, we design a
dual predict-and-refine decoding scheme for inference. CLIP4STR achieves new
state-of-the-art performance on 11 STR benchmarks. Additionally, a
comprehensive empirical study is provided to enhance the understanding of the
adaptation of CLIP to STR. We believe our method establishes a simple but
strong baseline for future STR research with VL models.
- Abstract(参考訳): 事前訓練された視覚言語モデルは、様々な下流タスクのデファクト基盤モデルである。
しかし、この傾向はCLIPが強力なシーンテキストリーダーとして機能する可能性にもかかわらず、シーンテキスト認識(STR)の分野には及ばない。
CLIPは、自然画像中の正規(水平)および不規則(回転、湾曲、ぼやけた、あるいは隠された)テキストを堅牢に識別することができる。
このようなメリットにより、CLIPのイメージエンコーダとテキストエンコーダ上に構築された、シンプルで効果的なSTRメソッドであるCLIP4STRを導入する。
ビジュアルブランチとクロスモーダルブランチの2つのエンコーダ/デコーダブランチがある。
視覚分岐は、視覚特徴に基づく初期予測を提供し、横断的分岐は、視覚特徴とテキスト意味論の相違に対処することによって、この予測を洗練させる。
両分岐の機能を完全に活用するために、推論のための2つの予測と再定義の復号方式を設計する。
CLIP4STRは11のSTRベンチマークで新しい最先端のパフォーマンスを実現する。
さらに、CLIPのSTRへの適応の理解を高めるための総合的な実証研究が提供される。
VLモデルを用いた将来のSTR研究において,本手法は単純だが強力なベースラインを確立する。
関連論文リスト
- Decoder Pre-Training with only Text for Scene Text Recognition [54.93037783663204]
シーンテキスト認識(STR)事前学習法は,主に合成データセットに依存し,顕著な進歩を遂げている。
STR(DPTR)用テキストのみを用いたDecoder Pre-trainingという新しい手法を提案する。
DPTRはCLIPテキストエンコーダが生成したテキスト埋め込みを擬似視覚埋め込みとして扱い、デコーダの事前訓練に使用する。
論文 参考訳(メタデータ) (2024-08-11T06:36:42Z) - SILC: Improving Vision Language Pretraining with Self-Distillation [113.50400246862056]
本稿では,視覚言語事前学習のための新しいフレームワークであるSILCを紹介する。
SILCは、局所-言語対応学習を自己蒸留で簡単に追加することで、画像テキストのコントラスト学習を改善する。
指数移動平均(EMA)教師モデルから局所像の特徴を抽出することにより,検出やセグメンテーションといった密集した予測タスクにおけるモデル性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-10-20T08:44:47Z) - Symmetrical Linguistic Feature Distillation with CLIP for Scene Text
Recognition [77.93678598476149]
CLIP-OCR(Symmetrical Linguistic Feature Distillation framework)を新たに構築する。
CLIP画像エンコーダを逆CLIPテキストエンコーダでカスケードすることにより、画像からテキストまでの特徴フローで対称構造を構築する。
大規模な実験では、CLIP-OCRが6つのSTRベンチマークで平均精度93.8%で有効であることが示されている。
論文 参考訳(メタデータ) (2023-10-08T04:00:20Z) - Turning a CLIP Model into a Scene Text Detector [56.86413150091367]
近年,視覚言語モデルに基づく事前学習手法がテキスト検出の分野で有効な進歩を遂げている。
本稿では,CLIPモデルを事前学習せずにテキスト検出に利用することを目的とした,TCMと呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-02-28T06:06:12Z) - Vision-Language Pre-Training for Boosting Scene Text Detectors [57.08046351495244]
シーンテキスト検出に視覚言語を用いた共同学習を特に応用する。
本稿では,視覚言語による事前学習を通して,文脈化された共同表現を学習することを提案する。
事前訓練されたモデルは、よりリッチなセマンティクスでより情報的な表現を生成することができる。
論文 参考訳(メタデータ) (2022-04-29T03:53:54Z) - CSTR: A Classification Perspective on Scene Text Recognition [3.286661798699067]
本研究では,シーンテキスト認識を画像分類問題としてモデル化するシーンテキスト認識の新たな視点を提案する。
画像分類の観点から,CSTRと命名されたシーンテキスト認識モデルを提案する。
CSTRは、通常のテキスト、不規則なテキストを含む6つの公開ベンチマークで最先端のパフォーマンスを実現します。
論文 参考訳(メタデータ) (2021-02-22T10:32:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。