論文の概要: CLIP4STR: A Simple Baseline for Scene Text Recognition with Pre-trained
Vision-Language Model
- arxiv url: http://arxiv.org/abs/2305.14014v2
- Date: Tue, 17 Oct 2023 05:39:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-18 21:41:00.194639
- Title: CLIP4STR: A Simple Baseline for Scene Text Recognition with Pre-trained
Vision-Language Model
- Title(参考訳): CLIP4STR: 事前学習型視覚言語モデルによるシーンテキスト認識のための簡易ベースライン
- Authors: Shuai Zhao, Xiaohan Wang, Linchao Zhu, Ruijie Quan, Yi Yang
- Abstract要約: CLIP4STRは,CLIPのイメージエンコーダとテキストエンコーダ上に構築された,シンプルで効果的なSTRメソッドである。
CLIP4STRは11のSTRベンチマークで新しい最先端のパフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 73.33909351531463
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Pre-trained vision-language models~(VLMs) are the de-facto foundation models
for various downstream tasks. However, scene text recognition methods still
prefer backbones pre-trained on a single modality, namely, the visual modality,
despite the potential of VLMs to serve as powerful scene text readers. For
example, CLIP can robustly identify regular (horizontal) and irregular
(rotated, curved, blurred, or occluded) text in images. With such merits, we
transform CLIP into a scene text reader and introduce CLIP4STR, a simple yet
effective STR method built upon image and text encoders of CLIP. It has two
encoder-decoder branches: a visual branch and a cross-modal branch. The visual
branch provides an initial prediction based on the visual feature, and the
cross-modal branch refines this prediction by addressing the discrepancy
between the visual feature and text semantics. To fully leverage the
capabilities of both branches, we design a dual predict-and-refine decoding
scheme for inference. CLIP4STR achieves new state-of-the-art performance on 11
STR benchmarks. Additionally, a comprehensive empirical study is provided to
enhance the understanding of the adaptation of CLIP to STR. We believe our
method establishes a simple but strong baseline for future STR research with
VLMs.
- Abstract(参考訳): 事前学習された視覚言語モデル~(VLM)は、様々な下流タスクのためのデファクト基礎モデルである。
しかし、シーンテキスト認識法は、VLMが強力なシーンテキストリーダーとして機能する可能性にもかかわらず、単一のモダリティ、すなわち視覚的モダリティで事前訓練されたバックボーンを好む。
例えば、CLIPは画像中の正規(水平)および不規則(回転、湾曲、ぼやけた、あるいは隠された)テキストを堅牢に識別することができる。
このようなメリットにより、CLIPをシーンテキストリーダーに変換し、CLIPのイメージエンコーダとテキストエンコーダ上に構築されたシンプルで効果的なSTRメソッドであるCLIP4STRを導入する。
ビジュアルブランチとクロスモーダルブランチの2つのエンコーダ/デコーダブランチがある。
視覚分岐は、視覚特徴に基づく初期予測を提供し、横断的分岐は、視覚特徴とテキスト意味論の相違に対処することによって、この予測を洗練させる。
両分岐の機能を完全に活用するために、推論のための2つの予測と再定義の復号方式を設計する。
CLIP4STRは11のSTRベンチマークで新しい最先端のパフォーマンスを実現する。
さらに、CLIPのSTRへの適応の理解を高めるための総合的な実証研究が提供される。
提案手法は,VLMを用いた今後のSTR研究において,単純だが強力なベースラインを確立するものである。
関連論文リスト
- Decoder Pre-Training with only Text for Scene Text Recognition [54.93037783663204]
シーンテキスト認識(STR)事前学習法は,主に合成データセットに依存し,顕著な進歩を遂げている。
STR(DPTR)用テキストのみを用いたDecoder Pre-trainingという新しい手法を提案する。
DPTRはCLIPテキストエンコーダが生成したテキスト埋め込みを擬似視覚埋め込みとして扱い、デコーダの事前訓練に使用する。
論文 参考訳(メタデータ) (2024-08-11T06:36:42Z) - SILC: Improving Vision Language Pretraining with Self-Distillation [113.50400246862056]
本稿では,視覚言語事前学習のための新しいフレームワークであるSILCを紹介する。
SILCは、局所-言語対応学習を自己蒸留で簡単に追加することで、画像テキストのコントラスト学習を改善する。
指数移動平均(EMA)教師モデルから局所像の特徴を抽出することにより,検出やセグメンテーションといった密集した予測タスクにおけるモデル性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-10-20T08:44:47Z) - Symmetrical Linguistic Feature Distillation with CLIP for Scene Text
Recognition [77.93678598476149]
CLIP-OCR(Symmetrical Linguistic Feature Distillation framework)を新たに構築する。
CLIP画像エンコーダを逆CLIPテキストエンコーダでカスケードすることにより、画像からテキストまでの特徴フローで対称構造を構築する。
大規模な実験では、CLIP-OCRが6つのSTRベンチマークで平均精度93.8%で有効であることが示されている。
論文 参考訳(メタデータ) (2023-10-08T04:00:20Z) - Turning a CLIP Model into a Scene Text Detector [56.86413150091367]
近年,視覚言語モデルに基づく事前学習手法がテキスト検出の分野で有効な進歩を遂げている。
本稿では,CLIPモデルを事前学習せずにテキスト検出に利用することを目的とした,TCMと呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-02-28T06:06:12Z) - Vision-Language Pre-Training for Boosting Scene Text Detectors [57.08046351495244]
シーンテキスト検出に視覚言語を用いた共同学習を特に応用する。
本稿では,視覚言語による事前学習を通して,文脈化された共同表現を学習することを提案する。
事前訓練されたモデルは、よりリッチなセマンティクスでより情報的な表現を生成することができる。
論文 参考訳(メタデータ) (2022-04-29T03:53:54Z) - CSTR: A Classification Perspective on Scene Text Recognition [3.286661798699067]
本研究では,シーンテキスト認識を画像分類問題としてモデル化するシーンテキスト認識の新たな視点を提案する。
画像分類の観点から,CSTRと命名されたシーンテキスト認識モデルを提案する。
CSTRは、通常のテキスト、不規則なテキストを含む6つの公開ベンチマークで最先端のパフォーマンスを実現します。
論文 参考訳(メタデータ) (2021-02-22T10:32:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。