論文の概要: Turning a CLIP Model into a Scene Text Spotter
- arxiv url: http://arxiv.org/abs/2308.10408v1
- Date: Mon, 21 Aug 2023 01:25:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-22 15:39:34.415469
- Title: Turning a CLIP Model into a Scene Text Spotter
- Title(参考訳): CLIPモデルをシーンテキストスポッターに変換する
- Authors: Wenwen Yu, Yuliang Liu, Xingkui Zhu, Haoyu Cao, Xing Sun, Xiang Bai
- Abstract要約: 我々は,大規模コントラスト言語-画像事前学習(CLIP)モデルの可能性を活用し,シーンテキストの検出とスポッティング作業を強化する。
このバックボーンは、CLIPにおける視覚的プロンプト学習とクロスアテンションを利用して、画像とテキストベースの事前知識を抽出する。
FastTCM-CR50では、画像とテキストの埋め込みのシナジーを高めるために、インスタンス言語マッチングプロセスが導入されている。
- 参考スコア(独自算出の注目度): 73.63953542526917
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We exploit the potential of the large-scale Contrastive Language-Image
Pretraining (CLIP) model to enhance scene text detection and spotting tasks,
transforming it into a robust backbone, FastTCM-CR50. This backbone utilizes
visual prompt learning and cross-attention in CLIP to extract image and
text-based prior knowledge. Using predefined and learnable prompts,
FastTCM-CR50 introduces an instance-language matching process to enhance the
synergy between image and text embeddings, thereby refining text regions. Our
Bimodal Similarity Matching (BSM) module facilitates dynamic language prompt
generation, enabling offline computations and improving performance.
FastTCM-CR50 offers several advantages: 1) It can enhance existing text
detectors and spotters, improving performance by an average of 1.7% and 1.5%,
respectively. 2) It outperforms the previous TCM-CR50 backbone, yielding an
average improvement of 0.2% and 0.56% in text detection and spotting tasks,
along with a 48.5% increase in inference speed. 3) It showcases robust few-shot
training capabilities. Utilizing only 10% of the supervised data, FastTCM-CR50
improves performance by an average of 26.5% and 5.5% for text detection and
spotting tasks, respectively. 4) It consistently enhances performance on
out-of-distribution text detection and spotting datasets, particularly the
NightTime-ArT subset from ICDAR2019-ArT and the DOTA dataset for oriented
object detection. The code is available at https://github.com/wenwenyu/TCM.
- Abstract(参考訳): 我々は,大規模コントラスト言語イメージプリトレーニング(clip)モデルの可能性を活用し,シーンテキストの検出とタスク検出を強化し,堅牢なバックボーンであるfasttcm-cr50へ変換する。
このバックボーンは、CLIPにおける視覚的プロンプト学習とクロスアテンションを利用して、画像とテキストベースの事前知識を抽出する。
事前定義された学習可能なプロンプトを使用して、FastTCM-CR50はインスタンス言語マッチングプロセスを導入し、画像とテキストの埋め込みのシナジーを強化し、テキスト領域を精製する。
bsm(bimodal similarity matching)モジュールは動的言語プロンプト生成を容易にし,オフライン計算を可能にし,パフォーマンスを向上させる。
FastTCM-CR50にはいくつかの利点がある。
1)既存のテキスト検出器とスポッターを改良し,平均1.7%,1.5%の性能向上を図る。
2) 以前のTCM-CR50のバックボーンよりも優れており、テキスト検出やスポッティングタスクでは平均0.2%と0.56%の改善、推論速度は48.5%向上した。
3) 堅牢な少数ショットトレーニング能力を示す。
教師付きデータの10%しか利用せず、FastTCM-CR50は平均26.5%と5.5%のパフォーマンス向上を実現している。
4) ICDAR2019-ArTのNightTime-ArTサブセットやオブジェクト指向オブジェクト検出用のDOTAデータセットなど,配布外テキストの検出とスポッティングデータセットのパフォーマンスを継続的に向上させる。
コードはhttps://github.com/wenwenyu/TCMで入手できる。
関連論文リスト
- FastTextSpotter: A High-Efficiency Transformer for Multilingual Scene Text Spotting [14.054151352916296]
本稿では,Swin Transformerの視覚バックボーンとTransformer-Decoderアーキテクチャを統合したFastTextSpotterを提案する。
FastTextSpotterは、通常のテキストのICDAR2015や任意の形のテキストのCTW1500、TotalTextなど、複数のデータセットで検証されている。
以上の結果から,FastTextSpotterは多言語シーンテキストの検出と認識において,より優れた精度を実現することが示唆された。
論文 参考訳(メタデータ) (2024-08-27T12:28:41Z) - Leveraging Cross-Modal Neighbor Representation for Improved CLIP Classification [54.96876797812238]
画像と隣接するテキスト間の距離構造に基づく新しいCrOss-moDal nEighbor表現(CODER)を提案する。
高品質のCODERを構築する鍵は、画像にマッチする大量の高品質で多様なテキストを作成する方法にある。
さまざまなデータセットやモデルに対する実験結果から、CODERの有効性が確認されている。
論文 参考訳(メタデータ) (2024-04-27T02:04:36Z) - Towards Fast and Accurate Image-Text Retrieval with Self-Supervised
Fine-Grained Alignment [9.183014914635553]
独立埋め込みフレームワーク上に画像テキストアライメントモジュールSelfAlignを提案する。
SelfAlignは、イメージテキストアライメントを、自己教師付きコントラスト学習によって概念レベルと文脈レベルの両方で強制する。
これは、Flickr30K、MSCOCO 1K、MS-COCO 5KデータセットのR@sumスコアでそれぞれ9.1%、4.2%、および6.6%の最先端の非プレトレーニング独立埋め込みモデルの精度を一貫して向上させる。
論文 参考訳(メタデータ) (2023-08-27T05:45:54Z) - ICPC: Instance-Conditioned Prompting with Contrastive Learning for
Semantic Segmentation [26.25673603166731]
最近の研究は、知識をCLIPから素早い学習を通して意味的セグメンテーションに移行することで、有望なパフォーマンスを実現することができることを示している。
設計と損失関数の2つの側面から視覚テキストアライメントの質を向上させることに注力する。
我々は、視覚とテキストの埋め込みのアライメントを洗練させるために、アライメント誘導によるコントラスト損失を提案する。
論文 参考訳(メタデータ) (2023-08-14T11:21:47Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - Towards Unified Text-based Person Retrieval: A Large-scale
Multi-Attribute and Language Search Benchmark [24.366997699462075]
我々は,MALSと呼ばれるテキストに基づく人物検索のための多属性・言語検索データセットを大規模に導入した。
プライバシの懸念とアノテーションのコストを考慮すると、オフザシェルフ拡散モデルを利用してデータセットを生成する。
生成したデータから学習する可能性を検証するために,新たに属性プロンプト学習とテキストマッチング学習フレームワークを開発する。
論文 参考訳(メタデータ) (2023-06-05T14:06:24Z) - DetCLIPv2: Scalable Open-Vocabulary Object Detection Pre-training via
Word-Region Alignment [104.54362490182335]
DetCLIPv2は、大規模な画像テキストペアを組み込んでオープン語彙オブジェクト検出を実現する、効率的なトレーニングフレームワークである。
DetCLIPv2は、大量の画像テキスト対から端から端まで、粒度の細かい単語領域アライメントを直接学習する。
DetCLIPv2は1300万のイメージテキストペアを事前トレーニングすることで、より優れたオープン語彙検出性能を示す。
論文 参考訳(メタデータ) (2023-04-10T11:08:15Z) - Turning a CLIP Model into a Scene Text Detector [56.86413150091367]
近年,視覚言語モデルに基づく事前学習手法がテキスト検出の分野で有効な進歩を遂げている。
本稿では,CLIPモデルを事前学習せずにテキスト検出に利用することを目的とした,TCMと呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-02-28T06:06:12Z) - Language Matters: A Weakly Supervised Pre-training Approach for Scene
Text Detection and Spotting [69.77701325270047]
本稿では,シーンテキストを効果的に表現できる弱教師付き事前学習手法を提案する。
本ネットワークは,画像エンコーダと文字認識型テキストエンコーダから構成され,視覚的特徴とテキスト的特徴を抽出する。
実験により、事前訓練されたモデルは、重みを他のテキスト検出やスポッティングネットワークに転送しながら、Fスコアを+2.5%、+4.8%改善することが示された。
論文 参考訳(メタデータ) (2022-03-08T08:10:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。