論文の概要: Language Matters: A Weakly Supervised Pre-training Approach for Scene
Text Detection and Spotting
- arxiv url: http://arxiv.org/abs/2203.03911v1
- Date: Tue, 8 Mar 2022 08:10:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-09 23:34:30.098338
- Title: Language Matters: A Weakly Supervised Pre-training Approach for Scene
Text Detection and Spotting
- Title(参考訳): 言語問題:シーンテキストの検出とスポッティングのための微妙な事前学習アプローチ
- Authors: Chuhui Xue, Yu Hao, Shijian Lu, Philip Torr, Song Bai
- Abstract要約: 本稿では,シーンテキストを効果的に表現できる弱教師付き事前学習手法を提案する。
本ネットワークは,画像エンコーダと文字認識型テキストエンコーダから構成され,視覚的特徴とテキスト的特徴を抽出する。
実験により、事前訓練されたモデルは、重みを他のテキスト検出やスポッティングネットワークに転送しながら、Fスコアを+2.5%、+4.8%改善することが示された。
- 参考スコア(独自算出の注目度): 69.77701325270047
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Recently, Vision-Language Pre-training (VLP) techniques have greatly
benefited various vision-language tasks by jointly learning visual and textual
representations, which intuitively helps in Optical Character Recognition (OCR)
tasks due to the rich visual and textual information in scene text images.
However, these methods cannot well cope with OCR tasks because of the
difficulty in both instance-level text encoding and image-text pair acquisition
(i.e. images and captured texts in them). This paper presents a weakly
supervised pre-training method that can acquire effective scene text
representations by jointly learning and aligning visual and textual
information. Our network consists of an image encoder and a character-aware
text encoder that extract visual and textual features, respectively, as well as
a visual-textual decoder that models the interaction among textual and visual
features for learning effective scene text representations. With the learning
of textual features, the pre-trained model can attend texts in images well with
character awareness. Besides, these designs enable the learning from weakly
annotated texts (i.e. partial texts in images without text bounding boxes)
which mitigates the data annotation constraint greatly. Experiments over the
weakly annotated images in ICDAR2019-LSVT show that our pre-trained model
improves F-score by +2.5% and +4.8% while transferring its weights to other
text detection and spotting networks, respectively. In addition, the proposed
method outperforms existing pre-training techniques consistently across
multiple public datasets (e.g., +3.2% and +1.3% for Total-Text and CTW1500).
- Abstract(参考訳): 近年,視覚・言語前訓練(VLP)技術は視覚・テキスト表現を協調的に学習することで,視覚・テキスト画像のリッチな視覚・テキスト情報による光学的文字認識(OCR)タスクを直感的に支援することで,様々な視覚言語タスクに大きな恩恵を受けている。
しかし、これらの手法は、インスタンスレベルのテキストエンコーディングと画像とテキストのペア取得(画像とキャプチャされたテキスト)の両方が困難であるため、OCRタスクにうまく対応できない。
本稿では,視覚情報とテキスト情報の協調学習により,効果的なシーンテキスト表現を得ることのできる,教師付き事前学習手法を提案する。
本ネットワークは,視覚的特徴を抽出する画像エンコーダと文字認識型テキストエンコーダと,効果的なシーンテキスト表現を学習するためのテキスト特徴と視覚的特徴の相互作用をモデル化する視覚的テキストデコーダから構成される。
テキストの特徴を学習することで、事前訓練されたモデルは、文字認識とともに画像中のテキストに出席することができる。
また、これらの設計は、弱い注釈付きテキスト(テキスト境界ボックスのない画像内の部分テキスト)からの学習を可能にし、データアノテーションの制約を大幅に緩和する。
ICDAR2019-LSVTの弱い注釈付き画像に対する実験により、我々の事前訓練されたモデルは、重みを他のテキスト検出やスポッティングネットワークに転送しながら、Fスコアを+2.5%、+4.8%改善することが示された。
さらに、提案手法は、複数の公開データセット(Total-Text と CTW1500 の +3.2% と +1.3% など)で既存の事前学習手法を一貫して上回っている。
関連論文リスト
- Decoder Pre-Training with only Text for Scene Text Recognition [54.93037783663204]
シーンテキスト認識(STR)事前学習法は,主に合成データセットに依存し,顕著な進歩を遂げている。
STR(DPTR)用テキストのみを用いたDecoder Pre-trainingという新しい手法を提案する。
DPTRはCLIPテキストエンコーダが生成したテキスト埋め込みを擬似視覚埋め込みとして扱い、デコーダの事前訓練に使用する。
論文 参考訳(メタデータ) (2024-08-11T06:36:42Z) - FINEMATCH: Aspect-based Fine-grained Image and Text Mismatch Detection and Correction [66.98008357232428]
我々は新しいアスペクトベースのきめ細かいテキストと画像マッチングベンチマークであるFineMatchを提案する。
FineMatchはテキストと画像のミスマッチの検出と修正に焦点を当てている。
FineMatchで訓練されたモデルは、きめ細かいテキストや画像のミスマッチを検出する能力の向上を示す。
論文 参考訳(メタデータ) (2024-04-23T03:42:14Z) - ODM: A Text-Image Further Alignment Pre-training Approach for Scene Text Detection and Spotting [8.397246652127793]
我々は OCR-Text Destylization Modeling (ODM) と呼ばれる新しい事前学習手法を提案する。
ODMは、画像中の様々なスタイルのテキストを、テキストプロンプトに基づいて一様に転送する。
本手法は,シーンテキストの検出やスポッティング作業において,現在の事前学習方法よりも性能が大幅に向上し,性能が向上する。
論文 参考訳(メタデータ) (2024-03-01T06:13:53Z) - Towards Improving Document Understanding: An Exploration on
Text-Grounding via MLLMs [96.54224331778195]
本稿では,画像中のテキストの空間的位置を識別し,MLLMを強化したテキストグラウンド文書理解モデルTGDocを提案する。
我々は,テキスト検出,認識,スポッティングなどの命令チューニングタスクを定式化し,視覚エンコーダと大言語モデルとの密接なアライメントを容易にする。
提案手法は,複数のテキストリッチベンチマークにまたがる最先端性能を実現し,本手法の有効性を検証した。
論文 参考訳(メタデータ) (2023-11-22T06:46:37Z) - PreSTU: Pre-Training for Scene-Text Understanding [49.288302725486226]
シーンテキスト理解(STU)に特化した新しい事前学習レシピであるPreSTUを提案する。
PreSTUは、OCR対応の事前学習目標を導入し、モデルが画像からテキストを認識し、残りの画像コンテンツに接続することを奨励する。
8つの視覚的質問応答と4つの画像キャプションベンチマークに対して,この事前学習アプローチの有効性を実証的に実証した。
論文 参考訳(メタデータ) (2022-09-12T18:29:55Z) - Vision-Language Pre-Training for Boosting Scene Text Detectors [57.08046351495244]
シーンテキスト検出に視覚言語を用いた共同学習を特に応用する。
本稿では,視覚言語による事前学習を通して,文脈化された共同表現を学習することを提案する。
事前訓練されたモデルは、よりリッチなセマンティクスでより情報的な表現を生成することができる。
論文 参考訳(メタデータ) (2022-04-29T03:53:54Z) - Primitive Representation Learning for Scene Text Recognition [7.818765015637802]
本研究では,シーンテキスト画像の固有表現を活用した原始表現学習手法を提案する。
プリミティブ表現学習ネットワーク(PREN)は、並列デコードに視覚テキスト表現を使用するために構築される。
また,注意に基づく手法における不整合問題を軽減するために PREN2D というフレームワークを提案する。
論文 参考訳(メタデータ) (2021-05-10T11:54:49Z) - Multi-Modal Reasoning Graph for Scene-Text Based Fine-Grained Image
Classification and Retrieval [8.317191999275536]
本稿では,視覚的・テキスト的手がかりの形でマルチモーダルコンテンツを活用することで,微細な画像分類と検索の課題に取り組むことに焦点を当てる。
画像中の有意なオブジェクトとテキスト間の共通意味空間を学習することにより、マルチモーダル推論を行い、関係強化された特徴を得るためにグラフ畳み込みネットワークを用いる。
論文 参考訳(メタデータ) (2020-09-21T12:31:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。